自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

推理模型規(guī)劃任務(wù)成功率從5%到95%,DeepMind遺傳算法新研究火了

人工智能 新聞
所提出的“Mind Evolution”(思維進(jìn)化),能夠優(yōu)化大語言模型(LLMs)在規(guī)劃和推理中的響應(yīng)。

瞄準(zhǔn)推理時擴(kuò)展(Inference-time scaling),DeepMind新的進(jìn)化搜索策略火了!

所提出的“Mind Evolution”(思維進(jìn)化),能夠優(yōu)化大語言模型(LLMs)在規(guī)劃和推理中的響應(yīng)。

由于提升顯著,Reddit/??一時間出現(xiàn)了大量討論:

圖片

由于結(jié)合了遺傳算法,使用Mind Evolution能讓Gemini 1.5 Flash任務(wù)成功率從原本的5%左右,一下提升90個百分點(diǎn)。

而且成本方面,和最接近這一性能的傳統(tǒng)方法Sequential-Revision+相比,所使用的tokens數(shù)量僅為后者的幾分之一。

圖片

響應(yīng)更好,成本還降低了,還是無需微調(diào)的結(jié)果。

這令人熟悉的配方又直接“迷倒”了一大片網(wǎng)友:

圖片
圖片

與此同時,Mind Evolution還有一大優(yōu)勢也令人津津樂道:

它可以直接處理自然語言問題,而無需像傳統(tǒng)一樣需要將任務(wù)問題進(jìn)一步形式化(即將實(shí)際問題轉(zhuǎn)化為精確的、可被算法處理的數(shù)學(xué)或邏輯形式)。

也就是說,僅需一個最終檢查解決方案是否正確的評估器,任務(wù)形式化也不需要了。

將問題形式化,需要大量領(lǐng)域?qū)I(yè)知識和對問題的透徹理解,才能找出所有需用符號表示的關(guān)鍵元素及其關(guān)系,這大大限制了Inference-time scaling的適用范圍。

總之按網(wǎng)友形容,這項研究就像給大語言模型升級大腦而不刷爆信用卡,酷酷酷??!

圖片

下面來看具體是如何做到的。

結(jié)合了進(jìn)化搜索原理和LLMs的自然語言能力

首先,OpenAI的o1系列模型率先引入了推理時擴(kuò)展(inference-time scaling)的概念,通過增加思維鏈(Chain-of-Thought)推理過程的長度,在數(shù)學(xué)、編程、科學(xué)推理等任務(wù)上取得了顯著的性能提升。

換句話說,通過讓模型思考更多、更深,其響應(yīng)也會越來越好。

而為了更多利用推理時擴(kuò)展,先前研究還提出了自一致性(self-consistency)、基于反饋的順序修正(如Sequential-Revision +),以及由輔助驗(yàn)證器或評估器引導(dǎo)的搜索(如Best-of-N)

基于同樣目的,DeepMind提出了Mind Evolution這一針對LLMs的新進(jìn)化搜索策略。

結(jié)合了進(jìn)化搜索原理與LLMs的自然語言能力,既允許對可能的解決方案進(jìn)行廣泛探索,也允許對有希望的候選方案進(jìn)行深入細(xì)化。

具體而言,Mind Evolution依賴于兩個關(guān)鍵組件:搜索算法和遺傳算法。

搜索算法比較常見,一般用來讓LLMs找到最佳推理路徑以獲得最優(yōu)解;而遺傳算法結(jié)合大語言模型,在自然語言處理任務(wù)中,通過迭代優(yōu)化候選解決方案,以更好地滿足任務(wù)目標(biāo)。

圖片

舉個例子,假如面臨上圖中的任務(wù):

請計劃從西雅圖到洛杉磯和南達(dá)科他州的5天旅行,預(yù)算為800美元。我們希望至少有一頓晚餐吃日本料理,并且偏好入住私人酒店客房。

Mind Evolution整體處理流程如下(類似遺傳算法)

  • 樣本解決方案生成(Sample solutions):使用LLMs生成多個初始旅行計劃;
  • 評估(Evaluate):對生成的解決方案給出反饋,指出問題,如成本超出預(yù)算限制、用餐偏好未滿足等;
  • 改進(jìn)(Refine,包括選擇、交叉、變異):根據(jù)評估反饋,對解決方案進(jìn)行改進(jìn);
  • 終止條件(Terminate):當(dāng)滿足以下條件之一時終止,如找到有效或最佳解決方案,或達(dá)到最大計算預(yù)算(Gen N)。

這里尤其需要提到改進(jìn)過程,其中選擇是指依據(jù)評估反饋,選擇更有可能改進(jìn)的解決方案;交叉指將不同解決方案的部分內(nèi)容進(jìn)行組合,實(shí)現(xiàn)類似生物基因重組的效果,生成新的候選解決方案;變異是指對解決方案進(jìn)行隨機(jī)調(diào)整,增加種群多樣性,以探索更多可能的解決方案。

最終,評估、選擇和重組的循環(huán)將持續(xù)進(jìn)行,直到算法達(dá)到最優(yōu)解或耗盡預(yù)設(shè)的迭代次數(shù)。

圖片

另外值得一提的是,Mind Evolution具體是通過“The fitness function”(適應(yīng)度函數(shù))來消除任務(wù)形式化問題。

簡單說,適應(yīng)度函數(shù)適配自然語言規(guī)劃任務(wù),解決方案以自然語言呈現(xiàn)。

如此一來,在有程序性解決方案評估器時,系統(tǒng)可規(guī)避問題形式化,并且除給出數(shù)值評分外,還能提供文本反饋,幫助LLMs理解具體問題并開展針對性優(yōu)化。

此外,Mind Evolution還采用“island”(島嶼)方法來確保多樣化探索。

在每一個階段,算法都會創(chuàng)建各自獨(dú)立進(jìn)化的解決方案組。然后,它將最優(yōu)解從一組“遷移”到另一組,以結(jié)合并創(chuàng)造新的解決方案。

那么,Mind Evolution實(shí)際表現(xiàn)如何呢?

規(guī)劃表現(xiàn)均優(yōu)于其他基線方法

實(shí)驗(yàn)階段,研究人員將它和其他基線進(jìn)行了對比。

  • 1-pass:使用o1-preview,模型只生成一個答案;
  • Best-of-N,模型生成多個答案并選擇最佳答案;
  • Sequential Revisions+:模型獨(dú)立提出10個候選解決方案,然后分別對80次迭代進(jìn)行修訂。

可以看出,盡管缺少遺傳算法組件,Sequential Revisions+在旅行規(guī)劃上的成功率最為接近Mind Evolution。

不過隨著從左至右任務(wù)復(fù)雜性的增加,Mind Evolution與其他方法之間的差距越來越大,優(yōu)勢愈發(fā)凸顯。

圖片

整體來看,在所有測試中,Mind Evolution的表現(xiàn)都遠(yuǎn)遠(yuǎn)超過了基線,尤其是在任務(wù)變得更加困難時。

在TravelPlanner(評估旅行規(guī)劃)和Natural Plan(評估會議規(guī)劃)這兩項基準(zhǔn)測試中,未采用Mind Evolution的Gemini 1.5 Flash任務(wù)成功率分別為5.6%和20.8%,而采用Mind Evolution之后,其任務(wù)成功率分別提升至95.6%和85.0%。

而且,如果繼續(xù)將Gemini 1.5 Flash未解決的問題丟給1.5Pro,其成功率更是上升至100%和98.4%

另外成本方面,和最接近上述性能的傳統(tǒng)方法Sequential-Revision+相比,所使用的tokens數(shù)量僅為后者的幾分之一。

圖片

除此之外,研究人員引入了一項新測試任務(wù)——StegPoet

需要在創(chuàng)意寫作中嵌入隱寫信息,屬于自然語言規(guī)劃任務(wù)范疇。

簡單說,它要求在創(chuàng)作富有創(chuàng)意的文本內(nèi)容時,還要將特定的信息以隱寫的方式巧妙融入其中,這既需要邏輯推理能力,也對LLMs在創(chuàng)造性表達(dá)方面的能力提出了更高要求。

圖片

而從相關(guān)實(shí)驗(yàn)來看,Mind Evolution也經(jīng)受住了這一復(fù)雜任務(wù)的考驗(yàn)。

圖片

總體來說,這項研究通過將廣泛搜索(隨機(jī)探索)與深度搜索(利用LLM進(jìn)行解決方案細(xì)化)相結(jié)合,進(jìn)一步提升了模型在規(guī)劃和推理上的響應(yīng)。

更多細(xì)節(jié)歡迎查閱原論文。

論文:https://arxiv.org/abs/2501.09891

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-06-17 13:34:54

2014-08-29 10:05:02

2024-09-09 08:10:00

2012-10-23 14:27:55

無奈大裁員濾鏡拍照

2010-11-18 10:59:00

求職

2024-01-03 17:39:23

云計算混合云

2021-03-10 15:49:20

人工智能遺傳算法

2025-03-05 00:22:00

2025-02-12 10:05:00

AILLM訓(xùn)練

2021-01-20 18:13:52

VRAR守門員

2017-11-16 15:25:54

Go語言算法代碼

2025-01-16 07:10:00

2021-09-30 11:14:47

服務(wù)器Web瀏覽器

2023-08-21 13:30:18

預(yù)測機(jī)器學(xué)習(xí)

2009-08-14 09:41:03

C#遺傳算法

2024-02-06 14:11:00

模型數(shù)據(jù)

2021-04-21 15:22:40

機(jī)器人人工智能系統(tǒng)

2016-10-28 15:58:29

大數(shù)據(jù)就業(yè)成功率

2025-02-12 14:09:31

DeepSeekChatGPTAPI

2024-10-05 15:30:00

LLM模型推理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號