自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="g1zqq"><blockquote id="g1zqq"></blockquote></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

推理模型規(guī)劃任務(wù)成功率從5%到95%，DeepMind遺傳算法新研究火了

作者：量子位 2025-01-23 16:25:23

人工智能新聞

所提出的“Mind Evolution”（思維進(jìn)化），能夠優(yōu)化大語言模型（LLMs）在規(guī)劃和推理中的響應(yīng)。

瞄準(zhǔn)推理時擴(kuò)展（Inference-time scaling），DeepMind新的進(jìn)化搜索策略火了！

所提出的“Mind Evolution”（思維進(jìn)化），能夠優(yōu)化大語言模型（LLMs）在規(guī)劃和推理中的響應(yīng)。

由于提升顯著，Reddit/??一時間出現(xiàn)了大量討論：

由于結(jié)合了遺傳算法，使用Mind Evolution能讓Gemini 1.5 Flash任務(wù)成功率從原本的5%左右，一下提升90個百分點(diǎn)。

而且成本方面，和最接近這一性能的傳統(tǒng)方法Sequential-Revision+相比，所使用的tokens數(shù)量僅為后者的幾分之一。

響應(yīng)更好，成本還降低了，還是無需微調(diào)的結(jié)果。

這令人熟悉的配方又直接“迷倒”了一大片網(wǎng)友：

與此同時，Mind Evolution還有一大優(yōu)勢也令人津津樂道：

它可以直接處理自然語言問題，而無需像傳統(tǒng)一樣需要將任務(wù)問題進(jìn)一步形式化（即將實(shí)際問題轉(zhuǎn)化為精確的、可被算法處理的數(shù)學(xué)或邏輯形式）。

也就是說，僅需一個最終檢查解決方案是否正確的評估器，任務(wù)形式化也不需要了。

將問題形式化，需要大量領(lǐng)域?qū)I(yè)知識和對問題的透徹理解，才能找出所有需用符號表示的關(guān)鍵元素及其關(guān)系，這大大限制了Inference-time scaling的適用范圍。

總之按網(wǎng)友形容，這項研究就像給大語言模型升級大腦而不刷爆信用卡，酷酷酷??！

下面來看具體是如何做到的。

結(jié)合了進(jìn)化搜索原理和LLMs的自然語言能力

首先，OpenAI的o1系列模型率先引入了推理時擴(kuò)展（inference-time scaling）的概念，通過增加思維鏈（Chain-of-Thought）推理過程的長度，在數(shù)學(xué)、編程、科學(xué)推理等任務(wù)上取得了顯著的性能提升。

換句話說，通過讓模型思考更多、更深，其響應(yīng)也會越來越好。

而為了更多利用推理時擴(kuò)展，先前研究還提出了自一致性（self-consistency）、基于反饋的順序修正（如Sequential-Revision +），以及由輔助驗(yàn)證器或評估器引導(dǎo)的搜索（如Best-of-N）。

基于同樣目的，DeepMind提出了Mind Evolution這一針對LLMs的新進(jìn)化搜索策略。

結(jié)合了進(jìn)化搜索原理與LLMs的自然語言能力，既允許對可能的解決方案進(jìn)行廣泛探索，也允許對有希望的候選方案進(jìn)行深入細(xì)化。

具體而言，Mind Evolution依賴于兩個關(guān)鍵組件：搜索算法和遺傳算法。

搜索算法比較常見，一般用來讓LLMs找到最佳推理路徑以獲得最優(yōu)解；而遺傳算法結(jié)合大語言模型，在自然語言處理任務(wù)中，通過迭代優(yōu)化候選解決方案，以更好地滿足任務(wù)目標(biāo)。

舉個例子，假如面臨上圖中的任務(wù)：

請計劃從西雅圖到洛杉磯和南達(dá)科他州的5天旅行，預(yù)算為800美元。我們希望至少有一頓晚餐吃日本料理，并且偏好入住私人酒店客房。

Mind Evolution整體處理流程如下（類似遺傳算法）：

樣本解決方案生成（Sample solutions）：使用LLMs生成多個初始旅行計劃；
評估（Evaluate）：對生成的解決方案給出反饋，指出問題，如成本超出預(yù)算限制、用餐偏好未滿足等；
改進(jìn)（Refine，包括選擇、交叉、變異）：根據(jù)評估反饋，對解決方案進(jìn)行改進(jìn)；
終止條件（Terminate）：當(dāng)滿足以下條件之一時終止，如找到有效或最佳解決方案，或達(dá)到最大計算預(yù)算（Gen N）。

這里尤其需要提到改進(jìn)過程，其中選擇是指依據(jù)評估反饋，選擇更有可能改進(jìn)的解決方案；交叉指將不同解決方案的部分內(nèi)容進(jìn)行組合，實(shí)現(xiàn)類似生物基因重組的效果，生成新的候選解決方案；變異是指對解決方案進(jìn)行隨機(jī)調(diào)整，增加種群多樣性，以探索更多可能的解決方案。

最終，評估、選擇和重組的循環(huán)將持續(xù)進(jìn)行，直到算法達(dá)到最優(yōu)解或耗盡預(yù)設(shè)的迭代次數(shù)。

另外值得一提的是，Mind Evolution具體是通過“The fitness function”（適應(yīng)度函數(shù)）來消除任務(wù)形式化問題。

簡單說，適應(yīng)度函數(shù)適配自然語言規(guī)劃任務(wù)，解決方案以自然語言呈現(xiàn)。

如此一來，在有程序性解決方案評估器時，系統(tǒng)可規(guī)避問題形式化，并且除給出數(shù)值評分外，還能提供文本反饋，幫助LLMs理解具體問題并開展針對性優(yōu)化。

此外，Mind Evolution還采用“island”（島嶼）方法來確保多樣化探索。

在每一個階段，算法都會創(chuàng)建各自獨(dú)立進(jìn)化的解決方案組。然后，它將最優(yōu)解從一組“遷移”到另一組，以結(jié)合并創(chuàng)造新的解決方案。

那么，Mind Evolution實(shí)際表現(xiàn)如何呢？

規(guī)劃表現(xiàn)均優(yōu)于其他基線方法

實(shí)驗(yàn)階段，研究人員將它和其他基線進(jìn)行了對比。

1-pass：使用o1-preview，模型只生成一個答案；
Best-of-N，模型生成多個答案并選擇最佳答案；
Sequential Revisions+：模型獨(dú)立提出10個候選解決方案，然后分別對80次迭代進(jìn)行修訂。

可以看出，盡管缺少遺傳算法組件，Sequential Revisions+在旅行規(guī)劃上的成功率最為接近Mind Evolution。

不過隨著從左至右任務(wù)復(fù)雜性的增加，Mind Evolution與其他方法之間的差距越來越大，優(yōu)勢愈發(fā)凸顯。

整體來看，在所有測試中，Mind Evolution的表現(xiàn)都遠(yuǎn)遠(yuǎn)超過了基線，尤其是在任務(wù)變得更加困難時。

在TravelPlanner（評估旅行規(guī)劃）和Natural Plan（評估會議規(guī)劃）這兩項基準(zhǔn)測試中，未采用Mind Evolution的Gemini 1.5 Flash任務(wù)成功率分別為5.6%和20.8%，而采用Mind Evolution之后，其任務(wù)成功率分別提升至95.6%和85.0%。

而且，如果繼續(xù)將Gemini 1.5 Flash未解決的問題丟給1.5Pro，其成功率更是上升至100%和98.4%。

另外成本方面，和最接近上述性能的傳統(tǒng)方法Sequential-Revision+相比，所使用的tokens數(shù)量僅為后者的幾分之一。

除此之外，研究人員引入了一項新測試任務(wù)——StegPoet。

需要在創(chuàng)意寫作中嵌入隱寫信息，屬于自然語言規(guī)劃任務(wù)范疇。

簡單說，它要求在創(chuàng)作富有創(chuàng)意的文本內(nèi)容時，還要將特定的信息以隱寫的方式巧妙融入其中，這既需要邏輯推理能力，也對LLMs在創(chuàng)造性表達(dá)方面的能力提出了更高要求。

而從相關(guān)實(shí)驗(yàn)來看，Mind Evolution也經(jīng)受住了這一復(fù)雜任務(wù)的考驗(yàn)。

總體來說，這項研究通過將廣泛搜索（隨機(jī)探索）與深度搜索（利用LLM進(jìn)行解決方案細(xì)化）相結(jié)合，進(jìn)一步提升了模型在規(guī)劃和推理上的響應(yīng)。

更多細(xì)節(jié)歡迎查閱原論文。

論文：https://arxiv.org/abs/2501.09891

責(zé)任編輯：張燕妮來源：量子位

模型 AI 推理

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="mesff"></style>