Meta版o1來了!田淵棟團隊整合快慢思考,能走迷宮推箱子
Meta版o1也來了。
田淵棟團隊帶來新作Dualformer,把快慢思考無縫結(jié)合,性能提升還成本更低。
能解決迷宮、推箱子等復(fù)雜問題。
通過讓模型在推理軌跡和最終答案上進行訓(xùn)練,再基于特定策略丟掉部分軌跡,Dualformer模型可以在模仿慢思考的同時,像快思考一樣走捷徑。
由此能形成更簡潔的思維鏈(CoT)。
從結(jié)果來看,在慢思考模式下,Dualformer的最優(yōu)解率達到97.6%,推理步驟減少45.5%。
自動切換快慢思考模式下,最優(yōu)率也達到96.6%,且推理步驟減少59.9%。
搞定o1玩不來的迷宮游戲
o1帶火了系統(tǒng)2(慢思考),能讓大模型推理能力大幅提升。
但是隨之而來的計算成本更高。
Dualformer能很好結(jié)合快慢思考,從而緩解這一問題。
它建立在Searchformer這項工作的基礎(chǔ)上。Searchformer是一個可以解決復(fù)雜推理任務(wù)的模型,在A*搜索算法生成的路徑上訓(xùn)練而來,在路徑規(guī)劃任務(wù)(如迷宮、推箱子游戲)上表現(xiàn)良好,可以以更高效率找到最優(yōu)解。
研究發(fā)現(xiàn),人類會在思考過程中傾向于找捷徑。為了更進一步模擬人類,Dualformer在隨機推理軌跡數(shù)據(jù)上進行訓(xùn)練,并在訓(xùn)練過程中依據(jù)定制的丟棄策略丟到部分結(jié)構(gòu)。
比如在處理路徑規(guī)劃任務(wù)時,根據(jù)搜索軌跡中的不同子句(如close子句、子句中的cost tokens、create子句等)設(shè)計了四個級別的丟棄策略,從只丟棄close子句到丟棄整個軌跡,并在訓(xùn)練時隨機選擇應(yīng)用這些策略。
基于這些策略,Dualformer可以學習更簡潔有效的搜索和推理過程。
在推理階段,Dualformer可配置快速模式(僅輸出解決方案)、慢速模式(輸出推理鏈和最終解決方案)或自動模式(自行決定推理模式)。
這種靈活的推理模式設(shè)計使得模型能夠根據(jù)不同任務(wù)需求和場景進行自適應(yīng)調(diào)整,類似于人類思維在不同情況下的決策方式。
在具體任務(wù)上,研究設(shè)置了迷宮(Maze)和推箱子游戲(Sokoban),讓模型進行路徑規(guī)劃。以及數(shù)學推理任務(wù)。
對比來看,在迷宮任務(wù)中,o1-preview和o1-mini模型輸出的路徑并不好,會“穿墻”。
快思考模式下,Dualformer的表現(xiàn)如下。
Dualformer以80%的最優(yōu)率完成這些任務(wù),顯著優(yōu)于僅基于解決方案數(shù)據(jù)訓(xùn)練的Solution-Only模型,后者的最優(yōu)率僅為 30%。
慢思考模式表現(xiàn)如下。
30×30迷宮任務(wù)中,在97.6%的情況下可以達到最優(yōu)解,同時推理步驟減少45.5%。
自動切換快慢思考模式下,Dualformer的最優(yōu)率達到 96.6%,與Searchformer相比,推理步驟減少59.9%。
將該方法推廣到Mistral-7B和Llama3-8B上,在Aug-MATH數(shù)據(jù)集上,模型的表現(xiàn)都有所提升。
比如在Mistral-7B模型上,當p=0.1、0.2和0.3時,Pass@20度量的基線模型,其中絕對正確率增加到61.9%。
最后,來看一下研究團隊陣容。
該研究由田淵棟等人帶來。
田淵棟現(xiàn)在是Meta FAIR的研究科學家主任,領(lǐng)導(dǎo)LLM推理、規(guī)劃和決策小組。
Qinqing Zheng是FAIR的工程師,研究方向集中在生成模型和強化學習方面。她本科畢業(yè)于浙江大學,在芝加哥大學攻讀博士學位。2017-2019年期間在Facebook擔任研究科學家,幫助Facebook建立了廣告推薦模型的分布式訓(xùn)練系統(tǒng)。
Sainbayar Sukhbaatar是FAIR的研究科學家,主要負責大模型推理和記憶方面研究。他曾先后在谷歌、DeepMind、Meta任職。
Michael Rabbat是FAIR的創(chuàng)始成員之一。加入Meta之前他曾是麥吉爾大學計算機工程系教授。研究領(lǐng)域包括機器學習、分布式算法、信號處理等。
論文地址:
https://arxiv.org/pdf/2410.09918