自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta版o1來了!田淵棟團隊整合快慢思考,能走迷宮推箱子

人工智能 新聞
通過讓模型在推理軌跡和最終答案上進行訓(xùn)練,再基于特定策略丟掉部分軌跡,Dualformer模型可以在模仿慢思考的同時,像快思考一樣走捷徑。

Meta版o1也來了。

田淵棟團隊帶來新作Dualformer,把快慢思考無縫結(jié)合,性能提升還成本更低。

能解決迷宮、推箱子等復(fù)雜問題。

圖片

通過讓模型在推理軌跡和最終答案上進行訓(xùn)練,再基于特定策略丟掉部分軌跡,Dualformer模型可以在模仿慢思考的同時,像快思考一樣走捷徑。

由此能形成更簡潔的思維鏈(CoT)。

從結(jié)果來看,在慢思考模式下,Dualformer的最優(yōu)解率達到97.6%,推理步驟減少45.5%。

自動切換快慢思考模式下,最優(yōu)率也達到96.6%,且推理步驟減少59.9%。

搞定o1玩不來的迷宮游戲

o1帶火了系統(tǒng)2(慢思考),能讓大模型推理能力大幅提升。

但是隨之而來的計算成本更高。

Dualformer能很好結(jié)合快慢思考,從而緩解這一問題。

它建立在Searchformer這項工作的基礎(chǔ)上。Searchformer是一個可以解決復(fù)雜推理任務(wù)的模型,在A*搜索算法生成的路徑上訓(xùn)練而來,在路徑規(guī)劃任務(wù)(如迷宮、推箱子游戲)上表現(xiàn)良好,可以以更高效率找到最優(yōu)解。

圖片

研究發(fā)現(xiàn),人類會在思考過程中傾向于找捷徑。為了更進一步模擬人類,Dualformer在隨機推理軌跡數(shù)據(jù)上進行訓(xùn)練,并在訓(xùn)練過程中依據(jù)定制的丟棄策略丟到部分結(jié)構(gòu)。

比如在處理路徑規(guī)劃任務(wù)時,根據(jù)搜索軌跡中的不同子句(如close子句、子句中的cost tokens、create子句等)設(shè)計了四個級別的丟棄策略,從只丟棄close子句到丟棄整個軌跡,并在訓(xùn)練時隨機選擇應(yīng)用這些策略。

圖片

基于這些策略,Dualformer可以學習更簡潔有效的搜索和推理過程。

在推理階段,Dualformer可配置快速模式(僅輸出解決方案)、慢速模式(輸出推理鏈和最終解決方案)或自動模式(自行決定推理模式)。

這種靈活的推理模式設(shè)計使得模型能夠根據(jù)不同任務(wù)需求和場景進行自適應(yīng)調(diào)整,類似于人類思維在不同情況下的決策方式。

在具體任務(wù)上,研究設(shè)置了迷宮(Maze)和推箱子游戲(Sokoban),讓模型進行路徑規(guī)劃。以及數(shù)學推理任務(wù)。

對比來看,在迷宮任務(wù)中,o1-preview和o1-mini模型輸出的路徑并不好,會“穿墻”。

圖片

快思考模式下,Dualformer的表現(xiàn)如下。

Dualformer以80%的最優(yōu)率完成這些任務(wù),顯著優(yōu)于僅基于解決方案數(shù)據(jù)訓(xùn)練的Solution-Only模型,后者的最優(yōu)率僅為 30%。

圖片

慢思考模式表現(xiàn)如下。

30×30迷宮任務(wù)中,在97.6%的情況下可以達到最優(yōu)解,同時推理步驟減少45.5%。

圖片

自動切換快慢思考模式下,Dualformer的最優(yōu)率達到 96.6%,與Searchformer相比,推理步驟減少59.9%。

圖片

將該方法推廣到Mistral-7B和Llama3-8B上,在Aug-MATH數(shù)據(jù)集上,模型的表現(xiàn)都有所提升。

比如在Mistral-7B模型上,當p=0.1、0.2和0.3時,Pass@20度量的基線模型,其中絕對正確率增加到61.9%。

圖片

最后,來看一下研究團隊陣容。

該研究由田淵棟等人帶來。

田淵棟現(xiàn)在是Meta FAIR的研究科學家主任,領(lǐng)導(dǎo)LLM推理、規(guī)劃和決策小組。

圖片

Qinqing Zheng是FAIR的工程師,研究方向集中在生成模型和強化學習方面。她本科畢業(yè)于浙江大學,在芝加哥大學攻讀博士學位。2017-2019年期間在Facebook擔任研究科學家,幫助Facebook建立了廣告推薦模型的分布式訓(xùn)練系統(tǒng)。

圖片

Sainbayar Sukhbaatar是FAIR的研究科學家,主要負責大模型推理和記憶方面研究。他曾先后在谷歌、DeepMind、Meta任職。

圖片

Michael Rabbat是FAIR的創(chuàng)始成員之一。加入Meta之前他曾是麥吉爾大學計算機工程系教授。研究領(lǐng)域包括機器學習、分布式算法、信號處理等。

圖片

論文地址:

https://arxiv.org/pdf/2410.09918

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-12-19 09:48:07

2024-02-26 00:20:00

AI模型

2024-11-25 08:30:00

2024-10-16 13:50:00

模型AI

2024-12-12 09:00:00

2024-10-08 08:35:00

模型訓(xùn)練

2023-03-17 08:28:17

GPT-4AI

2023-06-12 09:57:22

AIChatGPT

2024-10-28 08:50:00

2024-11-05 14:20:00

AI模型

2024-02-27 11:46:40

2023-12-07 06:51:18

AI模型

2024-10-18 13:01:24

2024-11-07 15:40:00

2024-10-14 13:40:00

2023-06-30 09:49:23

模型Meta

2022-12-25 13:46:37

生成器

2024-12-17 12:30:00

2025-01-08 13:08:55

2023-06-28 18:10:27

羊駝家族大模型集體進化
點贊
收藏

51CTO技術(shù)棧公眾號