自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="h7al5"></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Meta版o1來了！田淵棟團隊整合快慢思考，能走迷宮推箱子

作者：量子位 2024-10-17 14:10:00

人工智能新聞

通過讓模型在推理軌跡和最終答案上進行訓(xùn)練，再基于特定策略丟掉部分軌跡，Dualformer模型可以在模仿慢思考的同時，像快思考一樣走捷徑。

Meta版o1也來了。

田淵棟團隊帶來新作Dualformer，把快慢思考無縫結(jié)合，性能提升還成本更低。

能解決迷宮、推箱子等復(fù)雜問題。

通過讓模型在推理軌跡和最終答案上進行訓(xùn)練，再基于特定策略丟掉部分軌跡，Dualformer模型可以在模仿慢思考的同時，像快思考一樣走捷徑。

由此能形成更簡潔的思維鏈（CoT）。

從結(jié)果來看，在慢思考模式下，Dualformer的最優(yōu)解率達到97.6%，推理步驟減少45.5%。

自動切換快慢思考模式下，最優(yōu)率也達到96.6%，且推理步驟減少59.9%。

搞定o1玩不來的迷宮游戲

o1帶火了系統(tǒng)2（慢思考），能讓大模型推理能力大幅提升。

但是隨之而來的計算成本更高。

Dualformer能很好結(jié)合快慢思考，從而緩解這一問題。

它建立在Searchformer這項工作的基礎(chǔ)上。Searchformer是一個可以解決復(fù)雜推理任務(wù)的模型，在A*搜索算法生成的路徑上訓(xùn)練而來，在路徑規(guī)劃任務(wù)（如迷宮、推箱子游戲）上表現(xiàn)良好，可以以更高效率找到最優(yōu)解。

研究發(fā)現(xiàn)，人類會在思考過程中傾向于找捷徑。為了更進一步模擬人類，Dualformer在隨機推理軌跡數(shù)據(jù)上進行訓(xùn)練，并在訓(xùn)練過程中依據(jù)定制的丟棄策略丟到部分結(jié)構(gòu)。

比如在處理路徑規(guī)劃任務(wù)時，根據(jù)搜索軌跡中的不同子句（如close子句、子句中的cost tokens、create子句等）設(shè)計了四個級別的丟棄策略，從只丟棄close子句到丟棄整個軌跡，并在訓(xùn)練時隨機選擇應(yīng)用這些策略。

基于這些策略，Dualformer可以學習更簡潔有效的搜索和推理過程。

在推理階段，Dualformer可配置快速模式（僅輸出解決方案）、慢速模式（輸出推理鏈和最終解決方案）或自動模式（自行決定推理模式）。

這種靈活的推理模式設(shè)計使得模型能夠根據(jù)不同任務(wù)需求和場景進行自適應(yīng)調(diào)整，類似于人類思維在不同情況下的決策方式。

在具體任務(wù)上，研究設(shè)置了迷宮(Maze)和推箱子游戲(Sokoban)，讓模型進行路徑規(guī)劃。以及數(shù)學推理任務(wù)。

對比來看，在迷宮任務(wù)中，o1-preview和o1-mini模型輸出的路徑并不好，會“穿墻”。

快思考模式下，Dualformer的表現(xiàn)如下。

Dualformer以80%的最優(yōu)率完成這些任務(wù)，顯著優(yōu)于僅基于解決方案數(shù)據(jù)訓(xùn)練的Solution-Only模型，后者的最優(yōu)率僅為 30%。

慢思考模式表現(xiàn)如下。

30×30迷宮任務(wù)中，在97.6%的情況下可以達到最優(yōu)解，同時推理步驟減少45.5%。

自動切換快慢思考模式下，Dualformer的最優(yōu)率達到 96.6%，與Searchformer相比，推理步驟減少59.9%。

將該方法推廣到Mistral-7B和Llama3-8B上，在Aug-MATH數(shù)據(jù)集上，模型的表現(xiàn)都有所提升。

比如在Mistral-7B模型上，當p=0.1、0.2和0.3時，Pass@20度量的基線模型，其中絕對正確率增加到61.9%。

最后，來看一下研究團隊陣容。

該研究由田淵棟等人帶來。

田淵棟現(xiàn)在是Meta FAIR的研究科學家主任，領(lǐng)導(dǎo)LLM推理、規(guī)劃和決策小組。

Qinqing Zheng是FAIR的工程師，研究方向集中在生成模型和強化學習方面。她本科畢業(yè)于浙江大學，在芝加哥大學攻讀博士學位。2017-2019年期間在Facebook擔任研究科學家，幫助Facebook建立了廣告推薦模型的分布式訓(xùn)練系統(tǒng)。

Sainbayar Sukhbaatar是FAIR的研究科學家，主要負責大模型推理和記憶方面研究。他曾先后在谷歌、DeepMind、Meta任職。

Michael Rabbat是FAIR的創(chuàng)始成員之一。加入Meta之前他曾是麥吉爾大學計算機工程系教授。研究領(lǐng)域包括機器學習、分布式算法、信號處理等。

論文地址：

https://arxiv.org/pdf/2410.09918

責任編輯：張燕妮來源：量子位

模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="933jw"><li id="933jw"></li></p>