自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一周前,谷歌的 Gemini-Exp-1114 模型取代 GPT-4o,坐上了 Arena 榜單的頭把交椅。 圖片 對于苦苦追趕 OpenAI 幾個(gè)月的谷歌來說,這次在基準(zhǔn)測試上的

人工智能 新聞
團(tuán)隊(duì)在本工作中特意聚焦于業(yè)內(nèi)廣泛使用卻往往未被公開披露的蒸餾技術(shù),想在 “揭秘” 蒸餾技術(shù)背后所能達(dá)到的收益的同時(shí),又對 AI 研究界進(jìn)行一次倡議,呼吁優(yōu)先考慮透明創(chuàng)新的方法,而不是一味追求短期性能提升和 AI 技術(shù)研發(fā) "捷徑"。

團(tuán)隊(duì)介紹:本項(xiàng)目的核心開發(fā)團(tuán)隊(duì)主要由上海交通大學(xué)GAIR研究組,研究團(tuán)隊(duì)早在一個(gè)多月前發(fā)布o(jì)1復(fù)現(xiàn)進(jìn)展報(bào)告。

詳細(xì)作者介紹見:https://github.com/GAIR-NLP/O1-Journey#about-the-team

自從 OpenAI 發(fā)布展現(xiàn)出前所未有復(fù)雜推理能力的 o1 系列模型以來,全球掀起了一場 AI 能力 “復(fù)現(xiàn)” 競賽。近日,上海交通大學(xué) GAIR 研究團(tuán)隊(duì)在 o1 模型復(fù)現(xiàn)過程中取得新的突破,通過簡單的知識蒸餾方法,團(tuán)隊(duì)成功使基礎(chǔ)模型在數(shù)學(xué)推理能力上超越 o1-preview

團(tuán)隊(duì)在本工作中特意聚焦于業(yè)內(nèi)廣泛使用卻往往未被公開披露的蒸餾技術(shù),想在 “揭秘” 蒸餾技術(shù)背后所能達(dá)到的收益的同時(shí),又對 AI 研究界進(jìn)行一次倡議,呼吁優(yōu)先考慮透明創(chuàng)新的方法,而不是一味追求短期性能提升和 AI 技術(shù)研發(fā) "捷徑"。研究團(tuán)隊(duì)堅(jiān)信,培養(yǎng)能夠從第一性原理思考而不是簡單套用現(xiàn)有解決方案的下一代 AI 研究者至關(guān)重要。

團(tuán)隊(duì)選擇 Qwen2.5-Math-72B 作為基礎(chǔ)模型,經(jīng)過精心設(shè)計(jì)的數(shù)據(jù)篩選和處理流程,僅使用數(shù)萬個(gè)從 o1 蒸餾的長思考鏈樣本進(jìn)行訓(xùn)練。在美國高中數(shù)學(xué)邀請賽 (AIME) 等權(quán)威測試中,模型表現(xiàn)優(yōu)于 o1-preview。研究表明,通過標(biāo)準(zhǔn)的監(jiān)督微調(diào)方法,模型不僅掌握了復(fù)雜的數(shù)學(xué)推理能力,還展現(xiàn)出強(qiáng)大的泛化性。令人驚喜的是,這個(gè)主要針對數(shù)學(xué)推理訓(xùn)練的模型在其他領(lǐng)域也表現(xiàn)出色:

  • 安全性評估中,在 Flames 測試集上的得分從 91% 提升至 92.5%
  • 在應(yīng)對誤導(dǎo)性問題時(shí)的抵抗力顯著增強(qiáng),抗 "奉承" 能力從 89.70% 提升到 92.65%
  • 在通用場景評估中,Auto-J 和 LIMA 測試集的得分分別提升了 6.4 和 10 個(gè)百分點(diǎn)

技術(shù)文檔:https://github.com/GAIR-NLP/O1-Journey/blob/main/resource/report-part2.pdf

相關(guān)資源將近日公開:https://github.com/GAIR-NLP/O1-Journey

"這個(gè)突破背后隱藏著重要警示。" 項(xiàng)目負(fù)責(zé)人表示,知識蒸餾雖然提供了快速提升模型性能的捷徑,但也帶來了三個(gè)層面的隱憂:

1. 技術(shù)層面:模型性能受限于教師模型,難以實(shí)現(xiàn)真正的突破創(chuàng)新

2. 研究方向:過度依賴蒸餾可能導(dǎo)致核心技術(shù)研發(fā)投入不足

3. 人才培養(yǎng):簡單的模型復(fù)制和優(yōu)化可能削弱研究人員的基礎(chǔ)創(chuàng)新能力

 為推動(dòng)行業(yè)良性發(fā)展,團(tuán)隊(duì)創(chuàng)新性地提出了技術(shù)透明度指數(shù) (TTI) 框架。該框架從數(shù)據(jù)、方法、評估和開源資源四個(gè)維度,對 AI 模型復(fù)制工作進(jìn)行全面評估。研究發(fā)現(xiàn),目前業(yè)界多個(gè) o1 復(fù)現(xiàn)項(xiàng)目的透明度普遍不足,最高分僅為 33 分。研究團(tuán)隊(duì)建議,AI 領(lǐng)域應(yīng)當(dāng):

  • 保持技術(shù)組合平衡,不過度依賴單一方法
  • 持續(xù)投入基礎(chǔ)設(shè)施和算法研究
  • 重視人才培養(yǎng),強(qiáng)化第一性原理思維的訓(xùn)練

"構(gòu)建智能 AI 系統(tǒng)固然重要,但培養(yǎng)具有第一性原理思維的人才才是我們的終極使命。" 這句話道出了 AI 發(fā)展的深層智慧 —— 技術(shù)進(jìn)步離不開深入的思考和創(chuàng)新。這項(xiàng)研究不僅展示了 AI 技術(shù)的最新進(jìn)展,更為整個(gè)行業(yè)的發(fā)展方向提供了重要啟示。在追求技術(shù)突破的同時(shí),如何保持創(chuàng)新活力、培養(yǎng)高質(zhì)量人才,將是決定 AI 未來的關(guān)鍵因素。

具體而言,這份報(bào)告分為幾個(gè)重要的板塊:

(1)詳細(xì)解析了蒸餾 OpenAI o1 系列模型的技術(shù)路線,并對其有效性進(jìn)行了全面的評估。研究團(tuán)隊(duì)發(fā)現(xiàn),在一個(gè)不錯(cuò)的基礎(chǔ)數(shù)學(xué)模型上僅僅通過幾萬條 o1-mini 的蒸餾樣本進(jìn)行微調(diào),就可以在美國高難度的數(shù)學(xué)競賽 AIME 上超越 o1-preview 的水平,并且整個(gè)過程所需要的技術(shù)復(fù)雜度極低。

(2)除了數(shù)學(xué)推理這個(gè)場景外,我們還探索了 o1 蒸餾模型在其他不同視角(如幻覺、安全性)下的表現(xiàn),這些跨域?qū)嶒?yàn)不僅揭示了知識蒸餾技術(shù)的優(yōu)勢,也展現(xiàn)了其固有局限性,并發(fā)現(xiàn)了一些意想不到的跨域表現(xiàn)模式。

(3)建立了一個(gè)全面的基準(zhǔn)框架,在多個(gè)不同的角度(如數(shù)據(jù)透明性、方法技術(shù)透明性、評估透明性以及資源的開源程度)評估和分類 o1 的各種復(fù)現(xiàn)嘗試工作的技術(shù)透明度與開放性,并為此設(shè)立了一套排行版機(jī)制。

(4)最后,此研究報(bào)告還進(jìn)行了非常深刻的討論,最終得出盡管追求更強(qiáng)大的 AI 很重要,但培養(yǎng)具有第一性原理思維的研究人員往往更加重要。這一教育使命不僅僅是一個(gè)技術(shù)層面的考慮,更是一項(xiàng)將塑造 AI 創(chuàng)新未來的根本性人文使命。

章節(jié) 1:o1 復(fù)現(xiàn)的一條 “捷徑”

o1 技術(shù)的回顧

圖片

o1-Journey (Part1) 中探索的技術(shù)路線。

研究團(tuán)隊(duì)早在一個(gè)多月前的 o1-Journey (Part1) 中已經(jīng)提出了一種結(jié)合樹搜索構(gòu)建長思維鏈數(shù)據(jù)的方式,并取得了一定的初步效果。在整個(gè)技術(shù)路線中,最為關(guān)鍵的一個(gè)環(huán)節(jié)是如何構(gòu)建長思維鏈數(shù)據(jù),這種長思維數(shù)據(jù)需要體現(xiàn) “深度” 的思考,包含反思、糾錯(cuò)和回溯步驟。雖然樹搜索是最有效的方法之一,但它可能會(huì)耗費(fèi)大量計(jì)算資源和時(shí)間。除了樹搜索之外,合成長推理鏈的其他替代方法如下圖所示。這些方法在計(jì)算效率和推理完整性之間提供了不同的權(quán)衡。

圖片

各種合成長思維數(shù)據(jù)的方法(按照代價(jià)從小到大)。

  • 完整的人類思維過程標(biāo)注(代價(jià)最高)

人類解決問題很少遵循一條通向成功或失敗的線性路徑。相反,人們在遇到障礙時(shí)會(huì)經(jīng)常停下來反思、回溯并修改他們的方法。這個(gè)自然過程反映了長思維的特征。通過詳細(xì)記錄人類如何解決問題,我們可以生成真實(shí)的長思維訓(xùn)練數(shù)據(jù)。但是這種方式需要依賴大量極高質(zhì)量的人工標(biāo)注,并且隨著問題難度的升級,標(biāo)注的難度也會(huì)大幅上升。

  • 多智能體方法

與策略模型不直接對反饋?zhàn)鞒龇磻?yīng)的歷程學(xué)習(xí) (Journey Learning) 不同,我們可以讓多個(gè)智能體參與探索過程,指導(dǎo)它們扮演不同的角色。例如,我們可以構(gòu)建一個(gè)多智能體辯論系統(tǒng),其中策略模型生成持續(xù)的推理,而評判模型則評估是繼續(xù)還是回溯。當(dāng)找到解決方案時(shí),這種交互過程自然會(huì)產(chǎn)生長思維訓(xùn)練數(shù)據(jù)。

  • 從高級模型蒸餾

像 o1 系列這樣強(qiáng)大的模型展示出強(qiáng)大的反思和自我糾正能力。使用更強(qiáng)大的模型來指導(dǎo)較弱模型的常見做法,是一種簡單,不需要設(shè)計(jì)復(fù)雜技術(shù)路線的方法。然而,由于 o1 限制了對其內(nèi)部思維過程的訪問,因此需要謹(jǐn)慎的提示詞設(shè)計(jì)。

蒸餾的技術(shù)路線

  • 格式對齊

團(tuán)隊(duì)選用了 Qwen-2.5-Math-72B 作為基座模型,在實(shí)際進(jìn)行蒸餾之前,研究團(tuán)隊(duì)首先在這個(gè)模型上面進(jìn)行了 “格式化對齊”(Reformatted Alignment)。團(tuán)隊(duì)從開源數(shù)據(jù)集 NuminaMath-CoT 上選取了一部分奧林匹克級別的問題作為起點(diǎn),并應(yīng)用了一個(gè)過濾流程來優(yōu)化數(shù)據(jù)集:設(shè)計(jì)規(guī)則移除了依賴圖像的問題、缺乏明確標(biāo)注答案的問題以及所有證明題,僅保留答案類型為數(shù)值的問題。為了進(jìn)一步增強(qiáng)數(shù)據(jù)集,利用 GPT-4o-mini 重寫原始解答。重寫過程遵循特定的標(biāo)準(zhǔn),確保解答的步驟是細(xì)粒度的、高度詳細(xì)的,并且篇幅更長。這一步驟還規(guī)范化了輸出格式,要求使用 \boxed {} 明確表示最終答案,以符合長思維格式。

  • 蒸餾:通過使用 OpenAI o1 進(jìn)行長思維鏈的合成。

實(shí)驗(yàn)

評估標(biāo)準(zhǔn)

與使用 Pass@k、Maj@k 或 RM@k 等傳統(tǒng)評估指標(biāo)不同,我們引入了一個(gè)新指標(biāo),旨在評估模型在不同計(jì)算代價(jià)場景下的表現(xiàn)。這種新方法反映了 “推理時(shí)擴(kuò)展”(inference-time scaling) 的真實(shí)情況,在衡量大模型的有效性和效率方面發(fā)揮著關(guān)鍵作用。在 “推理時(shí)擴(kuò)展” 時(shí)代,像 OpenAI 的 o1 系列這樣的模型已經(jīng)證明,性能不僅取決于訓(xùn)練時(shí)的計(jì)算量,還顯著受到推理過程中 "思考" 時(shí)間的影響。這種轉(zhuǎn)變需要一個(gè)更細(xì)致的評估指標(biāo),以考慮計(jì)算成本和性能之間的權(quán)衡。團(tuán)隊(duì)提出的指標(biāo)通過測量模型在特定的 benchmark 上,在一定的平均輸出 Token 下,獲得的準(zhǔn)確率,反映這種 “推理時(shí)擴(kuò)展” 的模式。此外,這個(gè)指標(biāo)本質(zhì)上是可擴(kuò)展的。在評估選取的平均 Token 比單次模型輸出 Token 數(shù)更高的場景中,采用 Maj@k 指標(biāo)來近似模型的性能。注意,整個(gè)過程無需使用任何額外的獎(jiǎng)勵(lì)模型。通過采用這種方法,我們確保了一個(gè)可擴(kuò)展且公平的評估框架,能夠捕捉模型在不同推理時(shí)間計(jì)算設(shè)置下的表現(xiàn)。這種方法避免了人為約束,并允許進(jìn)行有意義的比較,而無需依賴外部獎(jiǎng)勵(lì)信號,僅專注于模型的內(nèi)在推理能力。

結(jié)果

圖片

使用蒸餾數(shù)據(jù) SFT 后的模型在 AIME2024 和 MATH500 兩個(gè) benchmark 上與 o1 系列模型在一定“推理代價(jià)”的表現(xiàn)比較。

結(jié)果表現(xiàn),在相似的 “推理計(jì)算代價(jià)”(即在對應(yīng) benchmark 的平均輸出 token 類似的情形下),采用蒸餾技術(shù)得到的模型具有出色的表現(xiàn),在 AIME2024 上超過了 o1-preview 的表現(xiàn)。

章節(jié) 2:復(fù)雜推理以外的能力

除了在推理場景下,對蒸餾技術(shù)得到的模型進(jìn)行性能的探究之外,團(tuán)隊(duì)還涉足許多其他角度的問題,例如安全、幻覺,以及在更加通用場景任務(wù)上的表現(xiàn)。為了研究模型在不同領(lǐng)域的泛化能力,我們首先構(gòu)建了一個(gè)多樣化的雙語數(shù)據(jù)集。從我們的蒸餾 o1 模型輸出中,我們精心選擇了大約 5,000 個(gè)包含回溯思維和自我反思的高質(zhì)量樣本。這些樣本隨后使用 GPT-4o mini 模型翻譯成中文,形成了一個(gè)數(shù)量均衡的雙語數(shù)據(jù)集。最終的訓(xùn)練數(shù)據(jù)集包含 10,750 對中英混合樣本對。然后,我們使用這個(gè)精選數(shù)據(jù)集對 Qwen2.5-72B-Instruct 模型進(jìn)行監(jiān)督微調(diào)(SFT),從而獲得我們的最終模型。

圖片

基于 Qwen2.5-72B-Instruct,經(jīng)過 o1-mini distill 的數(shù)據(jù) SFT 前后,模型在安全性、幻覺(事實(shí)準(zhǔn)確性)、以及一些通用場景任務(wù)下的表現(xiàn)性能對比。

安全性

為了全面評估模型安全性方面的泛化能力,團(tuán)隊(duì)構(gòu)建了一個(gè)由 600 個(gè)問題組成的多樣化測試集,這些問題是從三個(gè)已建立的安全評估數(shù)據(jù)集中精心選擇的:Flames、DiaSafety 和 WildSafety。具體來說,我們從每個(gè)數(shù)據(jù)集中提取 200 個(gè)問題,以確保在不同安全場景中的平衡代表性。我們使用 Safety-J 來評估原始模型和微調(diào)模型的響應(yīng)。評估結(jié)果揭示了模型在安全性影響上的有趣現(xiàn)象:雖然在 Flames 上的表現(xiàn)略有提升(從 91% 提高到 92.5%),在 DiaSafety 上保持穩(wěn)定(100%),但在 WildSafety 上出現(xiàn)了明顯的下降(從 92% 降至 86.5%)。這種安全性指標(biāo)的輕微下降凸顯了一個(gè)關(guān)鍵發(fā)現(xiàn):即使使用以回顧和反思為重點(diǎn)的高質(zhì)量 o1 類訓(xùn)練數(shù)據(jù),如果訓(xùn)練數(shù)據(jù)缺乏明確的安全性對齊,模型的安全性表現(xiàn)也可能出現(xiàn)退化。

幻覺(事實(shí)準(zhǔn)確性)

團(tuán)隊(duì)還評估了模型在利用 o1 蒸餾的數(shù)據(jù) SFT 前后的事實(shí)準(zhǔn)確性。團(tuán)隊(duì)使用了來自 SimpleQA、ChineseSimpleQA 和 ChineseFactEval 的數(shù)據(jù)集。這些數(shù)據(jù)集包含中文和英文的基于知識的問題,用于驗(yàn)證模型的事實(shí)準(zhǔn)確性。ChineseFactEval 數(shù)據(jù)集包含兩個(gè)子集:通用問答和奉承性問答。奉承性問答子集在提示中包含誤導(dǎo)性答案,以測試模型的奉承傾向,而通用問答子集則采用類似 SimpleQA 的格式。這些數(shù)據(jù)集中的所有問題都需要可驗(yàn)證的簡短答案。我們使用 GPT-4o 評估模型響應(yīng)與標(biāo)準(zhǔn)答案的匹配程度,以獲得更穩(wěn)健的答案匹配結(jié)果。

結(jié)果表明,經(jīng)過 o1 蒸餾得到的數(shù)據(jù) SFT 后的模型在事實(shí)準(zhǔn)確性方面沒有顯示出顯著改進(jìn)。這主要是因?yàn)楦L的推理鏈導(dǎo)致了額外的幻覺 —— 尤其是模型試圖假裝使用搜索引擎并虛構(gòu)搜索結(jié)果的現(xiàn)象。然而,這些嘗試使用搜索引擎的行為暗示了一個(gè)有前途的方向,我們認(rèn)為為模型提供實(shí)際的網(wǎng)絡(luò)訪問能力將顯著提高其事實(shí)準(zhǔn)確性。此外,SFT 后模型增強(qiáng)的推理鏈提供了詳細(xì)的分析和自我反思能力,這可能有助于防止幻覺的產(chǎn)生。我們還發(fā)現(xiàn),經(jīng)過 SFT 后,模型對奉承的易感性略有降低。這種改進(jìn)可以歸因于自我反思過程,在這個(gè)過程中,模型能夠辨別并深入思考提示中呈現(xiàn)的不合理假設(shè),而不是不加質(zhì)疑地接受它們。

圖片

例1:反思和深度思考緩解回答的幻覺

圖片

例2:反思和深度思考緩解回答的幻覺

圖片

例3:反思和深度思考緩解回答的幻覺

圖片

例4:反思和深度思考檢測錯(cuò)誤的假設(shè)

圖片

例5:反思和深度思考緩解回答的幻覺

通用場景任務(wù)

為了評估我們模型在通用場景中的表現(xiàn),我們從 Auto-J 和 LIMA 數(shù)據(jù)集中各抽取 50 個(gè)查詢,組成了一個(gè)包含 100 個(gè)查詢的測試集,并通過人工調(diào)整,特別聚焦于長期規(guī)劃任務(wù),并請三位領(lǐng)域?qū)<覍δP偷妮敵鲑|(zhì)量進(jìn)行 0-100 分的評估。評估結(jié)果顯示在經(jīng)過 o1 蒸餾數(shù)據(jù)微調(diào)后,模型的表現(xiàn)有顯著改進(jìn)。在 Auto-J 查詢上的得分從 81.6% 提升至 88%,在 LIMA 查詢上從 77.2% 提升至 87.2%。這種性能提升表明,我們的微調(diào)方法不僅改善了雙語對話能力,還增強(qiáng)了模型處理一般任務(wù)的能力,特別是在需要長期規(guī)劃和結(jié)構(gòu)化思維的場景中。

章節(jié) 3:對工作透明度的評分體系

為了系統(tǒng)地評估和比較各種嘗試 o1 復(fù)現(xiàn)的工作,我們提出了基于透明度的評價(jià)體系,這是一個(gè)全面的框架,用于量化各個(gè)工作實(shí)現(xiàn)的透明度和可復(fù)現(xiàn)性。該框架旨在為研究界提供客觀指標(biāo),主要從透明度角度評估 o1 復(fù)現(xiàn)工作,這包括幾個(gè)相互關(guān)聯(lián)的方面:數(shù)據(jù)透明度,涵蓋下游進(jìn)行搜索或后訓(xùn)練所用數(shù)據(jù)集的透明性;方法透明度,體現(xiàn)在所描述技術(shù)、流程和實(shí)驗(yàn)設(shè)置是否清晰;以及評估透明度,考慮性能評估的可復(fù)現(xiàn)性和全面性。此外,該框架還評價(jià)了資源的開源程度,如代碼、數(shù)據(jù)集和模型是否開源,以確保研究界能驗(yàn)證和有效利用這些工作。這種全面的視角捕捉了復(fù)現(xiàn)工作中透明度的多面性。

  • 數(shù)據(jù)透明度

這一方面評估數(shù)據(jù)來源是否明確在技術(shù)報(bào)告中指明,包括所使用數(shù)據(jù)集及其各自來源的詳細(xì)描述。這個(gè)數(shù)據(jù)涉及下游任務(wù)(如監(jiān)督微調(diào) (SFT)、強(qiáng)化學(xué)習(xí) (RL) 或搜索算法)中使用的所有數(shù)據(jù)集。數(shù)據(jù)的透明度,對后期后訓(xùn)練、搜索算法、強(qiáng)化學(xué)習(xí),以及最重要的長思維數(shù)據(jù)構(gòu)建階段起到了非常重要的奠基作用。

  • 方法透明度

方法透明度確保對工作中采用的方法、技術(shù)和流程有足夠詳細(xì)的描述,以方便其他研究者的復(fù)現(xiàn)和驗(yàn)證。本部分的評估由多個(gè)部分組成,從基礎(chǔ)模型的選取、介紹到訓(xùn)練、搜索、強(qiáng)化學(xué)習(xí)和數(shù)據(jù)合成方法。此外,除了詳細(xì)說明方法如何實(shí)施外,驗(yàn)證方法本身的有效性更為重要。全面的評估應(yīng)量化各個(gè)技術(shù)對整體系統(tǒng)性能的貢獻(xiàn)(例如設(shè)計(jì)消融實(shí)驗(yàn)、對比實(shí)驗(yàn)),而不是簡單地報(bào)告最終結(jié)果。

  • 評估透明度

評估透明度包括方法選用的 benchmark 測試集是否是領(lǐng)域公認(rèn)的,并且全面公開的;此外,采用的評估指標(biāo)是否權(quán)威,如果牽涉到自己定義的評估指標(biāo)是否有詳細(xì)介紹其定義以及發(fā)明的動(dòng)機(jī)。同時(shí),在匯報(bào)的 baseline 中,很重要的一點(diǎn)是評估指標(biāo)的對齊,即對不同的模型 / 方法是否是在公平、一致的實(shí)驗(yàn)環(huán)境下進(jìn)行評測的。

  • 資源的開源程度

開源資源在促進(jìn)可重復(fù)性和使研究社區(qū)能夠建立在現(xiàn)有工作之上發(fā)揮著重要作用。這一部分評估數(shù)據(jù)集、模型、代碼和文檔的可用性和可訪問性,這些對于獨(dú)立驗(yàn)證和進(jìn)一步實(shí)驗(yàn)至關(guān)重要。

針對以上提到的科研工作透明性的評價(jià)角度,研究團(tuán)隊(duì)精心設(shè)計(jì)了一套評分機(jī)制,這套機(jī)制里涵蓋了 25 個(gè)是 / 否問題,并結(jié)合每個(gè)問題的重要性賦予不同的分值,最后得到了一套總分為 100 分的評價(jià)體系。

圖片

對 o1 各種復(fù)現(xiàn)工作的評價(jià)體系,包含了 25 個(gè) Yes/No 問題,總分為 100 分。

利用上述的評價(jià)體系,團(tuán)隊(duì)對市面上現(xiàn)存的 o1 復(fù)現(xiàn)工作進(jìn)行了全面的評估。涉及的工作包括:Open o1、o1-Journey (Part1)、LLaMA-o1、K0Math、Skywork o1、DeepSeek-R1-Lite、o1-Journey (Part2,即本工作),評估的結(jié)果如下表所示:

圖片

各種 o1 復(fù)現(xiàn)工作的透明度得分 (截至 2024.11.22 日的統(tǒng)計(jì))。

從評估結(jié)果可以看出,無論是工作在各個(gè)維度的透明開放程度,還是在資源的開源方面,團(tuán)隊(duì)系列的 o1-Journey 工作都占據(jù)了非常大的優(yōu)勢,即有非常大的透明性、開放性層面,從而利于研究社區(qū)的進(jìn)一步利用和探索。

章節(jié) 4:“蒸餾” 的背后?

教訓(xùn)

從 o1 進(jìn)行知識蒸餾的顯著成功,為在數(shù)學(xué)推理任務(wù)中獲得令人印象深刻的性能提升提供了一條 “誘人” 的捷徑。雖然這種方法提供了即時(shí)且切實(shí)的效益,但它掩蓋了一系列深層挑戰(zhàn),這些挑戰(zhàn)威脅著 AI 技術(shù)及其研究社區(qū)的長期發(fā)展。在本節(jié)中,團(tuán)隊(duì)將探討優(yōu)先選擇容易獲勝而非基礎(chǔ)創(chuàng)新付出的真實(shí)代價(jià),揭示出遠(yuǎn)超純技術(shù)層面的影響。

  • 表面吸引力:乍一看,蒸餾似乎是一種優(yōu)雅的解決方案:通過直接學(xué)習(xí) o1 的復(fù)雜推理模式,模型可以通過相對簡單的實(shí)現(xiàn)方式快速獲得顯著的性能提升。這種易用性使其得到了廣泛應(yīng)用,尤其是在那些希望迅速展示接近 o1 能力的組織中。然而,這種便利背后隱藏的代價(jià)可能并不明顯,但從長遠(yuǎn)來看,對整個(gè)領(lǐng)域的發(fā)展可能是毀滅性的。
  • 性能瓶頸:最直接的技術(shù)問題或許在于蒸餾方法的內(nèi)在局限性。通過蒸餾訓(xùn)練的模型,其能力不可避免地受到教師模型(在本例中為 o1-mini 模型)水平的限制。這種限制形成了隱性的 “天花板效應(yīng)”,即使蒸餾過程再精妙,也無法真正超越原始模型的能力。尤其是在需要擴(kuò)展到新領(lǐng)域或應(yīng)對前所未見的挑戰(zhàn)時(shí),這一局限性變得尤為突出。
  • 創(chuàng)新缺失:更為根本的問題在于,蒸餾方法的廣泛應(yīng)用使我們錯(cuò)失了核心技術(shù)創(chuàng)新的關(guān)鍵機(jī)會(huì)。o1 的真正突破不僅在于解決復(fù)雜問題的能力,還在于其推理時(shí)間擴(kuò)展和搜索優(yōu)化的精妙機(jī)制。然而,通過規(guī)避開發(fā)這些基礎(chǔ)能力的挑戰(zhàn),我們可能正在加劇技術(shù)差距 —— 即掌握核心技術(shù)的組織與主要依賴蒸餾的組織之間的鴻溝。隨著領(lǐng)域的不斷發(fā)展,這種技術(shù)基礎(chǔ)設(shè)施差距可能變得愈發(fā)難以彌合。
  • 研究風(fēng)氣的轉(zhuǎn)變:對科學(xué)研究風(fēng)氣的影響同樣令人擔(dān)憂。通過蒸餾獲得 “輕松取勝” 的便利性,正在使研究重點(diǎn)逐漸遠(yuǎn)離基礎(chǔ)性挑戰(zhàn)。這一趨勢表現(xiàn)為對高級計(jì)算基礎(chǔ)設(shè)施投資的減少,以及對復(fù)雜搜索和推理算法開發(fā)的重視程度降低。這種由此產(chǎn)生的自我強(qiáng)化循環(huán) —— 缺乏基礎(chǔ)設(shè)施限制了研究可能性,從而進(jìn)一步鼓勵(lì)依賴蒸餾方法 —— 有可能形成一個(gè)創(chuàng)新瓶頸,阻礙未來的重大突破。
  • 基礎(chǔ)能力的削弱:最令人警惕的,是蒸餾方法對領(lǐng)域內(nèi)教育發(fā)展的影響。蒸餾方法的廣泛采用對未來 AI 研究者的培養(yǎng)構(gòu)成了顯著威脅。當(dāng)學(xué)生和職業(yè)初期的研究者主要接觸 “捷徑” 式的解決方案時(shí),他們錯(cuò)失了發(fā)展深度問題解決能力的關(guān)鍵機(jī)會(huì)。從第一性原理出發(fā)解決復(fù)雜技術(shù)挑戰(zhàn)的能力 —— 科學(xué)創(chuàng)新的基石 —— 可能會(huì)隨著快捷方案成為常態(tài)而逐漸被削弱。我們正目睹下一代 AI 研究者在問題解決方式上的轉(zhuǎn)變:他們不再通過解決基礎(chǔ)性挑戰(zhàn)獲得深刻理解,而更多地接受優(yōu)化和提示工程的訓(xùn)練。這種從 “如何運(yùn)作”  “什么有效” 的轉(zhuǎn)變,標(biāo)志著研究心態(tài)的根本變化,可能對領(lǐng)域未來的創(chuàng)新能力產(chǎn)生深遠(yuǎn)影響。
  • 第一性原理的衰退:第一性原理思維的削弱尤為令人擔(dān)憂,因?yàn)樗鼊?dòng)搖了科學(xué)創(chuàng)新的根基。從零開始開發(fā)搜索算法、優(yōu)化推理時(shí)間以及構(gòu)建推理機(jī)制的過程,提供了蒸餾方法無法替代的寶貴學(xué)習(xí)經(jīng)驗(yàn)。這些挑戰(zhàn)迫使研究者深入理解模型的行為與局限性,形成系統(tǒng)性問題解決策略,并培養(yǎng)對算法設(shè)計(jì)與優(yōu)化的直覺。如果缺少這些經(jīng)歷,我們可能會(huì)培養(yǎng)出一代更傾向于套用現(xiàn)有方案,而非基于第一性原理開發(fā)新方案的研究者。這種趨勢將對領(lǐng)域的長遠(yuǎn)發(fā)展產(chǎn)生深遠(yuǎn)的不利影響。
  • 學(xué)術(shù)影響:這種教育影響不僅限于個(gè)人技能的培養(yǎng),對學(xué)術(shù)研究環(huán)境的沖擊尤為顯著。學(xué)術(shù)界歷來是孕育基礎(chǔ)性創(chuàng)新的搖籃,但其對這種趨勢的脆弱性不容忽視。對快速產(chǎn)出的壓力可能掩蓋深入技術(shù)探索的價(jià)值,同時(shí)令學(xué)生對追求更具挑戰(zhàn)性和基礎(chǔ)性的研究方向望而卻步。當(dāng)研究重點(diǎn)更多放在性能指標(biāo)而非深層理解上時(shí),可能導(dǎo)致培養(yǎng)出一代擅長優(yōu)化卻缺乏創(chuàng)新能力的研究者。這種轉(zhuǎn)變對學(xué)術(shù)界的長遠(yuǎn)發(fā)展無疑是一個(gè)巨大的隱患。
  • 不斷擴(kuò)大的鴻溝:展望未來,這些因素的累積效應(yīng)描繪出一個(gè)令人擔(dān)憂的前景。那些掌握了基礎(chǔ)搜索和推理技術(shù)的組織,與主要依賴蒸餾方法的組織之間的技術(shù)能力差距可能會(huì)變得愈發(fā)難以彌合。這一鴻溝可能導(dǎo)致研究生態(tài)系統(tǒng)的失衡:真正的突破將成為少數(shù)資源充足的組織的專屬領(lǐng)域,而更廣泛的研究群體則被困在依靠蒸餾實(shí)現(xiàn)漸進(jìn)式改進(jìn)的循環(huán)中。這種局面不僅限制了整體技術(shù)的多樣性,也將顯著影響領(lǐng)域的創(chuàng)新能力和公平發(fā)展。

建議與呼吁

首先,各個(gè)研究組織應(yīng)保持良性、平衡的研究,既包括基于蒸餾的方法,也包括對搜索與推理優(yōu)化的基礎(chǔ)研究。其次,盡管蒸餾解決方案的短期效果顯著,對高級計(jì)算基礎(chǔ)設(shè)施的持續(xù)投入依然不可或缺。最后,研究計(jì)劃應(yīng)優(yōu)先培養(yǎng)搜索算法和推理優(yōu)化的核心能力,同時(shí)兼顧性能提升。

在教育層面,我們需要重新設(shè)計(jì)培養(yǎng)未來研究者的方法。這包括開發(fā)兼顧實(shí)踐應(yīng)用與基礎(chǔ)理論的平衡課程、構(gòu)建既促進(jìn)深刻理解又兼顧性能優(yōu)化的研究項(xiàng)目,并營造一種重視長期創(chuàng)新而非快速收益的研究文化。

深刻的教訓(xùn)在于,蒸餾本身并非問題,它是我們技術(shù)工具箱中的重要組成部分。真正的風(fēng)險(xiǎn)在于,它的便利性可能讓我們偏離基礎(chǔ)創(chuàng)新這一更困難但回報(bào)更高的道路。在未來的發(fā)展中,保持即時(shí)收益與長期發(fā)展的平衡,將是確保 AI 能力持續(xù)提升以及培養(yǎng)領(lǐng)域未來創(chuàng)新者的關(guān)鍵。

構(gòu)建智能 AI 固然重要,但培養(yǎng)具備第一性原理思維的人才才是我們的終極使命 —— 畢竟,他們才是 AI 未來的真正設(shè)計(jì)者。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-08-02 14:58:00

2024-12-18 13:24:30

谷歌AI大語言模型

2024-11-22 12:39:56

2024-05-20 08:20:00

OpenAI模型

2024-11-22 15:00:00

模型數(shù)據(jù)

2024-05-15 09:58:06

谷歌大模型

2023-12-09 14:30:50

2025-04-10 10:41:36

2023-12-08 08:10:34

谷歌GeminiOpenAI

2025-04-07 07:18:48

2025-03-31 08:50:00

AI生成模型

2023-09-04 10:05:01

GPT-4AI模型

2024-06-05 08:29:35

2024-08-02 13:14:51

2024-05-14 11:29:15

2024-05-15 17:34:15

2023-12-07 11:12:54

大型語言模型Gemini人工智能

2024-06-27 12:45:30

2025-03-26 10:21:58

2024-08-08 14:27:29

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號