自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜單的頭把交椅。圖片對于苦苦追趕 OpenAI 幾個(gè)月的谷歌來說，這次在基準(zhǔn)測試上的

作者：機(jī)器之心 2024-11-22 15:17:00

人工智能新聞

團(tuán)隊(duì)在本工作中特意聚焦于業(yè)內(nèi)廣泛使用卻往往未被公開披露的蒸餾技術(shù)，想在 “揭秘” 蒸餾技術(shù)背后所能達(dá)到的收益的同時(shí)，又對 AI 研究界進(jìn)行一次倡議，呼吁優(yōu)先考慮透明創(chuàng)新的方法，而不是一味追求短期性能提升和 AI 技術(shù)研發(fā) "捷徑"。

團(tuán)隊(duì)介紹：本項(xiàng)目的核心開發(fā)團(tuán)隊(duì)主要由上海交通大學(xué)GAIR研究組，研究團(tuán)隊(duì)早在一個(gè)多月前發(fā)布o(jì)1復(fù)現(xiàn)進(jìn)展報(bào)告。

詳細(xì)作者介紹見：https://github.com/GAIR-NLP/O1-Journey#about-the-team

自從 OpenAI 發(fā)布展現(xiàn)出前所未有復(fù)雜推理能力的 o1 系列模型以來，全球掀起了一場 AI 能力 “復(fù)現(xiàn)” 競賽。近日，上海交通大學(xué) GAIR 研究團(tuán)隊(duì)在 o1 模型復(fù)現(xiàn)過程中取得新的突破，通過簡單的知識蒸餾方法，團(tuán)隊(duì)成功使基礎(chǔ)模型在數(shù)學(xué)推理能力上超越 o1-preview。

團(tuán)隊(duì)在本工作中特意聚焦于業(yè)內(nèi)廣泛使用卻往往未被公開披露的蒸餾技術(shù)，想在 “揭秘” 蒸餾技術(shù)背后所能達(dá)到的收益的同時(shí)，又對 AI 研究界進(jìn)行一次倡議，呼吁優(yōu)先考慮透明創(chuàng)新的方法，而不是一味追求短期性能提升和 AI 技術(shù)研發(fā) "捷徑"。研究團(tuán)隊(duì)堅(jiān)信，培養(yǎng)能夠從第一性原理思考而不是簡單套用現(xiàn)有解決方案的下一代 AI 研究者至關(guān)重要。

團(tuán)隊(duì)選擇 Qwen2.5-Math-72B 作為基礎(chǔ)模型，經(jīng)過精心設(shè)計(jì)的數(shù)據(jù)篩選和處理流程，僅使用數(shù)萬個(gè)從 o1 蒸餾的長思考鏈樣本進(jìn)行訓(xùn)練。在美國高中數(shù)學(xué)邀請賽 (AIME) 等權(quán)威測試中，模型表現(xiàn)優(yōu)于 o1-preview。研究表明，通過標(biāo)準(zhǔn)的監(jiān)督微調(diào)方法，模型不僅掌握了復(fù)雜的數(shù)學(xué)推理能力，還展現(xiàn)出強(qiáng)大的泛化性。令人驚喜的是，這個(gè)主要針對數(shù)學(xué)推理訓(xùn)練的模型在其他領(lǐng)域也表現(xiàn)出色：

安全性評估中，在 Flames 測試集上的得分從 91% 提升至 92.5%
在應(yīng)對誤導(dǎo)性問題時(shí)的抵抗力顯著增強(qiáng)，抗 "奉承" 能力從 89.70% 提升到 92.65%
在通用場景評估中，Auto-J 和 LIMA 測試集的得分分別提升了 6.4 和 10 個(gè)百分點(diǎn)

技術(shù)文檔：https://github.com/GAIR-NLP/O1-Journey/blob/main/resource/report-part2.pdf

相關(guān)資源將近日公開：https://github.com/GAIR-NLP/O1-Journey

"這個(gè)突破背后隱藏著重要警示。" 項(xiàng)目負(fù)責(zé)人表示，知識蒸餾雖然提供了快速提升模型性能的捷徑，但也帶來了三個(gè)層面的隱憂：

1. 技術(shù)層面：模型性能受限于教師模型，難以實(shí)現(xiàn)真正的突破創(chuàng)新

2. 研究方向：過度依賴蒸餾可能導(dǎo)致核心技術(shù)研發(fā)投入不足

3. 人才培養(yǎng)：簡單的模型復(fù)制和優(yōu)化可能削弱研究人員的基礎(chǔ)創(chuàng)新能力

為推動(dòng)行業(yè)良性發(fā)展，團(tuán)隊(duì)創(chuàng)新性地提出了技術(shù)透明度指數(shù) (TTI) 框架。該框架從數(shù)據(jù)、方法、評估和開源資源四個(gè)維度，對 AI 模型復(fù)制工作進(jìn)行全面評估。研究發(fā)現(xiàn)，目前業(yè)界多個(gè) o1 復(fù)現(xiàn)項(xiàng)目的透明度普遍不足，最高分僅為 33 分。研究團(tuán)隊(duì)建議，AI 領(lǐng)域應(yīng)當(dāng)：

保持技術(shù)組合平衡，不過度依賴單一方法
持續(xù)投入基礎(chǔ)設(shè)施和算法研究
重視人才培養(yǎng)，強(qiáng)化第一性原理思維的訓(xùn)練

"構(gòu)建智能 AI 系統(tǒng)固然重要，但培養(yǎng)具有第一性原理思維的人才才是我們的終極使命。" 這句話道出了 AI 發(fā)展的深層智慧 —— 技術(shù)進(jìn)步離不開深入的思考和創(chuàng)新。這項(xiàng)研究不僅展示了 AI 技術(shù)的最新進(jìn)展，更為整個(gè)行業(yè)的發(fā)展方向提供了重要啟示。在追求技術(shù)突破的同時(shí)，如何保持創(chuàng)新活力、培養(yǎng)高質(zhì)量人才，將是決定 AI 未來的關(guān)鍵因素。

具體而言，這份報(bào)告分為幾個(gè)重要的板塊：

（1）詳細(xì)解析了蒸餾 OpenAI o1 系列模型的技術(shù)路線，并對其有效性進(jìn)行了全面的評估。研究團(tuán)隊(duì)發(fā)現(xiàn)，在一個(gè)不錯(cuò)的基礎(chǔ)數(shù)學(xué)模型上僅僅通過幾萬條 o1-mini 的蒸餾樣本進(jìn)行微調(diào)，就可以在美國高難度的數(shù)學(xué)競賽 AIME 上超越 o1-preview 的水平，并且整個(gè)過程所需要的技術(shù)復(fù)雜度極低。

（2）除了數(shù)學(xué)推理這個(gè)場景外，我們還探索了 o1 蒸餾模型在其他不同視角（如幻覺、安全性）下的表現(xiàn)，這些跨域?qū)嶒?yàn)不僅揭示了知識蒸餾技術(shù)的優(yōu)勢，也展現(xiàn)了其固有局限性，并發(fā)現(xiàn)了一些意想不到的跨域表現(xiàn)模式。

（3）建立了一個(gè)全面的基準(zhǔn)框架，在多個(gè)不同的角度（如數(shù)據(jù)透明性、方法技術(shù)透明性、評估透明性以及資源的開源程度）評估和分類 o1 的各種復(fù)現(xiàn)嘗試工作的技術(shù)透明度與開放性，并為此設(shè)立了一套排行版機(jī)制。

（4）最后，此研究報(bào)告還進(jìn)行了非常深刻的討論，最終得出盡管追求更強(qiáng)大的 AI 很重要，但培養(yǎng)具有第一性原理思維的研究人員往往更加重要。這一教育使命不僅僅是一個(gè)技術(shù)層面的考慮，更是一項(xiàng)將塑造 AI 創(chuàng)新未來的根本性人文使命。

章節(jié) 1：o1 復(fù)現(xiàn)的一條 “捷徑”

o1 技術(shù)的回顧

o1-Journey (Part1) 中探索的技術(shù)路線。

研究團(tuán)隊(duì)早在一個(gè)多月前的 o1-Journey (Part1) 中已經(jīng)提出了一種結(jié)合樹搜索構(gòu)建長思維鏈數(shù)據(jù)的方式，并取得了一定的初步效果。在整個(gè)技術(shù)路線中，最為關(guān)鍵的一個(gè)環(huán)節(jié)是如何構(gòu)建長思維鏈數(shù)據(jù)，這種長思維數(shù)據(jù)需要體現(xiàn) “深度” 的思考，包含反思、糾錯(cuò)和回溯步驟。雖然樹搜索是最有效的方法之一，但它可能會(huì)耗費(fèi)大量計(jì)算資源和時(shí)間。除了樹搜索之外，合成長推理鏈的其他替代方法如下圖所示。這些方法在計(jì)算效率和推理完整性之間提供了不同的權(quán)衡。

各種合成長思維數(shù)據(jù)的方法（按照代價(jià)從小到大）。

完整的人類思維過程標(biāo)注（代價(jià)最高）

人類解決問題很少遵循一條通向成功或失敗的線性路徑。相反，人們在遇到障礙時(shí)會(huì)經(jīng)常停下來反思、回溯并修改他們的方法。這個(gè)自然過程反映了長思維的特征。通過詳細(xì)記錄人類如何解決問題，我們可以生成真實(shí)的長思維訓(xùn)練數(shù)據(jù)。但是這種方式需要依賴大量極高質(zhì)量的人工標(biāo)注，并且隨著問題難度的升級，標(biāo)注的難度也會(huì)大幅上升。

多智能體方法

與策略模型不直接對反饋?zhàn)鞒龇磻?yīng)的歷程學(xué)習(xí) (Journey Learning) 不同，我們可以讓多個(gè)智能體參與探索過程，指導(dǎo)它們扮演不同的角色。例如，我們可以構(gòu)建一個(gè)多智能體辯論系統(tǒng)，其中策略模型生成持續(xù)的推理，而評判模型則評估是繼續(xù)還是回溯。當(dāng)找到解決方案時(shí)，這種交互過程自然會(huì)產(chǎn)生長思維訓(xùn)練數(shù)據(jù)。

從高級模型蒸餾

像 o1 系列這樣強(qiáng)大的模型展示出強(qiáng)大的反思和自我糾正能力。使用更強(qiáng)大的模型來指導(dǎo)較弱模型的常見做法，是一種簡單，不需要設(shè)計(jì)復(fù)雜技術(shù)路線的方法。然而，由于 o1 限制了對其內(nèi)部思維過程的訪問，因此需要謹(jǐn)慎的提示詞設(shè)計(jì)。

蒸餾的技術(shù)路線

格式對齊

團(tuán)隊(duì)選用了 Qwen-2.5-Math-72B 作為基座模型，在實(shí)際進(jìn)行蒸餾之前，研究團(tuán)隊(duì)首先在這個(gè)模型上面進(jìn)行了 “格式化對齊”(Reformatted Alignment)。團(tuán)隊(duì)從開源數(shù)據(jù)集 NuminaMath-CoT 上選取了一部分奧林匹克級別的問題作為起點(diǎn)，并應(yīng)用了一個(gè)過濾流程來優(yōu)化數(shù)據(jù)集：設(shè)計(jì)規(guī)則移除了依賴圖像的問題、缺乏明確標(biāo)注答案的問題以及所有證明題，僅保留答案類型為數(shù)值的問題。為了進(jìn)一步增強(qiáng)數(shù)據(jù)集，利用 GPT-4o-mini 重寫原始解答。重寫過程遵循特定的標(biāo)準(zhǔn)，確保解答的步驟是細(xì)粒度的、高度詳細(xì)的，并且篇幅更長。這一步驟還規(guī)范化了輸出格式，要求使用 \boxed {} 明確表示最終答案，以符合長思維格式。

蒸餾：通過使用 OpenAI o1 進(jìn)行長思維鏈的合成。

實(shí)驗(yàn)

評估標(biāo)準(zhǔn)

與使用 Pass@k、Maj@k 或 RM@k 等傳統(tǒng)評估指標(biāo)不同，我們引入了一個(gè)新指標(biāo)，旨在評估模型在不同計(jì)算代價(jià)場景下的表現(xiàn)。這種新方法反映了 “推理時(shí)擴(kuò)展”(inference-time scaling) 的真實(shí)情況，在衡量大模型的有效性和效率方面發(fā)揮著關(guān)鍵作用。在 “推理時(shí)擴(kuò)展” 時(shí)代，像 OpenAI 的 o1 系列這樣的模型已經(jīng)證明，性能不僅取決于訓(xùn)練時(shí)的計(jì)算量，還顯著受到推理過程中 "思考" 時(shí)間的影響。這種轉(zhuǎn)變需要一個(gè)更細(xì)致的評估指標(biāo)，以考慮計(jì)算成本和性能之間的權(quán)衡。團(tuán)隊(duì)提出的指標(biāo)通過測量模型在特定的 benchmark 上，在一定的平均輸出 Token 下，獲得的準(zhǔn)確率，反映這種 “推理時(shí)擴(kuò)展” 的模式。此外，這個(gè)指標(biāo)本質(zhì)上是可擴(kuò)展的。在評估選取的平均 Token 比單次模型輸出 Token 數(shù)更高的場景中，采用 Maj@k 指標(biāo)來近似模型的性能。注意，整個(gè)過程無需使用任何額外的獎(jiǎng)勵(lì)模型。通過采用這種方法，我們確保了一個(gè)可擴(kuò)展且公平的評估框架，能夠捕捉模型在不同推理時(shí)間計(jì)算設(shè)置下的表現(xiàn)。這種方法避免了人為約束，并允許進(jìn)行有意義的比較，而無需依賴外部獎(jiǎng)勵(lì)信號，僅專注于模型的內(nèi)在推理能力。

結(jié)果

使用蒸餾數(shù)據(jù) SFT 后的模型在 AIME2024 和 MATH500 兩個(gè) benchmark 上與 o1 系列模型在一定“推理代價(jià)”的表現(xiàn)比較。

結(jié)果表現(xiàn)，在相似的 “推理計(jì)算代價(jià)”（即在對應(yīng) benchmark 的平均輸出 token 類似的情形下），采用蒸餾技術(shù)得到的模型具有出色的表現(xiàn)，在 AIME2024 上超過了 o1-preview 的表現(xiàn)。

章節(jié) 2：復(fù)雜推理以外的能力

除了在推理場景下，對蒸餾技術(shù)得到的模型進(jìn)行性能的探究之外，團(tuán)隊(duì)還涉足許多其他角度的問題，例如安全、幻覺，以及在更加通用場景任務(wù)上的表現(xiàn)。為了研究模型在不同領(lǐng)域的泛化能力，我們首先構(gòu)建了一個(gè)多樣化的雙語數(shù)據(jù)集。從我們的蒸餾 o1 模型輸出中，我們精心選擇了大約 5,000 個(gè)包含回溯思維和自我反思的高質(zhì)量樣本。這些樣本隨后使用 GPT-4o mini 模型翻譯成中文，形成了一個(gè)數(shù)量均衡的雙語數(shù)據(jù)集。最終的訓(xùn)練數(shù)據(jù)集包含 10,750 對中英混合樣本對。然后，我們使用這個(gè)精選數(shù)據(jù)集對 Qwen2.5-72B-Instruct 模型進(jìn)行監(jiān)督微調(diào)（SFT），從而獲得我們的最終模型。

基于 Qwen2.5-72B-Instruct，經(jīng)過 o1-mini distill 的數(shù)據(jù) SFT 前后，模型在安全性、幻覺（事實(shí)準(zhǔn)確性）、以及一些通用場景任務(wù)下的表現(xiàn)性能對比。

安全性

為了全面評估模型安全性方面的泛化能力，團(tuán)隊(duì)構(gòu)建了一個(gè)由 600 個(gè)問題組成的多樣化測試集，這些問題是從三個(gè)已建立的安全評估數(shù)據(jù)集中精心選擇的：Flames、DiaSafety 和 WildSafety。具體來說，我們從每個(gè)數(shù)據(jù)集中提取 200 個(gè)問題，以確保在不同安全場景中的平衡代表性。我們使用 Safety-J 來評估原始模型和微調(diào)模型的響應(yīng)。評估結(jié)果揭示了模型在安全性影響上的有趣現(xiàn)象：雖然在 Flames 上的表現(xiàn)略有提升（從 91% 提高到 92.5%），在 DiaSafety 上保持穩(wěn)定（100%），但在 WildSafety 上出現(xiàn)了明顯的下降（從 92% 降至 86.5%）。這種安全性指標(biāo)的輕微下降凸顯了一個(gè)關(guān)鍵發(fā)現(xiàn)：即使使用以回顧和反思為重點(diǎn)的高質(zhì)量 o1 類訓(xùn)練數(shù)據(jù)，如果訓(xùn)練數(shù)據(jù)缺乏明確的安全性對齊，模型的安全性表現(xiàn)也可能出現(xiàn)退化。

幻覺（事實(shí)準(zhǔn)確性）

團(tuán)隊(duì)還評估了模型在利用 o1 蒸餾的數(shù)據(jù) SFT 前后的事實(shí)準(zhǔn)確性。團(tuán)隊(duì)使用了來自 SimpleQA、ChineseSimpleQA 和 ChineseFactEval 的數(shù)據(jù)集。這些數(shù)據(jù)集包含中文和英文的基于知識的問題，用于驗(yàn)證模型的事實(shí)準(zhǔn)確性。ChineseFactEval 數(shù)據(jù)集包含兩個(gè)子集：通用問答和奉承性問答。奉承性問答子集在提示中包含誤導(dǎo)性答案，以測試模型的奉承傾向，而通用問答子集則采用類似 SimpleQA 的格式。這些數(shù)據(jù)集中的所有問題都需要可驗(yàn)證的簡短答案。我們使用 GPT-4o 評估模型響應(yīng)與標(biāo)準(zhǔn)答案的匹配程度，以獲得更穩(wěn)健的答案匹配結(jié)果。

結(jié)果表明，經(jīng)過 o1 蒸餾得到的數(shù)據(jù) SFT 后的模型在事實(shí)準(zhǔn)確性方面沒有顯示出顯著改進(jìn)。這主要是因?yàn)楦L的推理鏈導(dǎo)致了額外的幻覺 —— 尤其是模型試圖假裝使用搜索引擎并虛構(gòu)搜索結(jié)果的現(xiàn)象。然而，這些嘗試使用搜索引擎的行為暗示了一個(gè)有前途的方向，我們認(rèn)為為模型提供實(shí)際的網(wǎng)絡(luò)訪問能力將顯著提高其事實(shí)準(zhǔn)確性。此外，SFT 后模型增強(qiáng)的推理鏈提供了詳細(xì)的分析和自我反思能力，這可能有助于防止幻覺的產(chǎn)生。我們還發(fā)現(xiàn)，經(jīng)過 SFT 后，模型對奉承的易感性略有降低。這種改進(jìn)可以歸因于自我反思過程，在這個(gè)過程中，模型能夠辨別并深入思考提示中呈現(xiàn)的不合理假設(shè)，而不是不加質(zhì)疑地接受它們。

例1：反思和深度思考緩解回答的幻覺

例2：反思和深度思考緩解回答的幻覺

例3：反思和深度思考緩解回答的幻覺

例4：反思和深度思考檢測錯(cuò)誤的假設(shè)

例5：反思和深度思考緩解回答的幻覺

通用場景任務(wù)

為了評估我們模型在通用場景中的表現(xiàn)，我們從 Auto-J 和 LIMA 數(shù)據(jù)集中各抽取 50 個(gè)查詢，組成了一個(gè)包含 100 個(gè)查詢的測試集，并通過人工調(diào)整，特別聚焦于長期規(guī)劃任務(wù)，并請三位領(lǐng)域?qū)＜覍δＰ偷妮敵鲑|(zhì)量進(jìn)行 0-100 分的評估。評估結(jié)果顯示在經(jīng)過 o1 蒸餾數(shù)據(jù)微調(diào)后，模型的表現(xiàn)有顯著改進(jìn)。在 Auto-J 查詢上的得分從 81.6% 提升至 88%，在 LIMA 查詢上從 77.2% 提升至 87.2%。這種性能提升表明，我們的微調(diào)方法不僅改善了雙語對話能力，還增強(qiáng)了模型處理一般任務(wù)的能力，特別是在需要長期規(guī)劃和結(jié)構(gòu)化思維的場景中。

章節(jié) 3：對工作透明度的評分體系

為了系統(tǒng)地評估和比較各種嘗試 o1 復(fù)現(xiàn)的工作，我們提出了基于透明度的評價(jià)體系，這是一個(gè)全面的框架，用于量化各個(gè)工作實(shí)現(xiàn)的透明度和可復(fù)現(xiàn)性。該框架旨在為研究界提供客觀指標(biāo)，主要從透明度角度評估 o1 復(fù)現(xiàn)工作，這包括幾個(gè)相互關(guān)聯(lián)的方面：數(shù)據(jù)透明度，涵蓋下游進(jìn)行搜索或后訓(xùn)練所用數(shù)據(jù)集的透明性；方法透明度，體現(xiàn)在所描述技術(shù)、流程和實(shí)驗(yàn)設(shè)置是否清晰；以及評估透明度，考慮性能評估的可復(fù)現(xiàn)性和全面性。此外，該框架還評價(jià)了資源的開源程度，如代碼、數(shù)據(jù)集和模型是否開源，以確保研究界能驗(yàn)證和有效利用這些工作。這種全面的視角捕捉了復(fù)現(xiàn)工作中透明度的多面性。

數(shù)據(jù)透明度

這一方面評估數(shù)據(jù)來源是否明確在技術(shù)報(bào)告中指明，包括所使用數(shù)據(jù)集及其各自來源的詳細(xì)描述。這個(gè)數(shù)據(jù)涉及下游任務(wù)（如監(jiān)督微調(diào) (SFT)、強(qiáng)化學(xué)習(xí) (RL) 或搜索算法）中使用的所有數(shù)據(jù)集。數(shù)據(jù)的透明度，對后期后訓(xùn)練、搜索算法、強(qiáng)化學(xué)習(xí)，以及最重要的長思維數(shù)據(jù)構(gòu)建階段起到了非常重要的奠基作用。

方法透明度

方法透明度確保對工作中采用的方法、技術(shù)和流程有足夠詳細(xì)的描述，以方便其他研究者的復(fù)現(xiàn)和驗(yàn)證。本部分的評估由多個(gè)部分組成，從基礎(chǔ)模型的選取、介紹到訓(xùn)練、搜索、強(qiáng)化學(xué)習(xí)和數(shù)據(jù)合成方法。此外，除了詳細(xì)說明方法如何實(shí)施外，驗(yàn)證方法本身的有效性更為重要。全面的評估應(yīng)量化各個(gè)技術(shù)對整體系統(tǒng)性能的貢獻(xiàn)（例如設(shè)計(jì)消融實(shí)驗(yàn)、對比實(shí)驗(yàn)），而不是簡單地報(bào)告最終結(jié)果。

評估透明度

評估透明度包括方法選用的 benchmark 測試集是否是領(lǐng)域公認(rèn)的，并且全面公開的；此外，采用的評估指標(biāo)是否權(quán)威，如果牽涉到自己定義的評估指標(biāo)是否有詳細(xì)介紹其定義以及發(fā)明的動(dòng)機(jī)。同時(shí)，在匯報(bào)的 baseline 中，很重要的一點(diǎn)是評估指標(biāo)的對齊，即對不同的模型 / 方法是否是在公平、一致的實(shí)驗(yàn)環(huán)境下進(jìn)行評測的。

資源的開源程度

開源資源在促進(jìn)可重復(fù)性和使研究社區(qū)能夠建立在現(xiàn)有工作之上發(fā)揮著重要作用。這一部分評估數(shù)據(jù)集、模型、代碼和文檔的可用性和可訪問性，這些對于獨(dú)立驗(yàn)證和進(jìn)一步實(shí)驗(yàn)至關(guān)重要。

針對以上提到的科研工作透明性的評價(jià)角度，研究團(tuán)隊(duì)精心設(shè)計(jì)了一套評分機(jī)制，這套機(jī)制里涵蓋了 25 個(gè)是 / 否問題，并結(jié)合每個(gè)問題的重要性賦予不同的分值，最后得到了一套總分為 100 分的評價(jià)體系。

對 o1 各種復(fù)現(xiàn)工作的評價(jià)體系，包含了 25 個(gè) Yes/No 問題，總分為 100 分。

利用上述的評價(jià)體系，團(tuán)隊(duì)對市面上現(xiàn)存的 o1 復(fù)現(xiàn)工作進(jìn)行了全面的評估。涉及的工作包括：Open o1、o1-Journey (Part1)、LLaMA-o1、K0Math、Skywork o1、DeepSeek-R1-Lite、o1-Journey (Part2，即本工作)，評估的結(jié)果如下表所示：

各種 o1 復(fù)現(xiàn)工作的透明度得分 (截至 2024.11.22 日的統(tǒng)計(jì)）。

從評估結(jié)果可以看出，無論是工作在各個(gè)維度的透明開放程度，還是在資源的開源方面，團(tuán)隊(duì)系列的 o1-Journey 工作都占據(jù)了非常大的優(yōu)勢，即有非常大的透明性、開放性層面，從而利于研究社區(qū)的進(jìn)一步利用和探索。

章節(jié) 4：“蒸餾” 的背后？

教訓(xùn)

從 o1 進(jìn)行知識蒸餾的顯著成功，為在數(shù)學(xué)推理任務(wù)中獲得令人印象深刻的性能提升提供了一條 “誘人” 的捷徑。雖然這種方法提供了即時(shí)且切實(shí)的效益，但它掩蓋了一系列深層挑戰(zhàn)，這些挑戰(zhàn)威脅著 AI 技術(shù)及其研究社區(qū)的長期發(fā)展。在本節(jié)中，團(tuán)隊(duì)將探討優(yōu)先選擇容易獲勝而非基礎(chǔ)創(chuàng)新付出的真實(shí)代價(jià)，揭示出遠(yuǎn)超純技術(shù)層面的影響。

表面吸引力：乍一看，蒸餾似乎是一種優(yōu)雅的解決方案：通過直接學(xué)習(xí) o1 的復(fù)雜推理模式，模型可以通過相對簡單的實(shí)現(xiàn)方式快速獲得顯著的性能提升。這種易用性使其得到了廣泛應(yīng)用，尤其是在那些希望迅速展示接近 o1 能力的組織中。然而，這種便利背后隱藏的代價(jià)可能并不明顯，但從長遠(yuǎn)來看，對整個(gè)領(lǐng)域的發(fā)展可能是毀滅性的。
性能瓶頸：最直接的技術(shù)問題或許在于蒸餾方法的內(nèi)在局限性。通過蒸餾訓(xùn)練的模型，其能力不可避免地受到教師模型（在本例中為 o1-mini 模型）水平的限制。這種限制形成了隱性的 “天花板效應(yīng)”，即使蒸餾過程再精妙，也無法真正超越原始模型的能力。尤其是在需要擴(kuò)展到新領(lǐng)域或應(yīng)對前所未見的挑戰(zhàn)時(shí)，這一局限性變得尤為突出。
創(chuàng)新缺失：更為根本的問題在于，蒸餾方法的廣泛應(yīng)用使我們錯(cuò)失了核心技術(shù)創(chuàng)新的關(guān)鍵機(jī)會(huì)。o1 的真正突破不僅在于解決復(fù)雜問題的能力，還在于其推理時(shí)間擴(kuò)展和搜索優(yōu)化的精妙機(jī)制。然而，通過規(guī)避開發(fā)這些基礎(chǔ)能力的挑戰(zhàn)，我們可能正在加劇技術(shù)差距 —— 即掌握核心技術(shù)的組織與主要依賴蒸餾的組織之間的鴻溝。隨著領(lǐng)域的不斷發(fā)展，這種技術(shù)基礎(chǔ)設(shè)施差距可能變得愈發(fā)難以彌合。
研究風(fēng)氣的轉(zhuǎn)變：對科學(xué)研究風(fēng)氣的影響同樣令人擔(dān)憂。通過蒸餾獲得 “輕松取勝” 的便利性，正在使研究重點(diǎn)逐漸遠(yuǎn)離基礎(chǔ)性挑戰(zhàn)。這一趨勢表現(xiàn)為對高級計(jì)算基礎(chǔ)設(shè)施投資的減少，以及對復(fù)雜搜索和推理算法開發(fā)的重視程度降低。這種由此產(chǎn)生的自我強(qiáng)化循環(huán) —— 缺乏基礎(chǔ)設(shè)施限制了研究可能性，從而進(jìn)一步鼓勵(lì)依賴蒸餾方法 —— 有可能形成一個(gè)創(chuàng)新瓶頸，阻礙未來的重大突破。
基礎(chǔ)能力的削弱：最令人警惕的，是蒸餾方法對領(lǐng)域內(nèi)教育發(fā)展的影響。蒸餾方法的廣泛采用對未來 AI 研究者的培養(yǎng)構(gòu)成了顯著威脅。當(dāng)學(xué)生和職業(yè)初期的研究者主要接觸 “捷徑” 式的解決方案時(shí)，他們錯(cuò)失了發(fā)展深度問題解決能力的關(guān)鍵機(jī)會(huì)。從第一性原理出發(fā)解決復(fù)雜技術(shù)挑戰(zhàn)的能力 —— 科學(xué)創(chuàng)新的基石 —— 可能會(huì)隨著快捷方案成為常態(tài)而逐漸被削弱。我們正目睹下一代 AI 研究者在問題解決方式上的轉(zhuǎn)變：他們不再通過解決基礎(chǔ)性挑戰(zhàn)獲得深刻理解，而更多地接受優(yōu)化和提示工程的訓(xùn)練。這種從 “如何運(yùn)作” 到 “什么有效” 的轉(zhuǎn)變，標(biāo)志著研究心態(tài)的根本變化，可能對領(lǐng)域未來的創(chuàng)新能力產(chǎn)生深遠(yuǎn)影響。
第一性原理的衰退：第一性原理思維的削弱尤為令人擔(dān)憂，因?yàn)樗鼊?dòng)搖了科學(xué)創(chuàng)新的根基。從零開始開發(fā)搜索算法、優(yōu)化推理時(shí)間以及構(gòu)建推理機(jī)制的過程，提供了蒸餾方法無法替代的寶貴學(xué)習(xí)經(jīng)驗(yàn)。這些挑戰(zhàn)迫使研究者深入理解模型的行為與局限性，形成系統(tǒng)性問題解決策略，并培養(yǎng)對算法設(shè)計(jì)與優(yōu)化的直覺。如果缺少這些經(jīng)歷，我們可能會(huì)培養(yǎng)出一代更傾向于套用現(xiàn)有方案，而非基于第一性原理開發(fā)新方案的研究者。這種趨勢將對領(lǐng)域的長遠(yuǎn)發(fā)展產(chǎn)生深遠(yuǎn)的不利影響。
學(xué)術(shù)影響：這種教育影響不僅限于個(gè)人技能的培養(yǎng)，對學(xué)術(shù)研究環(huán)境的沖擊尤為顯著。學(xué)術(shù)界歷來是孕育基礎(chǔ)性創(chuàng)新的搖籃，但其對這種趨勢的脆弱性不容忽視。對快速產(chǎn)出的壓力可能掩蓋深入技術(shù)探索的價(jià)值，同時(shí)令學(xué)生對追求更具挑戰(zhàn)性和基礎(chǔ)性的研究方向望而卻步。當(dāng)研究重點(diǎn)更多放在性能指標(biāo)而非深層理解上時(shí)，可能導(dǎo)致培養(yǎng)出一代擅長優(yōu)化卻缺乏創(chuàng)新能力的研究者。這種轉(zhuǎn)變對學(xué)術(shù)界的長遠(yuǎn)發(fā)展無疑是一個(gè)巨大的隱患。
不斷擴(kuò)大的鴻溝：展望未來，這些因素的累積效應(yīng)描繪出一個(gè)令人擔(dān)憂的前景。那些掌握了基礎(chǔ)搜索和推理技術(shù)的組織，與主要依賴蒸餾方法的組織之間的技術(shù)能力差距可能會(huì)變得愈發(fā)難以彌合。這一鴻溝可能導(dǎo)致研究生態(tài)系統(tǒng)的失衡：真正的突破將成為少數(shù)資源充足的組織的專屬領(lǐng)域，而更廣泛的研究群體則被困在依靠蒸餾實(shí)現(xiàn)漸進(jìn)式改進(jìn)的循環(huán)中。這種局面不僅限制了整體技術(shù)的多樣性，也將顯著影響領(lǐng)域的創(chuàng)新能力和公平發(fā)展。

建議與呼吁

首先，各個(gè)研究組織應(yīng)保持良性、平衡的研究，既包括基于蒸餾的方法，也包括對搜索與推理優(yōu)化的基礎(chǔ)研究。其次，盡管蒸餾解決方案的短期效果顯著，對高級計(jì)算基礎(chǔ)設(shè)施的持續(xù)投入依然不可或缺。最后，研究計(jì)劃應(yīng)優(yōu)先培養(yǎng)搜索算法和推理優(yōu)化的核心能力，同時(shí)兼顧性能提升。

在教育層面，我們需要重新設(shè)計(jì)培養(yǎng)未來研究者的方法。這包括開發(fā)兼顧實(shí)踐應(yīng)用與基礎(chǔ)理論的平衡課程、構(gòu)建既促進(jìn)深刻理解又兼顧性能優(yōu)化的研究項(xiàng)目，并營造一種重視長期創(chuàng)新而非快速收益的研究文化。

深刻的教訓(xùn)在于，蒸餾本身并非問題，它是我們技術(shù)工具箱中的重要組成部分。真正的風(fēng)險(xiǎn)在于，它的便利性可能讓我們偏離基礎(chǔ)創(chuàng)新這一更困難但回報(bào)更高的道路。在未來的發(fā)展中，保持即時(shí)收益與長期發(fā)展的平衡，將是確保 AI 能力持續(xù)提升以及培養(yǎng)領(lǐng)域未來創(chuàng)新者的關(guān)鍵。

構(gòu)建智能 AI 固然重要，但培養(yǎng)具備第一性原理思維的人才才是我們的終極使命 —— 畢竟，他們才是 AI 未來的真正設(shè)計(jì)者。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tt id="lvqlx"><b id="lvqlx"></b></tt>

<meter id="lvqlx"></meter>

<var id="lvqlx"></var>