OpenAI o1:用內(nèi)部思維鏈進(jìn)行復(fù)雜推理 原創(chuàng) 精華
?本篇將介紹OpenAI o1。
OpenAI o1,這是一種新的大型語言模型,經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練,可以執(zhí)行復(fù)雜的推理。O1 在回答之前會思考 - 在響應(yīng)用戶之前,它可以產(chǎn)生一個很長的內(nèi)部思維鏈。
OpenAI o1 在競爭性編程問題 (Codeforces) 中排名89百分位,在美國數(shù)學(xué)奧林匹克競賽 (AIME) 資格賽中躋身美國前 500 名學(xué)生之列,在物理、生物和化學(xué)問題的基準(zhǔn) (GPQA) 上超過了人類博士水平的準(zhǔn)確性。
OpenAI的大規(guī)模強(qiáng)化學(xué)習(xí)算法教會模型如何在高度數(shù)據(jù)高效的訓(xùn)練過程中使用其思維鏈進(jìn)行高效思考。OpenAI發(fā)現(xiàn),隨著強(qiáng)化學(xué)習(xí)(訓(xùn)練時計算)的增加和思考時間的增加(測試時計算),o1 的性能會不斷提高。擴(kuò)展這種方法的限制與 LLM 預(yù)訓(xùn)練的限制有很大不同。
訓(xùn)練時計算和測試時計算增加都有助于提升o1表現(xiàn)
評測
通過大范圍的測試可以證明o1的推理能力顯著強(qiáng)于GPT-4o
在許多推理密集型基準(zhǔn)測試中,o1 的性能可與人類專家的性能相媲美。AIME 是一項旨在挑戰(zhàn)美國最聰明的高中數(shù)學(xué)學(xué)生的考試。在 2024 年 AIME 考試中,GPT-4o 只解決了 12% (1.8/15) 的問題。O1 平均 74% (11.1/15), 每個問題只有一個樣本;在 64 個樣本中達(dá)成一致時,o1達(dá)到83% (12.5/15) ;在使用一個習(xí)得的評價函數(shù)給 1000 個樣本時重排序時,能達(dá)到93% (13.9/15)。13.9 分的成績躋身全國前 500 名學(xué)生之列,高于美國數(shù)學(xué)奧林匹克競賽的分?jǐn)?shù)線。
OpenAI 還在 GPQA 上評估了 o1,這是一個困難的智力基準(zhǔn),用于測試化學(xué)、物理和生物學(xué)方面的專業(yè)知識。為了將模型與人類進(jìn)行比較,OpenAI 聘請了具有博士學(xué)位的專家來回答 GPQA 問題。OpenAI 發(fā)現(xiàn) o1 的性能超過了那些人類專家,成為第一個在此基準(zhǔn)測試中做到這一點的模型。這些結(jié)果并不意味著 o1 在所有方面都比博士更有能力——只是說該模型更擅長解決一些博士應(yīng)該解決的問題。在其他幾個 ML 基準(zhǔn)測試中,o1 的改進(jìn)超過了最先進(jìn)的。開啟視覺感知能力后,o1 在 MMMU 上的得分為 78.2%,成為首個與人類專家競爭的模型。在 57 個 MMLU 子類別中,它還在 54 個子類別中的表現(xiàn)優(yōu)于 GPT-4o。
CoT
類似于人類在回答困難問題之前可能會思考很長時間,o1 在嘗試解決問題時使用思維鏈(CoT)。通過強(qiáng)化學(xué)習(xí),o1 學(xué)會磨練其思維鏈并改進(jìn)它使用的策略。它學(xué)會識別和糾正錯誤。它學(xué)會了將棘手的步驟分解為更簡單的步驟。它學(xué)會了在當(dāng)前方法不起作用時嘗試不同的方法。此過程顯著提高了模型的推理能力。
o1在回答時自帶內(nèi)部思維鏈
編程
OpenAI訓(xùn)練了一個在 2024 年國際信息學(xué)奧林匹克競賽 (IOI) 中獲得 213 分并排名第 49 個百分位的模型,這個模型從 o1 初始化并進(jìn)行訓(xùn)練,以進(jìn)一步提高編程技能。該模型在與人類參賽者相同的條件下參加了 2024 年 IOI 的比賽。它有 10 個小時來解決 6 個具有挑戰(zhàn)性的算法問題,每個問題允許提交 50次。
對于每個問題,OpenAI的系統(tǒng)對許多候選提交的內(nèi)容進(jìn)行了抽樣,并根據(jù)測試時選擇策略提交了其中的 50 個。提交的內(nèi)容是根據(jù) IOI 公共測試用例、模型生成的測試用例和學(xué)習(xí)的評分函數(shù)的性能來選擇的。如果OpenAI隨機(jī)提交,OpenAI平均只會得到 156 分,這表明在比賽限制下,這種策略值近 60 分。
在寬松的提交約束下,OpenAI發(fā)現(xiàn)模型性能顯著提高。當(dāng)每個問題允許提交 10,000 次時,該模型獲得了 362.14 分——高于金牌閾值——即使沒有任何測試時間選擇策略。
OpenAI模擬了由 Codeforces 主辦的競爭性編程競賽,以展示該模型的編碼技能。OpenAI的評估與比賽規(guī)則非常匹配,并允許 10 份提交。GPT-4o 獲得 Elo 評級 的 808 ,位于人類競爭對手的第 11 個百分位。該模型遠(yuǎn)遠(yuǎn)超過了 GPT-4o 和 o1——它的 Elo 評分為 1807,表現(xiàn)優(yōu)于 93% 的競爭對手。
人類偏好評估
除了考試和學(xué)術(shù)基準(zhǔn)之外,還評估了人類對 o1-preview 與 GPT-4o 在廣泛領(lǐng)域中具有挑戰(zhàn)性的開放式提示的偏好。在這項評估中,人類培訓(xùn)師對來自 o1-preview 和 GPT-4o 的提示進(jìn)行了匿名響應(yīng),并投票選出他們更喜歡哪種響應(yīng)。O1-Preview 在數(shù)據(jù)分析、編碼和數(shù)學(xué)等推理密集型類別中比 GPT-4O 更受歡迎。但是,在某些自然語言任務(wù)中,o1-preview 不是首選,這表明它并不適合所有用例。
安全
思維鏈推理為對齊和安全提供了新的機(jī)會。OpenAI發(fā)現(xiàn),將模型行為政策整合到推理模型的思維鏈中是穩(wěn)健地教授人類價值觀和原則的有效方法。通過向模型傳授OpenAI的安全規(guī)則以及如何在上下文中對其進(jìn)行推理,OpenAI發(fā)現(xiàn)了推理能力直接有利于模型穩(wěn)健性的證據(jù):o1-preview 在關(guān)鍵越獄評估和評估模型安全拒絕邊界的最難的內(nèi)部基準(zhǔn)上實現(xiàn)了顯著提高的性能。OpenAI相信,使用思維鏈為安全性和一致性提供了重大進(jìn)步,因為 (1) 它使OpenAI能夠以清晰的方式觀察模型思維,以及 (2) 關(guān)于安全規(guī)則的模型推理對于分布外場景更加穩(wěn)健。
為了對OpenAI的改進(jìn)進(jìn)行壓力測試,OpenAI在部署前根據(jù)OpenAI的準(zhǔn)備框架進(jìn)行了一系列安全測試. OpenAI發(fā)現(xiàn),思維鏈推理有助于評估中的能力改進(jìn)。
隱藏思維鏈
OpenAI相信,隱藏的思維鏈為監(jiān)控模型提供了獨特的機(jī)會。假設(shè)它是忠實且清晰的,隱藏的思維鏈?zhǔn)筄penAI能夠“讀取模型的思想”并理解其思維過程。例如,將來OpenAI可能希望監(jiān)控思路是否有操縱用戶的跡象。然而,要做到這一點,模型必須能夠自由地以不變的形式表達(dá)其想法,因此OpenAI不能將任何政策合規(guī)性或用戶偏好訓(xùn)練到思維鏈上,也不想讓用戶直接看到一個不對齊的思路。
因此,在權(quán)衡了包括用戶體驗、競爭優(yōu)勢和追求思維鏈監(jiān)控選項在內(nèi)的多種因素后,OpenAI決定不向用戶展示原始思維鏈。它承認(rèn)此決定有缺點,努力通過教模型在答案中重現(xiàn)思維鏈中的任何有用想法來部分彌補(bǔ)它。對于 o1 模型系列,OpenAI展示了模型生成的思路鏈摘要。
?
文轉(zhuǎn)載自公眾號瓦力算法學(xué)研所,作者:喜歡瓦力的卷卷
原文鏈接:??https://mp.weixin.qq.com/s/n_cHpeUGJXOfsgQhO4Ka9A??
