怕被對手蒸餾,OpenAI只敢公開“閹割版”思維鏈!網(wǎng)友失望:錯(cuò)誤的摘要還不如沒有! 原創(chuàng)
編輯 | 伊風(fēng)
OpenAI又Open了一點(diǎn)點(diǎn)!
奧特曼預(yù)告的o3 "one-more-thing"來了!
圖片
OpenAI突然更新了免費(fèi)和付費(fèi)用戶的o3-mini思維鏈。在這一更新之后,我們終于能看看模型的推理步驟以及它如何得出答案的過程了!
同時(shí),據(jù) OpenAI 介紹,使用 o3-mini 并選擇“高推理”模式的高級(jí) ChatGPT 訂閱用戶也將看到這一改進(jìn)后的推理顯示。
OpenAI在推文中還給了一個(gè)例子,用戶問ChatGPT“今天為啥不是周五呢?”o3思考了一下,甚至還用了個(gè)??的emoji,“我也很驚訝今天不是周五,我猜,當(dāng)你準(zhǔn)備好過周末時(shí)時(shí)間的流速就變慢了吧”。
圖片
OpenAI 發(fā)言人在接受采訪時(shí)表示:“我們正在為 o3-mini 引入更新后的 [思維鏈],讓用戶更容易理解模型的思考方式。通過這次更新,用戶可以更清晰地跟隨模型的推理過程,從而對其回答更有信心?!?/p>
看到OpenAI的新動(dòng)向,評論區(qū)紛紛驚呼:DeepSeek效應(yīng)無敵了,讓我們一起說謝謝!
圖片
但是……也不能高興得太早!網(wǎng)友很快就發(fā)現(xiàn)了其中的蹊蹺——現(xiàn)在o3-mini展示的思維鏈居然是“閹割版”。
OpenAI評論區(qū)第一熱評就是:你給的這是原始思維鏈嗎?
圖片
一位網(wǎng)友回復(fù)道,我?guī)缀蹩梢钥隙ú皇?,它只是被小模型?fù)述的摘要版 CoT。
圖片
連奧特曼都直接承認(rèn)了,現(xiàn)在的 CoT是經(jīng)過“整理”的,更好讀(手動(dòng)狗頭)。并且也會(huì)針對用戶語言進(jìn)行翻譯。
圖片
許多網(wǎng)友表示大失所望。o3-mini "one-more-thing"就是這?不如DeepSeek免費(fèi)看完整推理。
圖片
而且,再做一次摘要其實(shí)很容易出bug。
例如這位網(wǎng)友,就看到了疑似o3-mini原始思維鏈以及摘要代碼……真的很尷尬??!
圖片
所以,為啥OpenAI不能大大方方的展示完整思維鏈呢?
1.OpenAI為啥不公開原始思維鏈?
真相只有一個(gè):怕被蒸餾。
在上周的 Reddit AMA(在線問答)中,OpenAI 首席產(chǎn)品官 Kevin Weil 透露說:
“我們正在努力展示比現(xiàn)在更多的內(nèi)容——[展示模型的思維過程] 很快就會(huì)實(shí)現(xiàn)。具體方案尚未確定——完整展示思維鏈可能會(huì)導(dǎo)致競爭對手進(jìn)行知識(shí)蒸餾(competitive distillation),但我們也知道用戶(至少是高階用戶)希望看到完整的推理過程,所以我們會(huì)找到合適的平衡點(diǎn)?!?/p>
因此,“摳摳搜搜”的OpenAI找到了一個(gè)折中的方案:o3-mini 先進(jìn)行推理,然后將思維整理成摘要。
OpenAI 發(fā)言人在接受采訪時(shí)補(bǔ)充了思維鏈的“整理”細(xì)節(jié):“為了提升清晰度和安全性,我們新增了一個(gè)后處理步驟,模型會(huì)復(fù)查原始思維鏈,移除任何不安全內(nèi)容,并簡化復(fù)雜的概念。此外,該后處理步驟還能讓非英語用戶以其母語獲取思維鏈,使體驗(yàn)更加友好和易于理解?!?/p>
當(dāng)然,OpenAI的擔(dān)心不無道理。優(yōu)質(zhì)的思維鏈數(shù)據(jù)構(gòu)造出的數(shù)據(jù)集,使得復(fù)刻模型推理能力變得簡單且成本低廉。昨天,我們剛剛報(bào)道過李飛飛團(tuán)隊(duì),利用1000個(gè)問題及其答案,記錄了Gemini 2.0 Flash Thinking Experimental的“思考過程”數(shù)據(jù),以此構(gòu)建的訓(xùn)練集對開源小模型進(jìn)行微調(diào),性能可媲美o1mini。詳見:??不到140塊!李飛飛團(tuán)隊(duì)超低成本復(fù)刻DeepSeek R1推理!16張H100只訓(xùn)練了26分鐘,與R1訓(xùn)練方法不同!??
問題是,OpenAI很難找到防止蒸餾與保障用戶體驗(yàn)的“平衡點(diǎn)”,反而會(huì)鬧出烏龍。
諷刺的是,此前o3-mini被發(fā)現(xiàn)使用中文做推理。被網(wǎng)友懷疑o3是不是蒸餾過DeepSeek,或使用了部分代碼/數(shù)據(jù)。
圖片
2.o3思維鏈一手實(shí)測:錯(cuò)誤的摘要可能比“黑箱”更糟糕
OpenAI的員工 Noam Brown發(fā)推,用井字棋問題測試o3-mini。
他稱贊說,“o3-mini 是首個(gè)穩(wěn)定答對這個(gè)井字棋問題的大型語言模型(LLM)。”但也直言了o3-mini的大缺陷:“總結(jié)后的思維鏈(CoT)看起來有些混亂,但你可以看到,在右側(cè)的最終推理過程中,模型還是找到了正確答案?!?/p>
圖片
圖片
圖片
問題是,用戶本來就依賴推理過程,來判斷結(jié)果是否是值得信任的。
在混亂的推理過程后,用戶該如何理解模型得出的“正確答案”呢?就像一位網(wǎng)友所說的:我擔(dān)心總結(jié)后的思維鏈實(shí)際上比什么都沒有更加糟糕。
圖片
另外,小編好奇o3-mini是不是真的是首個(gè)能穩(wěn)定回答井字棋問題的模型。于是用Noam Brown的prompt丟給了DeepSeek。
因?yàn)槟P退伎歼@個(gè)問題會(huì)遍歷所有的可能,再加上模型自己會(huì)做檢查,一度我看著AI不斷地輸出推理,懷疑它是否已經(jīng)陷入了循環(huán)。大家也可以從右側(cè)滑塊感受這篇推理到底有多長。
圖片
最終,DeepSeek拿下了正確答案,而且,它全部的推理過程都是可查的!
圖片
而如此篇幅的推理過程,很難被形成一個(gè)正確的摘要。這就是o3出現(xiàn)混亂的原因。
3.寫在最后:前CTO的創(chuàng)業(yè)公司或成為OpenAI新對手
OpenAI試圖獲取的平衡,正暴露了這家公司陷入了一個(gè)兩難的困境中。
值得注意的是,在Anthropic之后,又一家OpenAI“原版人馬”的創(chuàng)業(yè)公司要和其打擂臺(tái)了。
那就是OpenAI前CTOMira Murati 低調(diào)創(chuàng)立的新創(chuàng)業(yè)公司!
據(jù)《財(cái)富》報(bào)道,OpenAI 聯(lián)合創(chuàng)始人 John Schulman 本周早些時(shí)候從 AI 公司 Anthropic 離職,將跳槽到Mira的新公司。值得注意的是,John Schulman才剛剛加入Anthropic五個(gè)月。
自去年 9 月離開 OpenAI 以來,Mira對新公司的情況守口如瓶。不過,據(jù)知情人士透露,Murati 已招募了多名前 OpenAI 員工,其中包括曾在 OpenAI 超算團(tuán)隊(duì)工作的 Christian Gibson。
所以,OpenAI的人才動(dòng)蕩估計(jì)又要持續(xù)一陣了。
參考鏈接:
2.??https://techcrunch.com/2025/02/06/openai-now-reveals-more-of-its-o3-mini-models-thought-process/??
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)
