OpenAI秘密武器「草莓」計劃曝光!Q*推理能力大爆發(fā),逼近AGI L2里程碑
昨天剛剛被曝出AGI五級路線圖,今天OpenAI的新項目Strawberry也被曝出了。
不過,大家其實對它都很熟悉——就是曾經的Q*。
聽聞消息的馬斯克,也補上這么一句評論——「以前的說法是,AI末日是回形針災難,沒想到是永遠的草莓田?!?/span>
根據(jù)路透社在5月份看到的內部文件,OpenAI團隊正在全力研究Strawberry項目。
Strawberry具體是如何運作,即使在OpenAI內部也是高度保密的。
因此,何時公開發(fā)布,時間也是未知。
從AGI五級路線圖來看,具有推理能力還能自主可靠瀏覽網頁的Strawberry,可能已經到了L2的級別
而就在本周,OpenAI剛在內部會議上展示了某個demo,據(jù)稱推理能力接近人類水平。
結合路線圖的曝光,一切都太巧了。
對此,網友們紛紛猜測,OpenAI一定還在憋個大的。
顯著提高AI模型的推理能力
文件顯示,Strawberry模型的目的,是為了使公司的AI不僅能生成查詢答案,還能提前計劃,足夠自主且可靠地瀏覽互聯(lián)網,進行OpenAI所稱的「深度研究」。
而這個目標,根據(jù)對十多位AI研究人員的采訪,目前尚未有任何AI模型實現(xiàn)。
路透社表示,Strawberry就是去年的Q*,后者在OpenAI內部已經實現(xiàn)突破。
當被問詢到Strawberry的更多細節(jié)時,OpenAI發(fā)言人表示——
我們希望我們的AI模型能像我們一樣看待和理解世界。對新AI能力的持續(xù)研究是行業(yè)中的常見做法,大家普遍相信,這些系統(tǒng)的推理能力會隨著時間的推移而改善。
知情人士表示,OpenAI希望Strawberry的創(chuàng)新能顯著提高其AI模型的推理能力,并補充說,Strawberry涉及了一種AI模型在經過非常大的數(shù)據(jù)集預訓練后的一種特殊處理方式。
而路透社采訪的研究人員表示,推理是AI達到人類或超人類智能的關鍵。
雖然LLM可以飛速總結密集文本、撰寫優(yōu)美文章,但在解決對人類很直觀的常識性問題時,如識別邏輯謬誤和玩井字棋時,表現(xiàn)并不佳,常常出現(xiàn)幻覺。
研究者表示,在AI背景下的推理,就需要一個模型讓AI能提前計劃,反映物理世界的運作,并且可靠地解決復雜的多步驟問題。
改進AI模型的推理能力,被認為是解鎖這些模型潛力的關鍵。有了推理能力,模型在進行重大科學發(fā)現(xiàn)、規(guī)劃構建新的軟件應用上,都會有可觀的提升。
Sam Altman此前也曾表示,今后AI領域最重要的進展,將「圍繞推理能力展開」。
而其他巨頭,如谷歌、Meta、微軟等,都在嘗試不同技術,來改進AI模型的推理能力。
沿著目前的路線,有可能實現(xiàn)讓LLM將想法和長期規(guī)劃納入其預測方式嗎?圖靈三巨頭之一的LeCun對此持唱衰態(tài)度。
他堅決認為,LLM不具備類人的推理能力。
后訓練,能讓LLM學會推理嗎
要克服這些挑戰(zhàn),對OpenAI來說Strawberry就是關鍵。最近幾個月,OpenAI曾私下向開發(fā)者和外部人士暗示過,即將發(fā)布具有顯著先進推理能力的技術。
據(jù)悉,Strawberry包括一種被稱為「后訓練」的特殊方法,即在OpenAI的生成式AI模型已經在大量通用數(shù)據(jù)上「訓練」后,調整基礎模型以特定方式優(yōu)化其性能。
模型開發(fā)的后訓練階段涉及「微調」等方法,這一過程幾乎如今所有的LLM都在用,比如RLHF。
知情人士表示,Strawberry類似于斯坦福大學在2022年開發(fā)的一種方法——「自我教導推理者」(Self-Taught Reasoner,簡稱STaR)。
論文地址:https://arxiv.org/abs/2203.14465
論文作者之一,斯坦福教授Noah Goodman表示,STaR使AI模型能夠通過迭代創(chuàng)建自己的訓練數(shù)據(jù),來「自我提升」到更高的智能水平。
理論上,可以讓語言模型實現(xiàn)超越人類水平的智能。
結果顯示,在算術、數(shù)學文字題和常識推理中,STaR能夠有效地將少量的少樣本提示轉化為大量的推理數(shù)據(jù)集,從而顯著提升性能。在CommonsenseQA上,STaR比少樣本基線提高了35.9%,比直接預測答案的微調基線提高了12.5%,其表現(xiàn)與一個大30倍的微調模型相當(72.5%對73.0%)。
另一項OpenAI希望讓Strawberry具備的能力之一,是執(zhí)行長時間任務(LHT),這指的是需要模型提前計劃,并在較長時間內執(zhí)行一系列動作的復雜任務。
文件顯示,為了實現(xiàn)這一目標,OpenAI正在創(chuàng)建、訓練和評估被稱為「深度研究」數(shù)據(jù)集的模型。
OpenAI非常希望模型能夠利用這些能力,通過一個稱為「CUA」的計算機使用Agent來自主瀏覽網絡,并根據(jù)其發(fā)現(xiàn)采取行動來進行研究。
此外,OpenAI還計劃測試其在軟件和機器學習工程師工作中的應用能力。
神秘項目疑似Strawberry加持
就在2024年7月初的一次全員會議上,OpenAI內部曾對一個神秘研究項目做了展示。
據(jù)稱,它所展現(xiàn)出的推理能力,已經達到了類人的水平。
結合前文的信息,路透懷疑這可能與Strawberry有關,但目前還無法確定。
而同一時間曝光出的這張通往AGI的路線圖,似乎也印證了OpenAI即將會有新的進展。
可以看到,OpenAI將最終抵達AGI終點,劃分了五大等級:
L1:聊天機器人,具有對話能力的AI。
L2:推理者,像人類一樣能夠解決問題的AI。
L3:智能體,不僅能思考,還可以采取行動的AI系統(tǒng)。
L4:創(chuàng)新者,能夠協(xié)助發(fā)明創(chuàng)造的AI。
L5:組織者,可以完成組織工作的AI。
OpenAI表示,我們目前正處在第一級別,不過很快會達到第二個級別,即推理者。
所謂推理者,也就是指可以解決博士水平的基本問題的系統(tǒng)。
OpenAI CTO曾透露,OpenAI接下來將致力于研究在特定任務上博士級別的智能,也許就在一年或一年半之后實現(xiàn)。
也就是說,我們還有18月的時間,即將看到級別二的下一代模型。
Q*重出江湖
2023年11月,OpenAI的神秘Q*項目,引爆整個AI社區(qū)。
泄露出來的信息,Q*的能力,是能夠解決小學階段的數(shù)學問題。
雖然在大多數(shù)人看來,這并不是什么令人印象深刻的事,但這的確是朝向AGI邁出的一大步,堪稱重要的技術里程碑。
因為Q*解決的,是以前從未見過的數(shù)學題。
Ilya做出的突破,使OpenAI不再受限于獲取足夠的高質量數(shù)據(jù)來訓練新模型,而這,正是開發(fā)下一代模型的主要障礙。
那幾周內,Q*的演示一直在OpenAI內部流傳,所有人都很震驚。
據(jù)悉,OpenAI的一些人認為Q*可能是OpenAI在AGI上取得的一個突破。AGI的定義是:「在最具經濟價值的任務中,超越人類的自主系統(tǒng)」
所以,Q*究竟是啥呢?
這要從一項1992年的技術Q-learning說起。
簡單來說,Q-learning是一種無模型的強化學習算法,旨在學習特定狀態(tài)下某個動作的價值。其最終目標是找到最佳策略,即在每個狀態(tài)下采取最佳動作,以最大化隨時間累積的獎勵。
斯坦福博士Silas Alberti由此猜測,Q*很可能是基于AlphaGo式蒙特卡羅樹搜索token軌跡。下一個合乎邏輯的步驟是以更有原則的方式搜索token樹。這在編碼和數(shù)學等環(huán)境中尤為合理。
隨著幾位AI大佬的下場,大家的觀點,愈發(fā)不謀而合了。
AI2研究科學家Nathan激動地寫出一篇長文,猜測Q假說應該是關于思想樹+過程獎勵模型。并且認為Q*假說很可能和世界模型有關!
文章地址:https://www.interconnects.ai/p/q-star
他猜測,如果Q*(Q-Star)是真的,那么它顯然是RL文獻中的兩個核心主題的合成:Q值和A*(一種經典的圖搜索算法)。
A*算法的一個例子
GPT-4o放出新演示
話說,OpenAI最近似乎沒有多大動靜了。
最近的技術進步,我們可以從OpenAI開發(fā)者體驗主管Romain Huet在舊金山人工智能工程師世界博覽會上的分享中感受一下。
這些分享主要是產品演示,包括GPT-4o Voice、ChatGPT桌面版、Sora和Voice Engine(未發(fā)布),
雖然示例有所不同,但用到的模型能力,與5月份在巴黎VivaTech活動上所展示的基本一致。
在這個演示中,主管讓GPT-4o表演了多種語調,比如激情四射版、悄悄話版等。
GPT-4o可以即時聽懂Huet的命令,立馬做出正確的反應,在場觀眾給出歡呼。
接下來,Huet向ChatGPT出示了金門大橋的手繪圖,讓它猜猜自己在哪里。
ChatGPT馬上猜出來這是哪個大橋,并說出Huet在舊金山,還認出了他在紙上的手寫字——「Bonjour Developer」!
隨后,Huet又迅速給了它一堆任務,比如認出查理芒格的書,隨機翻一頁后迅速總結書頁大意等等,ChatGPT沒有任何遲疑,迅速給出了正確答案,效率令人驚嘆。
下一步,Huet把prompt發(fā)給Sora,Sora立馬就生成的符合要求的視頻——自然紀錄片風格的叢林中的樹蛙。
美麗的自然紀錄片中,一個極近特寫鏡頭拍攝了一只五彩繽紛的樹蛙在霧氣彌漫的濃密叢林中攀爬樹枝和樹葉,拍攝時間為白天。使用35mm膠片進行遠攝,并帶有景深效果。
隨后,Huet從視頻中提取了6幀,然后把這6幀發(fā)給了GPT-4o Vision,讓它描述自己看到了什么。
很快,一段內容詳實的故事就被創(chuàng)作了出來:
在霧氣彌漫的濃密森林深處,一只色彩斑斕的青蛙小心翼翼地沿著覆蓋苔蘚的樹枝前行。它明亮的綠色身體上點綴著醒目的黑黃圖案,在茂密的植被中顯得格外顯眼。
在這條危險的路徑上,青蛙保持警覺。每一步都很慎重,粘性的腳趾牢牢抓住粗糙的樹皮。樹枝輕輕搖晃,顯示出它精妙的平衡感。
到達樹枝的邊緣時,青蛙評估著前方的空隙。突然,它爆發(fā)出一股能量,躍了過去。但就在后腿推離時,腳滑了一下。短暫地懸在空中,青蛙笨拙但安全地落回樹枝上。
盡管有些失誤,這只堅韌的兩棲動物重新站穩(wěn)了腳跟,展示了野生環(huán)境中生命的頑強。它毫不氣餒,準備進行下一次跳躍,堅定不移。
最后,Huet展示了voice engine的神奇功能。
他先錄了一段自己的語音,然后把剛才Sora生成的樹蛙視頻發(fā)給voice engine,下一秒,上面那段樹蛙視頻的長故事,就用他的聲音被讀了出來!觀眾們掌聲雷動。
然后,這段故事又被Voice Engine用法語、日語重新讀了一遍(感覺翻譯的淘汰又近了一步)。
在產品層面,OpenAI已經做到了如此先進的地步,如果再加上Strawberry的推理能力,OpenAI離AGI的實現(xiàn),恐怕是要很近了。