Ilya認錯,Scaling Law崩了?自曝SSI秘密技術路線取代OpenAI
昨天,The Information爆料,傳統(tǒng)的大模型Scaling Law已經(jīng)撞墻,OpenAI下一代旗艦Orion遭遇瓶頸。
就在剛剛,路透社也發(fā)文表示,由于當前方法受到限制,OpenAI和其他公司正在尋求通向更智能AI的新途徑。
有趣的是,昨天拱火的The Information,今天又急忙發(fā)出一篇文章來滅火。
他們強調(diào),昨天的文章只是在說改進大模型必須找到新方法,并不是說Scaling Law已經(jīng)終結(jié)。
但一個不爭的事實就是:硅谷幾大主要AI實驗室正在陷入困境。訓練這些大規(guī)模的LLM動輒需要花費數(shù)千美元,但復雜系統(tǒng)還經(jīng)常崩潰。往往需要數(shù)月時間,才知道模型能否按預期工作。
比起GPT-4o,Orion幾乎沒有任何改進;谷歌的Gemini 2.0,被曝也存在同樣問題;Anthropic據(jù)傳也已暫停Opus 3.5模型的工作。
據(jù)悉,谷歌正準備在12月推測出最新的Gemini 2.0,它可能無法實現(xiàn)DeepMind創(chuàng)始人Demis Hassabis團隊預期的顯著性能改進,但會有引入一些有趣的新功能
Anthropic首席執(zhí)行官Dario Amodei 表示,「我們的目標是改變曲線,然后在某個時候成為Opus 3.5」
而離職創(chuàng)業(yè)的OpenAI元老則Ilya Sutskever則表示,現(xiàn)在重要的是「擴大正確的規(guī)模」。
「2010年代是scaling的時代,現(xiàn)在,我們再次回到了奇跡和發(fā)現(xiàn)的時代。每個人都在尋找下一個奇跡?!?/span>
對經(jīng)營著自己的AI實驗室SSI的Ilya來說,這是一個很大的改變。
曾經(jīng)在推動OpenAI的GPT模型時,他的準則是「越大越好」。但在SSI的最近一輪融資中,Ilya開始希望嘗試一種與OpenAI不同的Scaling方法。
Scaling Law大家都說得夠多了。但有一個問題,卻被每個人都忽略了——我們說scaling的時候,究竟在scaling什么?
如今,Ilya拋出了這個振聾發(fā)聵的疑問。
Scaling正確的東西,比以往任何時候都更重要
畢竟,超大規(guī)模語言模型的ROI實在太低了。
雖然在GPT-4發(fā)布后,各大AI實驗室的研究人員都競相追趕,發(fā)布了超過GPT-4的大模型,但他們更多的感覺是失望。
因為要同時運行數(shù)百個芯片,這種超大參數(shù)模型的訓練可能要花費數(shù)千萬美元,系統(tǒng)太復雜還可能會出現(xiàn)硬件故障。但只有經(jīng)過數(shù)月,等到運行結(jié)束后,研究人員才能知道模型的最終性能。
另一個問題,就是LLM吞噬了大量數(shù)據(jù),而世界上易于獲取的數(shù)據(jù),幾乎已經(jīng)被耗盡了!
同時,由于過程中需要大量能源,電力短缺也成為訓練AI的嚴重阻礙。
論文題目:「The Unseen AI Disruptions for Power Grids: LLM-Induced Transients」
替代Scaling的新方法,Ilya已經(jīng)有了?
面對這種種現(xiàn)狀,Ilya最近在路透社的采訪中表示,擴展訓練的結(jié)果,已經(jīng)趨于平穩(wěn)。
也就是說,用大量未標記數(shù)據(jù)來理解語言模式和結(jié)構(gòu)的訓練階段到頭了。
以前,Ilya是暴力scaling的早期倡導者之一,那時有一種想法廣泛認為,通過預訓練中使用更多的數(shù)據(jù)和算力,能讓AI模型的性能暴漲。
OpenAI團隊2020年提交的arXiv論文中最先提出這一概念:LLM性能與計算量、參數(shù)量、數(shù)據(jù)量三者呈現(xiàn)冪律關系
的確,沿著這條路線,最終ChatGPT誕生了。
ChatGPT發(fā)布后,從AI熱潮中受益頗多的科技公司都公開聲稱,這種通過增加數(shù)據(jù)和算力來「scale up」的方法,能顯著改善模型性能。
可是現(xiàn)在,Scaling Law已經(jīng)碰壁了!越來越多的AI科學家,對于這種「越大越好」(bigger is better)的哲學產(chǎn)生了質(zhì)疑。
2010年代屬于Scaling,但大模型要繼續(xù)發(fā)展下去,需要一個新的奇跡。
Ilya的SSI團隊是否找到了呢?
對此,Ilya拒絕透露,只是表示,SSI正在研究一種全新的替代方法,來擴展預訓練。
再領先三步?OpenAI破局新方法:測試時計算
同時,OpenAI仿佛也找到了新方法——通過開發(fā)使用更類人思維的算法訓練技術,或許就能克服在追求更大規(guī)模LLM過程中遇到的意外延遲和挑戰(zhàn)。
已經(jīng)有十幾位AI科學家、研究人員和投資者告訴路透社,他們認為正是這些技術,推動了OpenAI最近發(fā)布的o1模型。
而它們,可能會重塑AI競賽的格局,讓AI公司們不再對能源和芯片資源產(chǎn)生無限制的需求。
有沒有這么一種新方法,讓AI模型既能擺脫對數(shù)據(jù)的依賴,又不再需要動輒吞噬整個國家乃至全球的電力?
為了克服這些挑戰(zhàn),研究人員正在探索一項「測試時計算」的技術。
上圖即是OpenAI解釋o1的博文,x軸標記為「訓練時計算」和「測試時計算」。
左圖是OpenAI發(fā)現(xiàn)的Scaling Law,意味著在模型上投入更多訓練時間(GPU周期)時,我們可以獲得更好的結(jié)果。
右圖則暗示了我們尚未觸及的一套全新的Scaling Law?!笢y試時計算」意味著,給模型更多的「思考時間」(GPU周期)時,它會思考出更好的結(jié)果。
測試時計算技術,能在推理階段(模型被使用時)就將模型增強,比如,模型可以實時生成和評估多種可能性,而不是理解選擇單一答案。最終,模型就可以選擇出最佳路徑。
這種方法可以允許模型將更多的處理能力,用于數(shù)學、編碼問題等具有挑戰(zhàn)性的任務,或者需要類人推理和決策的復雜操作。
傳統(tǒng)的Scaling Law,專注于用更長時間訓練大模型,但如今o1系列模型scaling有了兩個維度——訓練時間和測試(推理)時間
早在上個月的舊金山TED AI會議上,曾參與o1開發(fā)的OpenAI研究員Noam Brown就提出——
事實證明,讓一個機器人在一局撲克中思考僅20秒,其性能提升與將模型規(guī)模擴大10萬倍并訓練10萬倍時間相同。
o1模型以前曾被稱為「Q*」和「Strawberry」?,F(xiàn)在,它能夠以多步驟方法思考問題,類似于人類推理。
現(xiàn)在,模型不再受限于預訓練階段,還可以通過增加推理計算資源,來提升表現(xiàn)
而且,它還涉及了來自博士和行業(yè)專家策劃的數(shù)據(jù)和反饋。
o1系列的秘密武器,是在GPT-4等基礎模型上進行的另一套訓練,OpenAI還計劃,將這種技術應用于更多更大的基礎模型。
OpenAI的首席產(chǎn)品官Kevin Well在十月的一次科技會議表示——
我們看到很多可以快速改進這些模型的機會,而且非常簡單。到人們趕上來的時候,我們會嘗試再領先三步。
通過思維鏈提示,o1模型可以經(jīng)過訓練生成長長的輸出,并通過答案進行推理
全球頂尖AI實驗室開卷,英偉達壟斷地位有望打破?
OpenAI說要領先三步,其他頂尖AI實驗室豈甘落后?
據(jù)知情人士透露,來自Anthropic、xAI和谷歌DeepMind的研究人員,也已經(jīng)奮力開卷了!
比如Meta最近提出了「思維偏好優(yōu)化」TPO,這種方法旨在教會LLM在回答一般任務(而不僅僅是數(shù)學或邏輯問題)之前「思考」,而不需要特殊的訓練數(shù)據(jù)。
論文地址:https://arxiv.org/pdf/2410.10630
而谷歌也在開發(fā)一種新模型,同樣使用CoT方法解決多步驟問題、生成多個答案,評估后選擇最佳答案。
這個過程同樣可以通過在推理中使用更多算力來增強,而非僅僅增加訓練數(shù)據(jù)和算力,這就為擴展AI模型開辟了一條新道路。
論文地址:https://arxiv.org/pdf/2408.03314
這會導致什么后果?
很有可能,對英偉達GPU巨大需求主導的AI硬件競爭格局,將從此改變。
這是因為,通過增加訓練時間和測試(推理)時間,可能會獲得更好的結(jié)果,模型就不再需要那么大的參數(shù)。
而訓練和運行較小模型會更便宜,因此,在給定固定計算量的情況下,我們可能會突然從小模型中獲得更多收益。
突然之間,模型參數(shù)、訓練時間和測試時間計算之間的關系變得復雜了,也就讓我們看到了下一代GPU的可能。
比如Groq這樣的公司,恰巧就在為這類任務制造專門的芯片。
今年2月登場的世界最快大模型Groq,每秒500 token直接破了紀錄,自研的LPU在LLM任務上比英偉達GPU性能快了10倍。
紅杉資本和A16z在內(nèi)的著名風投機構(gòu),如今已經(jīng)投入了數(shù)十億美元,資助OpenAI、xAI等多家AI實驗室的開發(fā)。
他們不可能不注意到最近圈內(nèi)盛傳的Scaling Law碰壁事件,而重新考慮自己的昂貴投資是否會打水漂。
紅杉資本合伙人Sonya Huang表示,這種轉(zhuǎn)變,將使我們從大規(guī)模預訓練集群轉(zhuǎn)向推理云,即分布式的、基于云的推理服務器。
大模型熱以來,對英偉達尖端AI芯片的需求,已經(jīng)讓它崛起為全球最有價值的公司,并且市值超越了蘋果。
今年以來,英偉達股價了約186%,而蘋果僅上漲了17%
雖然在訓練芯片的市場,英偉達已經(jīng)占據(jù)主導地位,但它在推理市場,可能還會面臨更多競爭。
而o1模型背后技術,意味著對推理芯片的需求也會隨著增加。
「我們現(xiàn)在發(fā)現(xiàn)了第二個Scaling Law,這是在推理階段的Scaling Law……所有這些因素導致對Blackwell的需求非常高。」
在英偉達GTC大會上,黃仁勛也講到,如果要訓練一個1.8萬億參數(shù)量的GPT模型,需要8000張H100 GPU,消耗15兆瓦的電力,連續(xù)跑上90天
隨著Scaling Law碰壁,各大公司紛紛開啟新路線,英偉達是否還會繼續(xù)坐火箭般的輝煌呢?
再見,GPT。你好,推理「o」
The Information今天的解釋文章,標題意味深長:《再見,GPT。你好,推理「o」》。
文章內(nèi)容是這樣的。
月初,一位Reddit用戶曾在QA種問道,OpenAI的下一代旗艦大語言模型何時發(fā)布。
對此,Altman回答說:「今年晚些時候,我們會發(fā)布一些非常不錯的產(chǎn)品,但并不會叫做GPT-5。」隨后他又補充道,有限的計算資源意味著很難同時推出過多的項目。
當時我們并未多想。
但如今,我們更能理解Altman的評論了——以及他為何專注于推出o系列推理模型而非另一版本的GPT 。
所謂GPT,即生成式預訓練Transformer模型,是ChatGPT和大多數(shù)其他生成式人工智能產(chǎn)品的基石。
原因正如之前報道的那樣,GPT的改進速度正在放緩。
2023年初登場的上一代旗艦級模型GPT-4,憑借著巨大的性能提升在科技行業(yè)引發(fā)了轟動。
Orion比GPT-4更好,但其質(zhì)量提升與GPT-3和GPT-4之間的差距相比略顯遜色。甚至,可能會讓OpenAI放棄自2018年推出GPT-1起使用的「GPT」命名慣例。
因此,當Altman寫道「o1及其后續(xù)版本」時,可能意味著Orion將與推理融合并被命名為「o2」。
隨著一種Scaling Law的消退,另一種定律取而代之
讓我們回到GPT發(fā)展放緩這個問題上。
傳統(tǒng)的Scaling Law不僅僅意味著在大語言模型訓練過程中需要更多的數(shù)據(jù)和計算能力才能獲得更好的結(jié)果。OpenAI的研究人員還做了各種其他有趣的事情,才使得GPT-4比GPT-3有了大幅提升。比如,引入被稱為模型稀疏性的概念。
隨著推理范式的出現(xiàn),預訓練改進的放緩變可以得到彌補——從本質(zhì)上講,它可能代表了一種新的Scaling Law。
OpenAI一再表示,推理模型的性能在回答問題前有更多時間思考時會變得更好,這被稱為對數(shù)線性計算擴展。
那么,這些變化是否意味著OpenAI的1000億美元超級計算集群的夢想正在消退呢?對于這個問題,可以肯定的是,所有主流的AI開發(fā)者都在全速推進極其昂貴的集群建設。
一方面是,大型集群上可以更好地在預訓練后改進這些模型、在后訓練階段處理強化學習以及更新或微調(diào)模型。
另一方面是,即便預訓練模型的改進速度放緩,但只要自己能訓出比競爭對手略好的模型,就值得增加的數(shù)據(jù)中心投入。畢竟,LLM越好,將推理模型融入模型后獲得的結(jié)果就越好。
最后,如果GPT的發(fā)展沒有加速,是不是就意味著末日論者錯了——AI不會進入所謂的遞歸自我改進循環(huán),在這個循環(huán)中,AI會一次又一次地找出如何制造下一個更好版本的自己(然后也許會征服我們所有人)?
對此,Marc Andreessen認為,這種明顯的平臺期意味著這樣的恐懼目前看來是沒有根據(jù)的。