編輯 | 伊風
有沒有人發(fā)現(xiàn)——馬斯克又又又又跳票了??
你說好“年底”發(fā)的Grok 3呢?不會是2025年年底吧
“Grok 3經(jīng)過100k H100的訓練后,2024年底應該會非常特別。”馬斯克在7月的一篇X平臺帖子中寫道,提到xAI在孟菲斯建立的龐大GPU集群。
圖片
在12月15日的帖子表示,“Grok 3將是一次重大的飛躍”。
圖片
然而,今天都1月3日了,也沒有聽說即將發(fā)布Grok 3的消息!
事實上,就算最近xAI有所動作,也只能期待一個折中版的2.5了。
根據(jù)推特AI博主Tibor Blaho的帖子,他在xAI網(wǎng)站上發(fā)現(xiàn)的某些代碼表明,可能即將發(fā)布中間模型“Grok 2.5”。
圖片
查看完整代碼可移步:https://archive.is/FlmBE
作為馬斯克和奧特曼的“打擂臺”之作,Grok 系列確實是一個成功的攪局者。
也因此,馬斯克預告的Grok 3將帶來的“飛躍”,在目前稍顯冷清的大模型發(fā)布中備受關注。
馬斯克本人在做客Fridman的播客中似乎預想到了Grok將會面臨的困難。
“你希望Grok 3是最先進的?”主持人問道。
“希望是這樣?!瘪R斯克回答?!拔业囊馑际牵@是目標。我們可能會失敗。但這就是我們的愿景?!?/span>
1.AI墻的證明:大模型的下一代集體缺席
這不是馬斯克第一次“畫餅”沒有兌現(xiàn)。眾所周知,馬斯克關于產(chǎn)品發(fā)布時機的聲明通常最多只是理想化的目標。
被玩梗后,馬斯克自己都跳出來澄清,“對于基于時間的預測,我通常以 50% 的百分位數(shù)日期為目標,這意味著我的預測一半會遲到,一半會提前?!?/span>
圖片
但Grok 3的缺席卻有所不同,因為它是“AI撞墻”論調(diào)中不斷增加的證據(jù)之一。
去年,AI初創(chuàng)公司Anthropic未能按時推出其頂級Claude 3 Opus模型的繼任者。在宣布下一代模型Claude 3.5 Opus將在2024年底發(fā)布幾個月后,Anthropic將該模型的相關信息從開發(fā)者文檔中刪除了。(根據(jù)一份報告,Anthropic確實在去年完成了Claude 3.5 Opus的訓練,但決定發(fā)布它并不符合經(jīng)濟效益。)
據(jù)報道,谷歌和OpenAI最近幾個月也在其旗艦模型上遭遇了挫折。
這可能是當前AI Scaling Law“過時”的證據(jù)——即公司們正在采用的增加模型能力的方法似乎已經(jīng)失靈。
在不久前,使用大量計算資源和更大規(guī)模的數(shù)據(jù)集來訓練模型,能夠獲得顯著的性能提升。但隨著每一代模型的推出,增益開始縮小,這促使公司們尋求替代技術。
Grok 3推遲的原因可能有其他方面。例如,xAI的團隊規(guī)模比許多競爭對手小得多。
2.變得冷清的模型圈:上一代旗艦模型的推出時間
在AI模型最瘋狂的成長期,幾乎每一天都能在AI報道的標題中看到“一夜變天”“新王登場”這樣的詞匯。
曾經(jīng)有多熱鬧,現(xiàn)在就有多落寞。
過去的半年,雖然依舊有很多強大的模型推出,但旗艦模型的發(fā)布節(jié)奏明顯變得遲緩了。
以下是一些AI科技巨頭,和他們的旗艦模型推出時間,能夠更直觀地感受到“下一代模型”的空缺已久:
OpenAI - GPT-4
發(fā)布時間:2023年3月
Google DeepMind - Gemini 1.5
發(fā)布時間:2024年2月
Anthropic - Claude 3.5
發(fā)布時間:2024年6月
Meta-Llama 3.1
發(fā)布時間:2024年7月
xAI - Grok 2
發(fā)布時間:2024年8月
OpenAI-o1
發(fā)布時間:2024年9月
許多觀點(包括OpenAI前首席研究官)認為o1其實就是“下一代模型”。該模型的計算能力是GPT-4的100倍。
然而,o1 能力增長來源于思維鏈的加持,而非傳統(tǒng)的Scaling Law。
由此可見,從去年下半年開始,大模型的發(fā)展似乎已經(jīng)陷入了集體“啞火”的狀態(tài),呈現(xiàn)出傳說中的那面無形的“墻”的輪廓。
3.另辟蹊徑,大模型要繞過那面墻
年底Ilya一句“預訓練走向終結”在AI圈掀起討論的狂潮。
觀之國內(nèi),AI大佬也紛紛尋找AI訓練的轉(zhuǎn)機與突破。
其中,月之暗面的創(chuàng)始人楊植麟是對預訓練仍抱有樂觀的少數(shù)派。在Kimi數(shù)學模型發(fā)布的時候,他說自己“對Scaling Law仍然樂觀,認為預訓練模型還有半代到一代的提升空間,這個空間大概率會由頭部大模型在明年釋放出來?!?/span>
但他也依然承認,Scaling Law的范式有所變化:“做Post-train(后訓練)也要Scaling,只是說你Scaling的起點很低??赡芎荛L一段時間,你的算力就不會是瓶頸,這個時候創(chuàng)新能力是更重要的?!?/span>
在媒體報道中,上海人工智能實驗室主任助理、領軍科學家喬宇同樣表示“并不是說Scaling Law要被拋棄了,而是應該尋找新的Scaling Law維度,很多難題并不能單純靠擴大模型規(guī)模、數(shù)據(jù)、算力解決,我們需要更豐富的模型架構和更高效的學習方法,同時也希望在AGI發(fā)展過程中,能有來自中國的核心貢獻,找到與中國資源稟賦更加匹配的、自主的技術路線”。
階躍星辰首席科學家張祥雨則更“激進”一些,他直白表示,他對萬億以上參數(shù)大模型的能力提升,并不絕對樂觀。他說“根據(jù)我們的觀察,隨著大模型規(guī)模的不斷擴大,歸納相關的能力快速提升,而且可能會繼續(xù)遵循Scaling Law,但其演繹能力,包括數(shù)學和推理方面的能力,隨著模型Side進一步提升,不僅沒有增長,反而在下降?!?/span>
參考鏈接:
https://techcrunch.com/2025/01/02/xais-next-gen-grok-model-didnt-arrive-on-time-adding-to-a-trend/


2024-02-07 09:00:00
2023-04-21 09:35:50
2019-01-17 09:14:34
2013-07-27 21:28:44




