杭州95后學(xué)霸坐C位,Grok 3登頂App Store!Hinton高徒、多倫多華人博士領(lǐng)銜
昨日官宣免費(fèi)不過(guò)幾小時(shí),Grok直接在美區(qū)App Store榜一。
馬斯克甚至欣喜地表示,這還沒(méi)有集成語(yǔ)音模式,未來(lái)幾天即將上線。
付費(fèi)用戶可以提前體驗(yàn)Grok 3語(yǔ)音模式
這場(chǎng)史詩(shī)級(jí)發(fā)布,焦點(diǎn)不僅僅在Grok 3上,還有發(fā)布會(huì)現(xiàn)場(chǎng)坐在C位的兩位華人科學(xué)家。
一位是多倫多大學(xué)計(jì)算機(jī)科學(xué)助理教授Jimmy Ba,另一位是xAI聯(lián)創(chuàng)吳懷宇(Tony Wu)。
值得一提的是,吳懷宇是四人當(dāng)中唯一一個(gè)95后,畢業(yè)于杭州建蘭中學(xué),博士期間在多倫多大學(xué),曾是AlphaGeometry、AlphaStar核心開(kāi)發(fā)者。
Jimmy Ba還是AI大佬Hinton的學(xué)生。
Igor Babuschkin、Jimmy Ba、吳懷宇、馬斯克
值得一提的是,Grok 3 Beta官方技術(shù)博客也終于出爐了,被稱為跨入推理智能體時(shí)代的AI。
20(/10)萬(wàn)塊GPU訓(xùn)出的首款Grok,在推理、數(shù)學(xué)、編碼、世界知識(shí)等任務(wù)方面,取得了顯著提升,成功為Scaling Law續(xù)命。
博客詳細(xì)介紹了Grok 3的各個(gè)功能和基準(zhǔn)測(cè)試結(jié)果
xAI最強(qiáng)智能系統(tǒng)
18號(hào),xAI推出了迄今為止最先進(jìn)的模型Grok 3:它將強(qiáng)大的推理能力與廣泛的預(yù)訓(xùn)練知識(shí)融為一體。
Grok 3在xAI的Colossus超級(jí)計(jì)算集群上訓(xùn)練,運(yùn)算能力是現(xiàn)有頂尖模型的10倍,在推理、數(shù)學(xué)、編程、世界知識(shí)和指令遵循任務(wù)方面都表現(xiàn)出顯著提升。
Grok 3的推理能力通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)(RL)得到提升,使其能夠進(jìn)行持續(xù)數(shù)秒到數(shù)分鐘的思考,糾正錯(cuò)誤、探索替代方案,并提供準(zhǔn)確答案。它在學(xué)術(shù)基準(zhǔn)測(cè)試和真實(shí)用戶偏好方面都表現(xiàn)出色,在Chatbot Arena中獲得了1402的Elo評(píng)分。
與此同時(shí),xAI還推出了Grok 3 mini,代表著高效推理的新突破。
更深入的思考:測(cè)試時(shí)計(jì)算與推理
Grok 3(Think)和 Grok 3 mini(Think)這兩個(gè)beta版的推理模型,使用RL進(jìn)行訓(xùn)練,規(guī)模前所未有。因此,CoT推理過(guò)程得到提升,實(shí)現(xiàn)了高效的高級(jí)推理。
RL訓(xùn)練后的Grok 3(Think),學(xué)會(huì)了完善問(wèn)題解決策略,還能用回溯來(lái)糾正自己的錯(cuò)誤、簡(jiǎn)化步驟,并且會(huì)利用預(yù)訓(xùn)練中獲得的知識(shí)。
就像人類面對(duì)復(fù)雜問(wèn)題時(shí)一樣,它會(huì)花費(fèi)幾秒到幾分鐘的時(shí)間去推理,還能用多種方法驗(yàn)證答案,評(píng)估如何精準(zhǔn)滿足要求。
比如這個(gè)問(wèn)題「人生的意義是什么?」
Grok 3會(huì)花費(fèi)4秒鐘思考,總結(jié)說(shuō):對(duì)生命意義的追問(wèn),是人類幾百年來(lái)的困難,表現(xiàn)形式會(huì)因提問(wèn)者和所看重的東西而大相徑庭。
這兩個(gè)模型雖然仍在訓(xùn)練中,但在多個(gè)基準(zhǔn)測(cè)試中已經(jīng)展現(xiàn)出卓越的表現(xiàn)。
xAI表示,他們?cè)?月12日(僅7天前)發(fā)布的2025年美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)上測(cè)試了這些模型。
他們使用最高級(jí)別的測(cè)試時(shí)計(jì)算參數(shù)(cons@64),Grok 3(Think)在這項(xiàng)競(jìng)賽中達(dá)到了93.3%的正確率,在研究生級(jí)別的專家推理測(cè)試(GPQA)中達(dá)到了84.6%的成績(jī),在代碼生成和問(wèn)題解決的LiveCodeBench測(cè)試中達(dá)到了79.4 %。
此外,Grok 3 mini在不需要太多世界知識(shí)的科學(xué)、技術(shù)、工程和數(shù)學(xué)(STEM)任務(wù)中實(shí)現(xiàn)了高效推理能力的新突破,在2024年AIME中達(dá)到95.8 %的正確率,在LiveCodeBench中達(dá)到80.4 %的成績(jī)。
要使用Grok 3的推理能力,只需點(diǎn)擊「Think」(思考)按鈕即可。
Grok 3(Think)的思維模式完全開(kāi)放,使用戶不僅可以看到最終答案,還可以了解模型的完整推理過(guò)程。它的推理能力可以廣泛應(yīng)用于各類問(wèn)題領(lǐng)域。下面,讓我們看看Grok 3的一些推理示例。
代碼
在這個(gè)任務(wù)中,Grok 3被要求用pygame創(chuàng)建一款混合兩種經(jīng)典游戲的的混合游戲,看起來(lái)要很漂亮。
思考6分鐘后,Grok 3給出了完整的代碼實(shí)現(xiàn)。
它做出了一個(gè)功能完整的2D游戲,代碼結(jié)構(gòu)清晰,注釋詳細(xì),易于理解和修改。游戲結(jié)合了經(jīng)典元素(Breakout 和 Pong),娛樂(lè)性拉滿。
而視覺(jué)效果,是通過(guò)粒子和顏色增強(qiáng)呈現(xiàn)的。
所以,Grok 3是怎樣滿足「讓游戲看起來(lái)很漂亮」這個(gè)要求的呢?
它用五彩斑斕的磚塊、磚塊破碎時(shí)的粒子效果、漸隱粒子等,實(shí)現(xiàn)了動(dòng)態(tài)的外觀呈現(xiàn)。
另外,Grok 3還有一些更加別具匠心的設(shè)計(jì),比如添加彈跳的音效,使用更大的球拍、更快的球增加力道、添加背景漸變等。
ASCII Art
這個(gè)任務(wù)中要求Grok 3創(chuàng)建一個(gè)高保真Frank Lloyd Wright風(fēng)格住宅的ASCII字符藝術(shù)。
Frank Lloyd Wright是一位著名的美國(guó)建筑師,以其有機(jī)建筑風(fēng)格著稱,作品通常與自然環(huán)境融為一體,特征包括水平線條、開(kāi)放空間和大窗戶。
Grok 3思考了3分鐘后開(kāi)始輸出它的作品。
可以看出,Grok 3生成的圖片通過(guò)ASCII字符生動(dòng)地再現(xiàn)了Frank Lloyd Wright草原風(fēng)格建筑的經(jīng)典特征。設(shè)計(jì)簡(jiǎn)潔而富有層次感,完美捕捉了草原風(fēng)格建筑的本質(zhì)。
圖片下方還提供了詳細(xì)的設(shè)計(jì)說(shuō)明和注意事項(xiàng),解釋了每個(gè)ASCII字符的象征意義:屋頂用斜線和橫線強(qiáng)調(diào)水平線條,煙囪位于屋頂左側(cè)增加平衡,墻壁和窗戶強(qiáng)化水平延伸,基礎(chǔ)線體現(xiàn)有機(jī)整合。
24點(diǎn)游戲
這個(gè)任務(wù)中,Grok 3被要求用4、4、10、10來(lái)玩24點(diǎn)游戲,目標(biāo)是添加加減乘除運(yùn)算符,得出24。
它需要選出,成功完成這個(gè)游戲的第一個(gè)運(yùn)算是什么。
思考3分鐘后,它得出了解法:使用((10×10)?4)÷4這個(gè)表達(dá)式,因此選出答案F。并且,它還進(jìn)一步進(jìn)行了驗(yàn)證,排除了其他選項(xiàng)的可能性。
數(shù)學(xué)
接下來(lái),是一道難度不小的數(shù)學(xué)題。
這道題給出了一個(gè)遞歸定義,涉及到了正整數(shù)n和一系列從集合{1,…,n} 中均勻隨機(jī)選擇的整數(shù)m_n,k。
最終,題目要求計(jì)算出期望值E(n),并求出在n趨于無(wú)限時(shí),E(n)/n的極限值。
Grok 3思考了4分鐘后,確定了自己需要完成的步驟。
首先,需要分析狀態(tài)空間和轉(zhuǎn)換,然后要定義漂移項(xiàng)和期望值的遞推關(guān)系,第三步要解決遞歸,最后一步就是計(jì)算極限。
最終,Grok 3給出了最終答案:(1-e^(-2))/2。
超大規(guī)模預(yù)訓(xùn)練
當(dāng)不啟用推理功能時(shí),Grok 3能夠即時(shí)提供高質(zhì)量回答。
在常規(guī)模型(非推理模式)中,Grok 3在多項(xiàng)學(xué)術(shù)基準(zhǔn)測(cè)試中均達(dá)到了SOTA,這些測(cè)試包括:研究生級(jí)科學(xué)知識(shí)評(píng)估(GPQA)、高級(jí)通用知識(shí)測(cè)試(MMLU-Pro)、數(shù)學(xué)競(jìng)賽解題能力(AIME)等。
同時(shí),Grok 3在圖像理解能力測(cè)試(MMMU)和視頻內(nèi)容理解任務(wù)(EgoSchema)中也展現(xiàn)出卓越表現(xiàn)。
Grok 3的上下文處理窗口可達(dá)100萬(wàn)個(gè)token,是Grok 2的8倍,這使其能夠處理超長(zhǎng)文檔并響應(yīng)復(fù)雜提示詞,同時(shí)保持極高的指令執(zhí)行準(zhǔn)確度。
在專門(mén)測(cè)試長(zhǎng)文本RAG能力的LOFT基準(zhǔn)測(cè)試(支持128k長(zhǎng)度)中,Grok 3在12項(xiàng)不同任務(wù)的平均準(zhǔn)確率上達(dá)到了SOTA,充分展示了其卓越的信息檢索能力。
Grok 3同時(shí)在事實(shí)準(zhǔn)確性和文風(fēng)把控方面都取得了顯著提升。以代號(hào)「chocolate」發(fā)布的Grok 3早期版本在LMArena Chatbot Arena排行榜上獨(dú)占鰲頭,其Elo評(píng)分在所有評(píng)估類別中均超越競(jìng)爭(zhēng)對(duì)手。
目前,xAI正在擴(kuò)大發(fā)展規(guī)模,準(zhǔn)備利用配備20萬(wàn)個(gè)GPU的計(jì)算集群來(lái)訓(xùn)練更大規(guī)模的模型。
Grok智能體:融合推理能力與工具運(yùn)用
為了理解宇宙,xAI讓Grok與現(xiàn)實(shí)世界實(shí)現(xiàn)交互。通過(guò)整合Code Interpreter(代碼解釋器)和互聯(lián)網(wǎng)訪問(wèn)能力,Grok 3模型能夠主動(dòng)查詢所需的上下文信息,靈活調(diào)整處理方法,并通過(guò)反饋不斷優(yōu)化其推理能力。
作為實(shí)現(xiàn)這一愿景的第一步,xAI推出了他們的首個(gè)AI智能體——DeepSearch。
這是一個(gè)反應(yīng)極速的AI智能體,專注于在浩瀚的人類知識(shí)庫(kù)中持續(xù)探索真相。
無(wú)論是實(shí)時(shí)掌握最新資訊,解決社交難題,還是開(kāi)展深度科研工作,DeepSearch都能提供遠(yuǎn)超普通搜索引擎的體驗(yàn)。它最終會(huì)生成一份精煉而全面的總結(jié)報(bào)告,助你在這個(gè)快速發(fā)展的世界中把握先機(jī)。
兩位華人坐鎮(zhèn)C位,還有一位杭州95后
Grok 3直播畫(huà)面中,馬斯克與三位技術(shù)負(fù)責(zé)人并肩而坐,一開(kāi)場(chǎng),還謙虛地說(shuō)自己什么也沒(méi)干。
其中兩位華人頗有緣分,Jimmy Ba和吳宇懷均在多倫多大學(xué)完成了博士學(xué)位。
個(gè)人資料顯示,Jimmy Ba目前是多倫多大學(xué)計(jì)算機(jī)科學(xué)系助理教授,他的學(xué)士、碩士學(xué)位也是在多倫多大學(xué)完成,導(dǎo)師分別是Brendan Frey和Ruslan Salakhutdinov。
博士期間,曾在Geoffrey Hinton指導(dǎo)下完成了學(xué)業(yè)。
Jimmy Ba還曾獲得了2016年Facebook研究生獎(jiǎng)學(xué)金,2023年諾獎(jiǎng)風(fēng)向標(biāo)「斯隆研究獎(jiǎng)」。
提及個(gè)人貢獻(xiàn),Jimmy Ba曾提出了大名鼎鼎的深度學(xué)習(xí)訓(xùn)練算法Adam優(yōu)化器,這是一種自適應(yīng)學(xué)習(xí)率的優(yōu)化算法。
這篇發(fā)表在2015年的論文,被引數(shù)量突破了20萬(wàn)。
另一篇被引最高的論文,是與Hinton一起完成「層歸一化」(Layer Normalization),一種深度學(xué)習(xí)中用于優(yōu)化神經(jīng)網(wǎng)絡(luò)的方法。
另一位吳宇懷,是一位名副其實(shí)的95后學(xué)霸。
小學(xué)一年級(jí)就讀于新安江一小,后轉(zhuǎn)學(xué)到杭州紫陽(yáng)小學(xué)。到了初中,進(jìn)入杭州建蘭中學(xué)學(xué)習(xí),隨后高中又轉(zhuǎn)到加拿大。
他的職業(yè)生涯更為豐富,從OpenAI、谷歌DeepMind,到斯坦福博士后研究員、谷歌研究科學(xué)家,再到如今xAI聯(lián)創(chuàng),走出了不同尋常的人生軌跡。
他曾參與了許多人熟知的AI研發(fā),比如STaR、Minerva、AlphaGeometry、Autoformalization、Memorizing Transformer、AlphaStar等。
吳懷宇也曾與圖靈獎(jiǎng)得主Bengio有交集,在2016 NrurIPS上,他們與多位合著者共同提出了Multiplicative Integratio架構(gòu),共同改善循環(huán)神經(jīng)網(wǎng)絡(luò)。
論文地址:https://arxiv.org/pdf/1606.06630
除了他們兩人,事實(shí)上,xAI團(tuán)隊(duì)還有不少有名的華人科學(xué)家。
聯(lián)創(chuàng)Greg Yang(楊格),出生在湖南,本碩就讀于哈佛大學(xué)數(shù)學(xué)系,大學(xué)時(shí)期的導(dǎo)師是數(shù)學(xué)家丘成桐。在加入xAI前,他是微軟的高級(jí)研究員,負(fù)責(zé)AI理論研究。
他的學(xué)術(shù)生涯充滿傳奇色彩,在哈佛求學(xué)期間,他曾兩度休學(xué),一次是為了追求自己的DJ夢(mèng)想,另一次則是為了深入研究數(shù)學(xué)。于2018年榮獲摩根獎(jiǎng)(Morgan Prize)榮譽(yù)獎(jiǎng),現(xiàn)研發(fā)TensorPrograms理論和擴(kuò)展神經(jīng)網(wǎng)絡(luò)的實(shí)踐。
他的研究方向深受數(shù)學(xué)驅(qū)動(dòng),他曾在社交平臺(tái)上寫(xiě)道:「Math for AI, and AI for Math!」(數(shù)學(xué)推動(dòng)AI,AI反過(guò)來(lái)也能推動(dòng)數(shù)學(xué))。在AI研究人員眼中,他不僅是一位科學(xué)家,更是一位愿意挑戰(zhàn)AI理論極限的數(shù)學(xué)家。
清華校友Zihang Dai(戴子航),前谷歌大腦研究員,獲得了清華和CMU的學(xué)位。此前,他還在百度美國(guó)分公司和蒙特利爾大學(xué)的MILA進(jìn)行過(guò)研究實(shí)習(xí)。
戴子航本科畢業(yè)于清華大學(xué)計(jì)算機(jī)科學(xué)系,大學(xué)期間,連續(xù)三年拿下專業(yè)第一,并在大三暑假,師從著名計(jì)算機(jī)視覺(jué)專家朱松純開(kāi)展研究。2020年博士畢業(yè)于卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)系,隨后加入谷歌研究院。
他在自然語(yǔ)言處理(NLP)領(lǐng)域擁有深厚的積累,尤其擅長(zhǎng)Transformer架構(gòu)的優(yōu)化與創(chuàng)新。他曾在谷歌和百度美區(qū)實(shí)習(xí),并在多個(gè)頂級(jí)AI會(huì)議上發(fā)表論文。
浙大校友Guodong Zhang(張國(guó)棟),也是機(jī)器學(xué)習(xí)和人工智能領(lǐng)域的研究者,曾就職于多倫多大學(xué)和矢量研究所(Vector Institute),因研究大模型訓(xùn)練、微調(diào)、對(duì)齊而聞名。
他本科就讀于浙江大學(xué)信息工程專業(yè),大學(xué)時(shí)連續(xù)三年排名專業(yè)第一,拿了三年的國(guó)家獎(jiǎng)學(xué)金,還獲得過(guò)全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽一等獎(jiǎng),美國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽一等獎(jiǎng)。
大二時(shí),他對(duì)人工智能產(chǎn)生了濃厚興趣,投入到計(jì)算機(jī)視覺(jué)領(lǐng)域的研究中;大三暑假,跟著全球著名計(jì)算機(jī)視覺(jué)專家朱松純從事相關(guān)研究。加入xAI之后,他的研究方向主要聚焦于如何優(yōu)化AI訓(xùn)練效率,并提升模型的穩(wěn)定性。
另有網(wǎng)友繪制了一幅xAI成員背景圖,可以看華人學(xué)者占據(jù)近一半比例。