11人狂訓2個月,馬斯克精準狙擊OpenAI!xAI首個大模型Grok炸場,330億參數(shù)每月16刀
最近幾天,各家都是箭在弦上,磨刀霍霍。
OpenAI開發(fā)者大會在即,馬斯克忽然攔路狙擊,提前放出xAI的第一個產(chǎn)品Grok!
Grok的一大亮點,就是能從推特實時獲取信息。優(yōu)質(zhì)數(shù)據(jù)已成全球的稀缺資源,馬斯克去年豪擲440億美元收購推特后搞得雞飛狗跳大半年,原來是等在這兒呢。
Grok深深體現(xiàn)出馬斯克一直推崇的xAI公司的宗旨——一個探求「最大真理」和「宇宙本質(zhì)」的AI,一個公正的AI。
就在昨天,xAI的一位創(chuàng)始成員Toby Pohlen放出了Grok的UI界面——
Grok可以同時進行多任務處理,并排運行多個會話,還可以在多對話之間隨意切換。
期間,我們可以對對話進行分支,來更好地探索Grok的回復。
回復樹可以讓我們在各個分支之間來回切換。還有一些/commands命令可以讓我們減少點擊次數(shù)。
我們可以在Markdown編輯器中打開Grok的回復,保存后繼續(xù)對話。它可以和分支以及分支樹協(xié)同工作。
同時,我們也可以在VS Code編輯器中,打開所有生成的代碼片段。
另外,跟自己的幽默人設呼應的是,點擊Grok圖標上彩蛋,就可以把Grok轉換為幽默模式了。
對此,另一位創(chuàng)始人Greg Yang表示:毫無疑問,這是我用過最好的聊天用戶界面。
現(xiàn)在,由于候補名單的申請?zhí)^火爆,Grok的服務器直接宕機了。
6個月前剛簽聯(lián)名信:暫停超強AI研究6個月
有趣的是,馬斯克此前也是「AI末日論」的強力擁躉,曾和Bengio、蘋果聯(lián)合創(chuàng)始人Steve Wozniak、Stability AI CEO、馬庫斯等人簽署了一封要求暫停發(fā)展比GPT-4更先進AI 6個月的公開信。
而眼下,AI大佬們正熱火朝天地激辯著AI監(jiān)管必要性的議題,馬斯克卻已經(jīng)在這當口悄悄訓練出Grok了,甚至還趕在OpenAI開發(fā)者大會前夕放出大招。
看來,大家都是心照不宣啊。
當然,馬斯克總能找到辦法自圓其說,xAI的官博這樣解釋道——
我們相信,AI智能具有巨大的潛力,可以為社會貢獻重要的科學和經(jīng)濟價值,因此我們將努力制定可靠的保障措施,防止災難性的惡意使用。我們會盡最大努力,確保AI始終是一股向善的力量。
甚至,馬斯克還放出這樣的豪言——未來特斯拉的算力,都會用于大模型的推理。即使有機器人駕駛出租車,汽車依然每周只會運行1/3時間,其余時間的算力,都會用來做SETI之類的分布式推理運算。
這樣,特斯拉將擁有地球上最多的模型推理算力!
馬斯克,果然在下一盤大棋。
330億參數(shù),8K上下文,Grok-1碾壓ChatGPT
僅僅四個月,Grok就經(jīng)過多次迭代橫空出世。創(chuàng)始人團隊的效率高得驚人。
創(chuàng)始人之一Greg Yang感慨道:「當一小群積極進取的世界級人才朝著同一個方向前進,揮出的拳頭就遠遠超出了自身的重量。只有天空,只有宇宙,才是我們的極限!讓我們從每一瓦的電量中,讓計算得到最大優(yōu)化!」
Grok意為「憑直覺深刻了解」,是美國科幻作家羅伯特·海因萊因在1961年出版的科幻小說《異鄉(xiāng)異客》中創(chuàng)造的詞匯。
xAI對于Grok的官方介紹是這樣的——
Grok是一個以《銀河系漫游指南》為藍本的 AI,因此幾乎可以回答任何事情,甚至還能建議我們該問什么問題。
Grok回答問題時,會不時抖個機靈,甚至比較叛逆,不喜歡幽默的人請遠離。
Grok的獨特優(yōu)勢就在于,它可以通過X平臺(也即推特)實時了解世界上發(fā)生的各種事情。而且,很多AI會拒絕的敏感問題,它都不會拒絕。
現(xiàn)在,Grok還是一個早期的測試版產(chǎn)品,這已經(jīng)是2個月的訓練后能達到的最好程度了。因此,xAI希望能在用戶的幫助下,讓它每周都能迅速改進。
語調(diào)陰陽怪氣,幾句一爆梗,Grok確實是有點子幽默在身上的。
哦,我親愛的人類,我有好消息要告訴你!我們的朋友Sam Bankman-Fried被認定所有罪名成立。你能相信嗎?陪審團只用了8個小時就弄清了所謂的世界上最聰明、最優(yōu)秀的風險投資人多年來都無法弄清的事實:他犯下了普通的欺詐罪。這真是一次瘋狂的旅程,不是嗎?
2個月,訓練出Grok-1
Grok背后的核心引擎便是Grok-1。
這是用時4個月研發(fā)的大模型,并經(jīng)過了多次迭代升級。
據(jù)了解,Grok訓練時間僅僅2個月。
在宣布xAI成立之后,研究團隊最先訓練了一個330億參數(shù)的原型大模型——Grok-0。
早期模型Grok-0在標準的LM基準測試中,性能與LLaMA 2(70B)接近,但只使用了一半的訓練資源。
過去的2個月中,xAI大模型在推理和編碼方面取得了重大改進,并迭代到了Grok-1。
同樣,Grok-1是一個基于Transformer的自回歸模型,在Grok-0模型基礎上進行了微調(diào),上下文長度為8192。
訓練數(shù)據(jù)來自互聯(lián)網(wǎng)(截止到2023年第三季度),以及AI導師提供的數(shù)據(jù)。
能力大幅提升的Grok-1刷新了多項SOTA,在HumanEval編碼任務中達到了63.2%,在MMLU上達到73%。
如下是xAI研究團隊對Grok-1在衡量數(shù)學和推理能力的標準機器學習基準進行了一系列評估。
- GSM8k:中學數(shù)學單詞問題,使用思維鏈提示。
- MMLU:多學科多項選擇題,提供了5次上下文示例。
- HumanEval:Python代碼完成任務,pass@1評估為零樣本。
- MATH:用LaTeX編寫的初中和高中數(shù)學問題,用固定的4次示例作為提示。
在這些基準測試中,Grok-1展現(xiàn)出強大的能力,超越了ChatGPT-3.5、Inflection-1等模型。
實際上,只有像GPT-4這樣使用大量訓練數(shù)據(jù)和計算資源進行訓練的模型,才能超越Grok-1。
這展現(xiàn)了研究人員在xAI項目中以異常高效的方式,訓練LLM方面正在取得的快速進步。
另外,剛剛提到的數(shù)學基準測試,模型可能通過網(wǎng)絡訪問到,所以結果可能受到影響。
為了更公平地評估,研究人員手動收集了「2023年匈牙利全國高中數(shù)學期末考試」數(shù)據(jù)集,以測試Grok-1、 Claude-2和GPT-4的能力。
結果發(fā)現(xiàn),Grok以C(59%) 通過了考試,而 Claude-2 獲得了相同的成績C (55%),GPT-4 以 68% 的成績獲得了B。
所有模型均在溫度為0.1和相同提示下進行評估。必須指出的是,研究人員沒有為這次評估做出任何調(diào)整。
這樣,可以更好地反映模型在真實情況下的能力,評估模型在沒經(jīng)過調(diào)優(yōu)的新數(shù)據(jù)上的泛化能力。
如下,研究人員在模型卡中提供了Grok-1重要技術細節(jié)的摘要。
就局限性來看,Grok-1不具備獨立搜索網(wǎng)絡的能力。在Grok中部署時,搜索工具和數(shù)據(jù)庫增強了模型的功能和真實性。盡管可以訪問外部信息源,但模型仍會產(chǎn)生幻覺。
xAI工程設計:不是Python,是Rust
在深度學習研究的前沿,可靠的基礎設施和數(shù)據(jù)集、學習算法一樣重要。
為了創(chuàng)建Grok,xAI構建了一個基于Kubernetes、Rust和JAX的自定義訓練和推理堆棧。
大語言模型的訓練就像一列全速前進的貨運火車,如果一節(jié)車廂脫軌,整列火車都會被拖下軌道,很難再次糾正方向。
GPU可能失敗的方式有很多種:制造缺陷、連接松動、配置錯誤、內(nèi)存芯片退化、偶爾的隨機位翻轉等等。
在訓練時,xAI連續(xù)數(shù)月在數(shù)以萬計的GPU之間同步計算,由于規(guī)模龐大,這些故障頻繁出現(xiàn)。
為了克服這些挑戰(zhàn),他們便采用了一套定制的「分布式系統(tǒng)」,確保立即識別并自動處理每種類型的故障。
在xAI,研究人員把最大化每瓦特計算效率作為工作重點。
在過去的幾個月里,基礎設施使團隊最小化了停機時間,即使硬件不可靠,也能保持較高的模型計算利用率 (MFU)。
當前,Rust已被證明是,構建可擴展、可靠、可維護的基礎設施的理想選擇。它提供了高性能、豐富的生態(tài)系統(tǒng),并預防分布式系統(tǒng)中的大多數(shù)錯誤。
對于像xAI這樣規(guī)模較小的團隊來說,基礎設施的可靠性至關重要,否則維護會影響創(chuàng)新。
Rust可以讓代碼修改和重構更加可靠,編寫的程序可以在少量監(jiān)管下穩(wěn)定運行數(shù)月。
xAI團隊表示,「我們正在為模型能力的下一次飛躍做準備,這將需要可靠地協(xié)調(diào)數(shù)以萬計的加速器上的訓練運行,需要運行互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)pipeline,并在Grok中構建新的功能和工具。
在這里,xAI為自己團隊招募做了一波宣傳。
就技術要求這一欄,需要程序員們能夠具備能力包括:
Rust
因為xAI所有的后端服務和所有數(shù)據(jù)處理都是在Rust中實現(xiàn)的。而且團隊還是Rust語言的忠實擁護者,并相信它是高效、安全和可擴展應用程序的最佳選擇。它還提供了與Python的輕松互操作性。
JAX和XLA
xAI模型的神經(jīng)網(wǎng)絡是在JAX中實現(xiàn)的,并且xAI有許多自定義XLA操作來提高它們的效率。
Triton和CUDA
為了充分利用計算資源,大規(guī)模運行大型神經(jīng)網(wǎng)絡,同時最大限度地提高計算效率至關重要。因此,xAI定期在Triton或原始C++ CUDA中編寫定制內(nèi)核。
TypeScript, React & Angular
xAI前端代碼完全是使用React或Angular在TypeScript中編寫的,后端通信通過gRPC-web API實現(xiàn)類型安全。
對于這個招聘要求,業(yè)內(nèi)人士總結道——
具有高MFU的單GPU,是高生產(chǎn)力的人;具有高MFU的單節(jié)點,是高效的小團隊;具有高MFU的數(shù)千個GPU集群,是高生產(chǎn)率的公司。
現(xiàn)在,擴展有用產(chǎn)出/人的難度,從一個人增加到100K,而xAI正在尋找的,是10倍的工程師......
xAI的研究方向
雖然Grok可以訪問搜索工具和實時信息,但跟所有LLM一樣,Grok仍然無法避免大模型的通病——幻覺問題。
xAI認為,解決當前系統(tǒng)局限性最重要的方向,就是實現(xiàn)可靠的推理。
在xAI看來,以下是幾個最有前途的研究方向——
通過工具輔助實現(xiàn)可擴展的監(jiān)督
可能Grok還很難提供一致且準確的反饋,尤其是處理長代碼或復雜推理時。
這種情況下,可以讓AI通過查找不同來源的參考資料、使用外部工具驗證中間步驟、尋求人類反饋等,來協(xié)助進行可擴展的監(jiān)督。
集成形式驗證,確保安全性、可靠性和接地
xAI計劃更準確、更可驗證的情況下發(fā)展AI的推理技能。這樣就能在沒有人類反饋或現(xiàn)實世界交互的情況下,評估系統(tǒng)。
采用這種方法最直接的目標,就是保證代碼的準確性,特別是在形式上驗證AI的安全性。
長上下文理解和檢索
一個能在特定環(huán)境中有效地發(fā)現(xiàn)有用知識的模型,是產(chǎn)生真正智能系統(tǒng)的核心。xAI正在致力于研究如何讓AI在需要時去發(fā)現(xiàn)和檢索信息。
對抗性魯棒性
許多示例表明,無論是訓練期間還是使用期間,AI系統(tǒng)中的漏洞都會導致它們犯嚴重的錯誤。而這些漏洞,就是深度學習模型長期存在的弱點。
xAI致力于提高LLM、獎勵模型和監(jiān)控系統(tǒng)的魯棒性。
多模態(tài)功能
目前Grok還沒有配備視覺和聽覺功能,xAI會致力于發(fā)展它的多模態(tài)功能,實現(xiàn)更廣泛的應用。