解析Llama 3.1 與Meta 的 AI 戰(zhàn)略,以及新的開放前沿模型生態(tài)系統(tǒng)
今天,Meta 發(fā)布了 Llama 3.1 模型,延續(xù)了他們從最初的 Llama 3 “預(yù)覽版”開始就踐行的開源理念,即盡早發(fā)布和頻繁發(fā)布。Llama 3.1 模型有三種規(guī)模:8 B、70 B和長(zhǎng)期傳聞中的 405 B 參數(shù)。對(duì)于其規(guī)模來(lái)說(shuō),這些模型是同類中最優(yōu)秀的開源模型。4050 億參數(shù)模型直接與 Anthropic 的 Claude 3 和 OpenAI 的GPT-4o 處于同一水平。Llama 3.1 的營(yíng)銷以及Meta 的 AI 戰(zhàn)略正在直接推動(dòng)將開源軟件實(shí)踐轉(zhuǎn)化為開源AI。這次發(fā)布的核心和 AI 的未來(lái)是 AI 能有多“開源”,以及 Meta 是否確實(shí)是掌握這一技術(shù)的公司。
這將是關(guān)于 Llama 3 和開放語(yǔ)言模型生態(tài)系統(tǒng)的多篇文章中的第一篇。鑒于 Llama 3.1 的發(fā)布幾乎沒有限制,本文將重點(diǎn)介紹人工智能未來(lái)的可能發(fā)展。開放語(yǔ)言模型(不一定是開源的)現(xiàn)在比正在準(zhǔn)備百億美元訓(xùn)練集群的封閉實(shí)驗(yàn)室有更多的保障相關(guān)性。開放社區(qū)現(xiàn)在有了一個(gè)模型,即 4050 億參數(shù)的指令變體,這為研究和開發(fā)打開了許多大門——提煉、合成數(shù)據(jù)、微調(diào)、工具使用等等。
Meta 的開放前沿模型
Llama 3.1 發(fā)布博客包含了有關(guān)該模型的所有常規(guī)細(xì)節(jié)。該模型的架構(gòu)非常簡(jiǎn)單,以至于其簡(jiǎn)單性成為一個(gè)話題重點(diǎn)。它是一個(gè)前饋密集Transformer,擁有非常多的參數(shù),并在精心策劃的 15.6 萬(wàn)億個(gè)數(shù)據(jù)標(biāo)記上進(jìn)行訓(xùn)練。與 Llama 3 和其他最近的開源模型相比,其許可證相當(dāng)不錯(cuò),允許創(chuàng)建合成數(shù)據(jù),但附帶了嚴(yán)格的品牌條款。
該模型展示了 Meta 在擴(kuò)展其系統(tǒng)方面的重點(diǎn),而不是像 OpenAI、Anthropic 和Google 為其華而不實(shí)的小模型(Haiku、Flash 和 Mini)所做的那樣,走專家混合然后提煉的路徑。Meta 在前沿模型游戲中起步較晚,但它正在迅速縮小差距。這是第一次在開放模型發(fā)布帖子中與封閉的前沿模型進(jìn)行公平比較。
Llama 3.1 405B instruct(以及基礎(chǔ)模型,但上述內(nèi)容更可能是 instruct)超過了許多現(xiàn)有的最佳模型(以藍(lán)色突出顯示)。Meta 還展示了他們 3.1 系列中的較小模型變體如何輕松擊敗其他開源模型(包括近期的模型,如 Gemma 2)。
Meta 與開發(fā)人員一起為發(fā)布此版本付出了很多努力,并且在第一天就集成了許多流行工具,從 HuggingFace 到 VLLM 等。對(duì)于用戶來(lái)說(shuō),重要的是量化模型的發(fā)布,例如 405B 模型的 FP8 版本,因此可以在一臺(tái)由 8 個(gè) 80GB A100 或H100 組成的節(jié)點(diǎn)上輕松運(yùn)行推理。
在這個(gè)模型中,數(shù)據(jù)依然是王者。他們沒有詳細(xì)說(shuō)明太多,而 Scale AI 聲稱自己是后期訓(xùn)練的合作伙伴,此外還有大量的合成數(shù)據(jù),這與Nemotron 的配方非常相似。
405B 模型在 API 上的定價(jià)與 GPT-4o 非常相似,范圍為輸入每百萬(wàn)Token 3-9美元,輸出每百萬(wàn)Token 3-15美元,而 GPT-4o 的定價(jià)為輸入每百萬(wàn) 5美元,輸出每百萬(wàn) 15美元。不過,通過本地托管,許多機(jī)構(gòu)能夠大大降低成本,因?yàn)樗麄円呀?jīng)擁有現(xiàn)有的 GPU 配置。
該模型可以在 Meta.ai 上免費(fèi)使用(并可以在 HuggingFace 上下載),但沒有通過大多數(shù)模型仍未能通過的“氛圍測(cè)試”(沒有網(wǎng)絡(luò) API)。除了事實(shí)知識(shí)之外,其文本顯然相當(dāng)不錯(cuò)。有趣的是,Meta 將用戶體驗(yàn)從其他提供商的默認(rèn)設(shè)置進(jìn)行了交換,將用戶放在左邊,助手放在右邊。我想知道他們是否通過 A/B 測(cè)試測(cè)量到參與度的提升,或者只是想與眾不同。
扎克伯格的開源AI愿景(與現(xiàn)實(shí)的對(duì)比)
隨著 Llama 3.1 的發(fā)布,馬克·扎克伯格撰寫了一篇引人注目的文章,闡述了為什么開源AI是美國(guó)科技產(chǎn)業(yè)應(yīng)追求的正確方向。文章集中在三個(gè)論點(diǎn)上:開源AI對(duì)開發(fā)者的好處,開源AI對(duì)Meta的好處,以及開源AI對(duì)世界的好處。我同意他文章的大意,特別是他對(duì)智能爆炸等“意外傷害”可能性的處理,但他在利用精心編織的故事試圖過度推銷 Meta AI 的角色。
扎克伯格論點(diǎn)的核心在于語(yǔ)言模型和AI將成為未來(lái)技術(shù)的新計(jì)算平臺(tái),他借用了協(xié)作開發(fā)的Unix操作系統(tǒng)的類比(特別是在最近 CrowdStrike 新聞的背景下)。開源AI對(duì)開發(fā)有利的原因現(xiàn)在基本被廣泛接受——數(shù)據(jù)隱私、自己基礎(chǔ)設(shè)施的安全性以及通過訓(xùn)練自己的模型來(lái)節(jié)省成本。
這篇文章最有趣的部分是關(guān)于開源AI對(duì)Meta和世界的作用。Meta的戰(zhàn)略完全認(rèn)識(shí)到AI是一種工具,而不是他們商業(yè)模式的核心,因此他們應(yīng)該使這些工具變得平民化??萍脊驹谶@方面有著悠久的歷史——他們?cè)谙魅醺?jìng)爭(zhēng)對(duì)手的同時(shí),不會(huì)損害自己的表現(xiàn)。當(dāng)AI發(fā)展如此迅速時(shí),它也有可能從社區(qū)為他們的模型找到的技巧中獲得優(yōu)勢(shì)。扎克伯格正在重復(fù)一個(gè)幾十年來(lái)一直適用于科技公司有效的簡(jiǎn)單策略,但可能適用于較小的資本投資規(guī)模上。這適用于 Llama 3 的規(guī)模,但尚不清楚 Llama 4 是否會(huì)再大十倍(他謹(jǐn)慎地不討論這些趨勢(shì))。Llama 3 的成本可能在1億美元左右(但實(shí)際上更多),這很便宜。而10億美元及以上的投入開始會(huì)影響股東。
在這篇博客文章和扎克伯格為此(以及其他Llama 版本發(fā)布)所做的采訪中都表明,Llama 是開源AI 的核心。操作系統(tǒng)等軟件包可以通過許多小貢獻(xiàn)構(gòu)建,而語(yǔ)言模型則需要集中開發(fā)和較慢的發(fā)布周期,兩者之間存在根本性的不匹配。基礎(chǔ)模型是開源 AI 生態(tài)系統(tǒng)的重要組成部分,但修改它的工具和開放的訓(xùn)練資源同樣重要——而這些Meta 并不擁有。
開源 AI 技術(shù)的真正起點(diǎn)是 Nvidia GPU、Nvidia 的Cuda、HuggingFace,然后是 Meta 的 Llama。Nvidia 收購(gòu)HuggingFace 并訓(xùn)練 Nemotron 5 以擁有AI 的開源默認(rèn)架構(gòu)要比 Meta 代表整個(gè)技術(shù)容易得多。由于早期對(duì) AI 的反壟斷關(guān)注,Meta 和Nvidia 可能都無(wú)法在這個(gè)領(lǐng)域擴(kuò)展,因此開源 AI 將根據(jù)當(dāng)時(shí)最好的模型來(lái)發(fā)展。
Meta 只能通過訓(xùn)練更好的模型來(lái)鎖定用戶,但這是一個(gè)成本高昂且用戶粘性低的過程。盡管有些人批評(píng) HuggingFace 的代碼質(zhì)量,但它將繼續(xù)成為transformer 風(fēng)格模型的默認(rèn)起點(diǎn)——這是一個(gè)更難打破的真正鎖定。即使 Meta 不會(huì)為用戶創(chuàng)建鎖定(因?yàn)樗恍枰ㄟ^其變現(xiàn)),每個(gè)邊際模型現(xiàn)在都在對(duì)競(jìng)爭(zhēng)對(duì)手施加真正的壓力。將競(jìng)爭(zhēng)壓力與品牌區(qū)分開是 Meta 戰(zhàn)略中最難的部分——他們不知道哪一個(gè)更重要。
扎克伯格最后一個(gè)論點(diǎn)是“為什么開源對(duì)世界有好處”,他將其分為對(duì)故意傷害(例如仇恨言論、惡意行為者等)的研究和非故意傷害(例如流氓 AI、失控模型等)的研究。他認(rèn)為,我們使用的開源模型對(duì)故意傷害的影響很小,因?yàn)榇蠖鄶?shù)故意傷害取決于誰(shuí)在部署用戶端點(diǎn),因此我們應(yīng)該對(duì)非故意傷害進(jìn)行細(xì)致入微的辯論。
我同意,目前最好的選擇是公開、快速地發(fā)布現(xiàn)有模型,讓更多科學(xué)家、監(jiān)管機(jī)構(gòu)和社區(qū)參與進(jìn)來(lái)。我們需要在開源中擁有最先進(jìn)或接近最先進(jìn)的模型,以了解技術(shù)的發(fā)展,然后如果出現(xiàn)新興威脅,我們可以快速應(yīng)對(duì)。
Llama 3.1 許可證是否支持開源 AI ?
在發(fā)布材料中,特別是模型卡片和論文中,Meta繼續(xù)沿用 AI 領(lǐng)域的開源行業(yè)標(biāo)準(zhǔn)。從扎克伯格開始,Llama 3.1 被宣揚(yáng)為“開源 AI”的領(lǐng)先戰(zhàn)略,而 Meta 參與的機(jī)構(gòu)工作組正在討論開源 AI 的真正定義。Llama 3.1 的發(fā)布不符合任何提議的開源 AI 定義,主要在數(shù)據(jù)這一步上失敗。Meta 的發(fā)布文件中提到數(shù)據(jù)是“公開可用的”,但沒有給出明確定義或文檔。同時(shí),Scale AI 的 CEO 在推特上表示,Llama 3.1 是他們數(shù)據(jù)代工業(yè)務(wù)中的一個(gè)重要合作項(xiàng)目。
Llama 3.1 的更細(xì)微組件及其對(duì)開源生態(tài)系統(tǒng)的潛在支持是通過其許可證實(shí)現(xiàn)的。Llama 3.1 將成為大多數(shù)人的默認(rèn)模型,但許可證決定了更多組織和小公司如何能夠加入開源前沿模型的運(yùn)動(dòng)。
定制許可協(xié)議是頂級(jí) AI 實(shí)驗(yàn)室發(fā)布新開源模型的決定性因素,通過 Llama 3.1,Meta 完善了其AI 的開源戰(zhàn)略。Llama 3.1 許可證是對(duì)相當(dāng)嚴(yán)格的,Llama 3 許可證的修改,保留了其大部分關(guān)于商業(yè)用途限制、命名限制和法律填充(責(zé)任、定義、條款等)的核心條款。Llama 3.1 許可證的主要變化是圍繞輸出訓(xùn)練(用于合成數(shù)據(jù))和下游命名的條款。
1、用戶現(xiàn)在可以使用 Llama 模型的輸出來(lái)訓(xùn)練其他模型。在之前的許可版本中,用戶只能訓(xùn)練 Llama 模型。
2、用戶仍然必須將他們的下游模型命名為“Llama-{你的模型名}”,這與之前的“Llama-3-{xyz}”有些許變化。
值得注意的是,即使我們可以在輸出上訓(xùn)練模型,但得到的結(jié)果會(huì)被納入 Meta 的開源戰(zhàn)略中。
Meta 盡最大努力將開源語(yǔ)言建模社區(qū)的所有工作吸收到其Llama 品牌中。憑借這些模型的評(píng)估分?jǐn)?shù)優(yōu)勢(shì),使用 Llama 3.1 Instruct 405B 進(jìn)行合成數(shù)據(jù)訓(xùn)練將比大多數(shù)實(shí)驗(yàn)室使用 API 便宜得多,而從 8B 或70B 模型中進(jìn)行微調(diào)將成為大多數(shù)學(xué)術(shù)界的核心基準(zhǔn)和起點(diǎn)。
原始 Llama 3 許可證的條款并沒有意義,因?yàn)樗鼈冊(cè)诰裆显噲D推廣 Llama 品牌,但卻限制了合成數(shù)據(jù)分發(fā)的主要方法之一。
在開源 AI 的背景下,大多數(shù)發(fā)布模型的公司會(huì)遵守這些規(guī)則——名稱更改不值得承擔(dān)法律風(fēng)險(xiǎn)。大多數(shù)在開源 AI 模型之上構(gòu)建的公司不會(huì)公開發(fā)布它們的模型,因此命名和衍生許可成為無(wú)關(guān)因素。
在某種程度上,這感覺像是法律困境中的小弟弟,類似于我們是否可以根據(jù) OpenAI 的服務(wù)條款在其輸出上進(jìn)行訓(xùn)練的問題。社區(qū)在早期的開放微調(diào)項(xiàng)目中接受了訓(xùn)練輸出的做法。許多公司這樣做了,唯一面臨審查的是中國(guó)公司 ByteDance。Meta 會(huì)以同樣寬容的方式對(duì)待其許可證條款嗎?誰(shuí)會(huì)冒險(xiǎn)去發(fā)現(xiàn)答案?
大多數(shù)公司會(huì)嘗試遵守規(guī)定,但在線訓(xùn)練合成模型的個(gè)人將把這視為自由使用 Llama 3.1 輸出來(lái)訓(xùn)練開放模型的許可。鑒于這些許可證文件的格式極其奇怪,其合法性受到質(zhì)疑(例如,讓用戶擁有輸出,然后對(duì)他們命名數(shù)據(jù)集進(jìn)行限制,這有什么意義?),Llama 3 許可證的增量比當(dāng)前版本的文本更有說(shuō)服力。
存在許多微妙的方式來(lái)繞過命名規(guī)則,但意圖很明確——Meta 希望 Llama 品牌盡可能觸及開源生態(tài)系統(tǒng)的各個(gè)方面。在這一點(diǎn)上,Meta 應(yīng)該進(jìn)一步將其 meta.ai 界面更名為 llama.ai。
使用此模型時(shí)需要注意的其他條款包括:
1.任何衍生產(chǎn)物,包括模型和數(shù)據(jù)集,都必須附帶Llama 3.1 許可證進(jìn)行分發(fā)。
2.在發(fā)布時(shí),擁有超過 7 億活躍用戶的公司不能使用該模型。
這項(xiàng)新許可證使 Llama 模型在實(shí)現(xiàn) Meta 的焦土策略(scorched earth strategy)方面更進(jìn)一步。至此,如果你希望避免任何許可證限制,Nemotron 340B 仍然是合成數(shù)據(jù)的最佳模型。如果 Meta 想要定義開源 AI 并成為實(shí)現(xiàn)這一目標(biāo)的平臺(tái)(無(wú)論他們是否處于正確的技術(shù)層級(jí)),那么這一許可證的做法并沒有以一種讓其他實(shí)體能夠接受的方式來(lái)定義開源 AI。
Llama 3 許可證可能由于社區(qū)的反對(duì)而被削弱,所以我們將拭目以待未來(lái)的許可證能取得多大的進(jìn)展。為了成為“真正的開源”,該模型可能需要更多關(guān)于數(shù)據(jù)的細(xì)節(jié),并移除對(duì)允許使用類型的限制(這是開源軟件歷史上的一場(chǎng)漫長(zhǎng)斗爭(zhēng))。Llama 3.1 許可證更接近于免費(fèi)軟件,而非開源軟件。
前沿模型監(jiān)管的不同未來(lái)
在 Llama 3.1 發(fā)布的同一天,五名民主黨參議員致信向 Sam Altman 和 OpenAI ,要求提前了解未來(lái)基礎(chǔ)模型的發(fā)布計(jì)劃(原文來(lái)源《華盛頓郵報(bào)》)。這封信的發(fā)出,正值 Claude 3.5 Sonnet 發(fā)布之際,Anthropic 詳細(xì)說(shuō)明了他們?cè)诎l(fā)布前與英國(guó) AI 安全研究所進(jìn)行了檢查。而 Meta 雖然在內(nèi)部努力緩解“關(guān)鍵風(fēng)險(xiǎn)”,但并未提及主權(quán)實(shí)體的參與——他們只是“遵循”已經(jīng)制定的規(guī)定。在他們關(guān)于 Llama 3.1 負(fù)責(zé)任開發(fā)的公告中寫道:
“我們密切關(guān)注全球各國(guó)政府在定義 AI 安全方面的努力。Meta 支持新的安全機(jī)構(gòu),并與美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所 (NIST) 和 ML Commons 等知名機(jī)構(gòu)合作,推動(dòng)制定共同的定義、威脅模型和評(píng)估。我們與前沿模型論壇 (FMF) 和人工智能伙伴關(guān)系 (PAI) 等機(jī)構(gòu)合作,尋求制定共同的定義和最佳實(shí)踐,同時(shí)與民間社會(huì)和學(xué)術(shù)界進(jìn)行互動(dòng),幫助我們制定方法。在此次發(fā)布中,我們繼續(xù)在公共安全和關(guān)鍵基礎(chǔ)設(shè)施領(lǐng)域(包括網(wǎng)絡(luò)安全、災(zāi)難性風(fēng)險(xiǎn)和兒童安全)對(duì)我們的模型進(jìn)行評(píng)估和紅隊(duì)測(cè)試?!?/p>
我相信扎克伯格所說(shuō)的公司應(yīng)該公開合作并與政府合作(引用自與 Rowan Cheung 的采訪)——與許多其他大型科技公司(例如特斯拉和蘋果)相比,他在支持美國(guó)價(jià)值觀方面的記錄更為良好。雖然許多人可能會(huì)認(rèn)為他可以做得更多,特別是考慮到平臺(tái)為盈利而接受政治言論的情況,但 AI 正在引發(fā)一場(chǎng)新的討論,超越了單純的內(nèi)容問題。
Meta 采取這種立場(chǎng)將有助于平衡關(guān)于美國(guó)未來(lái) AI 生態(tài)系統(tǒng)的應(yīng)該是什么樣子的討論和游說(shuō)努力。開源模型將使更多人有機(jī)會(huì)參與其中,深入理解這些模型的能力。
與此同時(shí),GPT-5 即將問世,扎克伯格暗示 Llama 4 的架構(gòu)即將發(fā)生變化,更不用說(shuō)即將到來(lái)的多模態(tài) Llama 3。鑒于不確定性和進(jìn)展的速度,我們需要讓更多的利益相關(guān)者參與到這一過程中,而不僅僅是最大公司的代表。有些人認(rèn)為,OpenAI 已經(jīng)感受到這次發(fā)布帶來(lái)的產(chǎn)品壓力,推出了其小型模型 GPT-4o 的新免費(fèi)微調(diào)功能。
目前,我們祝賀 Meta 成為前沿模型實(shí)驗(yàn)室的成員,加入了 OpenAI、Anthropic 和Google 的行列,這是一項(xiàng)巨大的努力。但在不久的將來(lái),他們截然不同的戰(zhàn)略將重新點(diǎn)燃 2022 年和 2023 年關(guān)于 AI 應(yīng)如何處理的辯論。
本文轉(zhuǎn)載自 ??MoPaaS魔泊云??,作者: NATHAN LAMBERT
