開源=最強(qiáng)大模型!Llama3.1發(fā)布,405B超越閉源GPT-4o,扎克伯格:分水嶺時刻
剛剛,LIama 3.1正式發(fā)布,登上大模型王座!
在150多個基準(zhǔn)測試集中,405B版本的表現(xiàn)追平甚至超越了現(xiàn)有SOTA模型GPT-4o和Claude 3.5 Sonnet。
也就是說,這次,最強(qiáng)開源模型即最強(qiáng)模型。
在此之前,Llama 3.1已經(jīng)被多番曝光泄露,如今可以說千呼萬喚始出來。
從今天開始,模型即可在官網(wǎng)上下載使用,Meta AI應(yīng)用可在線試玩。
更令研究社區(qū)贊賞的是發(fā)布近100頁詳細(xì)論文,涵蓋了創(chuàng)造Llama 3.1過程中的一切:預(yù)訓(xùn)練數(shù)據(jù)、過濾、退火、合成數(shù)據(jù)、縮放定律、基礎(chǔ)設(shè)施、并行性、訓(xùn)練配方、訓(xùn)練后適應(yīng)、工具使用、基準(zhǔn)測試、推理策略、量化、視覺、語音、視頻……
HuggingFace首席科學(xué)家贊嘆:如果你是從零開始研究大模型,就從這篇論文讀起。
小扎扎克伯格還在最新接受彭博社采訪時專門嘲諷了一把OpenAI。
奧特曼的領(lǐng)導(dǎo)能力值得稱贊,但有點(diǎn)諷刺的是公司名為OpenAI卻成為構(gòu)建封閉式人工智能模型的領(lǐng)導(dǎo)者。
小扎還專門為此撰寫了一篇長文:開源AI是前進(jìn)的道路。
以往,開源模型在性能、功能等方面大多落后于閉源模型,但現(xiàn)在:
就像開源的Linux在一眾閉源系統(tǒng)中脫穎而出獲得普及,并逐漸變得更先進(jìn)、更安全,擁有比閉源系統(tǒng)更廣泛的生態(tài)。
我相信Llama 3.1將成為行業(yè)的一個轉(zhuǎn)折點(diǎn)。
迄今為止,所有Llama 版本的總下載量已超過 3 億次,Meta也是放下豪言:
這僅僅是個開始。
各大云廠商也在第一時間上線了的Llama 3.1的支持,價格是醬嬸的:
LIama 3.1官方正式發(fā)布
首先來看模型能力。
Llama 3.1將上下文長度擴(kuò)展到 128K、增加了對八種語言的支持。
其中超大杯405B版本,在常識、可操縱性、數(shù)學(xué)、工具使用和多語言翻譯等能力方面都追平、超越了現(xiàn)有頂尖模型。
除此之外,也推出了8B和70B模型的升級版本,能力與同等參數(shù)下的頂尖模型基本持平。
再來看模型架構(gòu)。
官方介紹,要在超15萬億個token上訓(xùn)練 Llama 3.1 405B模型挑戰(zhàn)不小。
為此他們大幅優(yōu)化了整個訓(xùn)練棧,并把模型算力規(guī)模首次擴(kuò)展到了超過16000個H100 GPU。
具體來說,還是采用標(biāo)準(zhǔn)的僅解碼器的Transformer架構(gòu),并做一些細(xì)微改動;并采用迭代的post-traing流程,每輪都有SFT(監(jiān)督微調(diào))和DPO(直接偏好優(yōu)化),以提高每個能力的性能。
與Llama以前的版本相比,他們提高了用于預(yù)訓(xùn)練和post-training數(shù)據(jù)的數(shù)量和質(zhì)量。
而為了支持405B這樣尺寸模型的大規(guī)模生產(chǎn)推理,Meta將模型從16位(BF16)量化到8位(FP8)數(shù)值,有效地降低了所需的計算需求,并允許模型在單個服務(wù)器節(jié)點(diǎn)內(nèi)運(yùn)行。
在指令微調(diào)方面,Meta還提高了模型對用戶指令的響應(yīng)能力、增強(qiáng)了它遵循詳細(xì)指令的能力,同時保證安全性。
在post-training階段,Meta在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行多輪對齊。
每一輪都包括監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)、拒絕采樣(Rejection Sampling, RS)和直接偏好優(yōu)化(Direct Preference Optimization, DPO)。
他們使用合成數(shù)據(jù)生成來絕大部分SFT示例,并數(shù)次迭代。
此外,還采用了多種數(shù)據(jù)處理技術(shù)來將這些合成數(shù)據(jù)過濾到最高質(zhì)量。
總計15T tokens使用Llama 2模型做清理和過濾,而代碼和數(shù)學(xué)相關(guān)的數(shù)據(jù)處理流水線則主要借鑒了Deepseek的方法。
除了最基本的根據(jù)提示詞響應(yīng),Meta官方表示,任何普通開發(fā)者可以用它做些高級的事情,比如:
- 實(shí)時和批量推理
- 監(jiān)督微調(diào)
- 針對特定應(yīng)用評估模型
- 持續(xù)預(yù)訓(xùn)練
- 檢索增強(qiáng)生成 (RAG)
- 函數(shù)調(diào)用
- 合成數(shù)據(jù)生成
而這背后也是由它的強(qiáng)大生態(tài)伙伴支持。
小扎撰寫長文:開源AI是前進(jìn)的道路
(以下由大模型翻譯,摘取主體內(nèi)容,如有遺漏錯誤歡迎更正?。?/span>
在高性能計算的早期,當(dāng)時的大型科技公司都投入巨資開發(fā)各自閉源的Unix版本。那時,很難想象除了閉源之外,還有其他途徑能夠孕育出如此先進(jìn)的軟件。然而,開源的Linux操作系統(tǒng)最終贏得了廣泛的歡迎——最初是因?yàn)樗试S開發(fā)者自由地修改代碼,成本也更加低廉;隨著時間的流逝,Linux不僅變得更加先進(jìn)和安全,而且構(gòu)建了一個比任何閉源Unix系統(tǒng)都要廣泛的生態(tài)系統(tǒng),支持更多的功能。如今,Linux已成為云計算和大多數(shù)移動設(shè)備操作系統(tǒng)的行業(yè)標(biāo)準(zhǔn)基礎(chǔ),我們所有人都因此享受到了更優(yōu)質(zhì)的產(chǎn)品。
我相信人工智能將以類似的方式發(fā)展。今天,幾家科技公司正在開發(fā)領(lǐng)先的閉源模型。但開源正在迅速縮小差距。去年,Llama 2只能與落后一代的模型相媲美。今年,Llama 3與最先進(jìn)的模型競爭,并在某些領(lǐng)域領(lǐng)先。從明年開始,我們預(yù)計未來的Llama模型將成為行業(yè)中最先進(jìn)的。但即使在那之前,Llama已經(jīng)在開放性、可修改性和成本效率方面領(lǐng)先。
今天,我們正在朝著“開源人工智能成為行業(yè)標(biāo)準(zhǔn)”的方向邁進(jìn)。我們發(fā)布了Llama 3.1 405B,這是第一個前沿級別的開源人工智能模型,以及改進(jìn)版Llama 3.1 70B和8B模型。除了與閉源模型相比具有顯著更好的成本/性能比之外,405B模型的開放性將使其成為微調(diào)和蒸餾更小模型的最佳選擇。
除了發(fā)布這些模型外,我們正與一系列公司合作,以發(fā)展更廣泛的生態(tài)系統(tǒng)。亞馬遜、Databricks和英偉達(dá)正在推出一整套服務(wù),支持開發(fā)者微調(diào)和蒸餾自己的模型。像Groq這樣的創(chuàng)新者已經(jīng)為所有新模型構(gòu)建了低延遲、低成本的推理服務(wù)。這些模型將在所有主要云平臺上提供,包括AWS、Azure、Google、Oracle等。像Scale.AI、Dell、德勤等公司已準(zhǔn)備好幫助企業(yè)采用Llama,并用他們自己的數(shù)據(jù)訓(xùn)練定制模型。隨著社區(qū)的增長和更多公司開發(fā)新服務(wù),我們可以共同使Llama成為行業(yè)標(biāo)準(zhǔn),將AI的好處帶給每個人。
Meta致力于開源人工智能。我將概述為什么我認(rèn)為開源是最好的開發(fā)堆棧,為什么開源Llama對Meta有好處,以及為什么開源人工智能對世界有好處,因此是一個長期可持續(xù)的平臺。
為什么開源人工智能對開發(fā)者有好處
當(dāng)我與世界各地的開發(fā)者、首席執(zhí)行官和官員交談時,我通常會聽到幾個主題:
- 我們需要訓(xùn)練、微調(diào)和蒸餾我們自己的模型。。每個組織都有其獨(dú)特的需求,最適合的是使用不同規(guī)模的模型,這些模型可以根據(jù)他們特定的數(shù)據(jù)進(jìn)行訓(xùn)練或微調(diào)。對于設(shè)備上的任務(wù)和分類任務(wù),小模型足矣;而對于更復(fù)雜的任務(wù),則需要大模型?,F(xiàn)在,你可以利用最先進(jìn)的Llama模型,用你自己的數(shù)據(jù)繼續(xù)訓(xùn)練它們,然后將它們蒸餾成一個最適合你需要的模型尺寸——而無需讓我們或任何其他人看到你的數(shù)據(jù)。
- 我們需要控制自己的命運(yùn),不要被限制在閉源供應(yīng)商那里。許多組織不希望依賴他們無法自行運(yùn)行和控制的模型。他們不希望閉源模型提供者能夠更改模型、修改使用條款,甚至完全停止服務(wù)。他們也不想被限制在只有一個云平臺擁有模型獨(dú)家使用權(quán)。開源允許廣泛的公司生態(tài)系統(tǒng)擁有兼容的工具鏈,使你可以輕松地在它們之間遷移。
- 我們需要保護(hù)我們的數(shù)據(jù)安全。許多組織處理敏感數(shù)據(jù),需要加以保護(hù),不能通過閉源模型的云API發(fā)送。還有一些組織根本不信任閉源模型提供者處理他們的數(shù)據(jù)。開源通過允許你在任何地方運(yùn)行模型來解決這些問題。普遍認(rèn)為,開源軟件通常更安全,因?yàn)樗拈_發(fā)過程更加透明。
- 我們需要一個運(yùn)行效率高且負(fù)擔(dān)得起的模型。開發(fā)者可以在自己的基礎(chǔ)設(shè)施上,以大約使用閉源模型如GPT-4o一半的成本,運(yùn)行Llama 3.1 405B的推理,無論是面向用戶的還是離線推理任務(wù)。
- 我們希望投資于將成為長期標(biāo)準(zhǔn)的生態(tài)系統(tǒng)。許多人看到開源的發(fā)展速度比閉源模型快,他們希望建立他們的系統(tǒng)在將給他們帶來最大長期優(yōu)勢的架構(gòu)上。
為什么開源人工智能對Meta有好處
Meta的商業(yè)模式是為人們創(chuàng)造最佳的體驗(yàn)和服務(wù)。為此,我們必須確保始終能夠獲取最佳技術(shù),并且不會被鎖定在競爭對手的閉源生態(tài)系統(tǒng)中,從而限制了我們的創(chuàng)新能力。
我的一個重要經(jīng)歷是,由于蘋果對我們在其平臺上能夠構(gòu)建的內(nèi)容有所限制,我們的服務(wù)受到了制約。從他們對開發(fā)者征稅的方式,到他們隨意應(yīng)用的規(guī)則,再到他們阻止發(fā)布的所有產(chǎn)品創(chuàng)新,很明顯,如果我們能夠構(gòu)建產(chǎn)品的最佳版本,而競爭對手無法限制我們的創(chuàng)新,Meta和其他許多公司將能夠?yàn)槿藗兲峁└玫姆?wù)。從哲學(xué)上講,這是我堅信在人工智能和AR/VR中為下一代計算構(gòu)建開放生態(tài)系統(tǒng)的主要原因。
人們經(jīng)常問我是否擔(dān)心通過開源Llama放棄技術(shù)優(yōu)勢,但我認(rèn)為這忽略了大局,原因有幾個:
首先,為了確保我們能夠獲取最佳技術(shù),并且長期不會被鎖定在閉源生態(tài)系統(tǒng)中,Llama需要發(fā)展成為一個完整的工具生態(tài)系統(tǒng),包括效率提升、硅片優(yōu)化和其他集成。如果我們是唯一使用Llama的公司,這個生態(tài)系統(tǒng)就不會發(fā)展起來,我們的表現(xiàn)也不會比Unix的閉源版本更好。
其次,我預(yù)計人工智能的發(fā)展將繼續(xù)非常具有競爭力,這意味著開源任何特定模型并不會在當(dāng)時給予比下一個最佳模型更大的優(yōu)勢。Llama成為行業(yè)標(biāo)準(zhǔn)的道路是通過持續(xù)保持競爭力、效率和開放性,一代又一代地發(fā)展。
第三,Meta與閉源模型提供者的一個關(guān)鍵區(qū)別在于,出售對人工智能模型的訪問并不是我們的商業(yè)模式。這意味著公開發(fā)布Llama并不會削弱我們的收入、可持續(xù)性或研究投資能力,而這對于閉源提供者來說則不然。
最后,Meta有著長期的開源項(xiàng)目和成功的歷史。我們通過發(fā)布服務(wù)器、網(wǎng)絡(luò)和數(shù)據(jù)中心設(shè)計,并讓供應(yīng)鏈標(biāo)準(zhǔn)化我們的設(shè)計,通過Open Compute項(xiàng)目節(jié)省了數(shù)十億美元。我們通過開源諸如PyTorch、React等領(lǐng)先工具,從生態(tài)系統(tǒng)的創(chuàng)新中受益。長期堅持這種方法對我們始終有效。
為什么開源人工智能對世界有好處
我相信開源對于實(shí)現(xiàn)積極的人工智能未來至關(guān)重要。人工智能比任何其他現(xiàn)代技術(shù)都有更大的潛力來提升人類的生產(chǎn)力、創(chuàng)造力和生活質(zhì)量——并加速經(jīng)濟(jì)增長,同時推動醫(yī)學(xué)和科學(xué)研究的進(jìn)步。開源將確保全球更多的人能夠獲得人工智能的好處和機(jī)會,權(quán)力不會集中在少數(shù)公司手中,技術(shù)可以更均勻、更安全地在社會中部署。
關(guān)于開源人工智能模型的安全性正在進(jìn)行辯論,我的看法是開源人工智能將比替代方案更安全。
我理解安全框架是我們需要防范兩類傷害:無意的和故意的。無意的傷害是當(dāng)一個人工智能系統(tǒng)可能會造成傷害,即使運(yùn)行它的人沒有意圖這樣做。例如,現(xiàn)代人工智能模型可能會無意中給出不良的健康建議?;蛘撸诟呶磥砀械那榫爸?,一些人擔(dān)心模型可能會無意中自我復(fù)制或過度優(yōu)化目標(biāo),從而損害人類。故意傷害是當(dāng)一個不良行為者使用人工智能模型以達(dá)到造成傷害的目的。
值得注意的是,無意的傷害涵蓋了人們對人工智能的大多數(shù)擔(dān)憂——從人工智能系統(tǒng)將對數(shù)十億使用者產(chǎn)生什么影響,到對人類來說真正災(zāi)難性的科幻情景的大部分。在這方面,開源應(yīng)該更安全,因?yàn)橄到y(tǒng)更透明,可以廣泛審查。從歷史上看,開源軟件因此更安全。同樣,使用Llama及其安全系統(tǒng)如Llama Guard可能會比閉源模型更安全、更可靠。因此,關(guān)于開源人工智能安全性的大多數(shù)對話都集中在故意傷害上。
我們的安全流程包括嚴(yán)格的測試和紅隊(duì),以評估我們的模型是否有能力造成重大傷害,目標(biāo)是在發(fā)布前降低風(fēng)險。由于模型是開放的,任何人都可以自己測試。我們必須記住,這些模型是由已經(jīng)在網(wǎng)絡(luò)上的信息訓(xùn)練的,所以當(dāng)考慮傷害時,起點(diǎn)應(yīng)該是模型是否能促進(jìn)比從Google或其他搜索結(jié)果中快速檢索到的信息更多的傷害。
當(dāng)你考慮未來的機(jī)遇時,請記住,當(dāng)今大多數(shù)領(lǐng)先的科技公司和科學(xué)研究都是建立在開源軟件之上的。如果我們共同投資,下一代公司和研究將使用開源人工智能。
最重要的是,開源人工智能代表了世界上利用這項(xiàng)技術(shù)為每個人創(chuàng)造最大經(jīng)濟(jì)機(jī)會和安全的最佳機(jī)會。
讓我們一起建設(shè)
對于過去的 Llama 模型,Meta 是自己開發(fā)然后發(fā)布的,但并沒有過多關(guān)注構(gòu)建更廣泛的生態(tài)系統(tǒng)。這次發(fā)布我們采取了不同的方法。我們正在內(nèi)部組建團(tuán)隊(duì),讓盡可能多的開發(fā)人員和合作伙伴能夠使用 Llama,我們也在積極建立合作伙伴關(guān)系,以便生態(tài)系統(tǒng)中的更多公司也能為其客戶提供獨(dú)特的功能。
我相信 Llama 3.1 的發(fā)布將成為行業(yè)的一個轉(zhuǎn)折點(diǎn),大多數(shù)開發(fā)人員將開始主要使用開源,并且我預(yù)計這種方法只會從現(xiàn)在開始發(fā)展。我希望你能加入我們的旅程,將人工智能的好處帶給世界上的每個人。