Meta 開(kāi)源最強(qiáng)大模型Llama 3.1,參數(shù)多達(dá) 405B,超16000塊H100訓(xùn)練,燃燒數(shù)億經(jīng)費(fèi)!小扎:堅(jiān)定開(kāi)源不動(dòng)搖! 原創(chuàng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
GPT-4o mini 剛剛將人們的目光吸引到小模型的浪潮上。
而新王Meta直接開(kāi)大,開(kāi)源了自己4050億參數(shù)大模型,也是超越GPT-4o的最強(qiáng)模型。
與幾個(gè)月前推出的小型Llama 3模型相比,Llama 3.1復(fù)雜得多。4050億參數(shù)作為其最大的版本,使用超過(guò)16,000個(gè)Nvidia的高價(jià)H100 GPU進(jìn)行訓(xùn)練。Meta沒(méi)有透露開(kāi)發(fā)Llama 3.1的成本,但僅從Nvidia芯片的成本來(lái)看,可以推測(cè)其費(fèi)用達(dá)到數(shù)億美元。
不僅如此,小扎還在Meta官網(wǎng)上發(fā)表了《開(kāi)源是AI前進(jìn)道路》的長(zhǎng)文,他預(yù)測(cè)“從明年開(kāi)始,我們預(yù)計(jì)未來(lái)的Llama模型將成為行業(yè)中最先進(jìn)的模型”。
如果這個(gè)預(yù)言成真,我們就會(huì)迎來(lái)OpenAI追著Meta跑的新時(shí)代。
圖片
作為Meta向開(kāi)源標(biāo)桿邁進(jìn)的重要一步,Llama 3.1 405B是名副其實(shí)的強(qiáng)大,在一眾閉源前沿模型中完全不虛,拿到了多個(gè)任務(wù)的SOTA。
圖片
Github地址:
??https://github.com/meta-llama/llama-models??
huggingface地址:
??https://huggingface.co/meta-llama/Meta-Llama-3.1-8B/tree/main??
一、合成數(shù)據(jù)的勝利
Meta將Llama 3.1的4050億參數(shù)版本用于蒸餾較小的70億和8億參數(shù)版本,并表示訓(xùn)練中使用了大量的合成數(shù)據(jù),即由模型而非人類(lèi)生成的數(shù)據(jù)。
405B 模型采用了3種合成數(shù)據(jù)方法來(lái)提升自身的代碼能力,包括代碼執(zhí)行反饋、編程語(yǔ)言翻譯和文檔反向翻譯。
當(dāng)媒體采訪Meta是否同意業(yè)界關(guān)于訓(xùn)練模型的高質(zhì)量數(shù)據(jù)即將耗盡的共識(shí)時(shí),Meta生成AI副總裁艾哈邁德·阿爾-達(dá)勒暗示確實(shí)有一個(gè)上限,盡管可能比一些人想象的要遠(yuǎn)?!拔覀冋J(rèn)為我們還有幾個(gè)訓(xùn)練的機(jī)會(huì),”他說(shuō),“但很難確定?!?/p>
二、Llama生態(tài)進(jìn)一步擴(kuò)張
Meta更新了許可證,首次允許開(kāi)發(fā)人員使用包括405B參數(shù)規(guī)模的Llama模型的輸出來(lái)改進(jìn)其他模型。
在Meta公司博客上發(fā)布的一封信中,扎克伯格稱(chēng),開(kāi)源AI模型將超越——并且已經(jīng)比——專(zhuān)有模型發(fā)展得更快,類(lèi)似于Linux如何成為今天大多數(shù)手機(jī)、服務(wù)器和小工具的開(kāi)源操作系統(tǒng)。
扎克伯格將Meta對(duì)開(kāi)源AI的投資比作其早期的開(kāi)放計(jì)算項(xiàng)目,他說(shuō)該項(xiàng)目通過(guò)讓像惠普這樣的外部公司幫助改進(jìn)和標(biāo)準(zhǔn)化Meta的數(shù)據(jù)中心設(shè)計(jì),為公司節(jié)省了“數(shù)十億美元”。
展望未來(lái),他預(yù)計(jì)同樣的動(dòng)態(tài)將出現(xiàn)在AI領(lǐng)域,他寫(xiě)道:“我相信Llama 3.1的發(fā)布將成為行業(yè)的一個(gè)轉(zhuǎn)折點(diǎn),大多數(shù)開(kāi)發(fā)者將開(kāi)始主要使用開(kāi)源。”
為了幫助推廣Llama 3.1,Meta正在與包括微軟、亞馬遜、谷歌、Nvidia和Databricks在內(nèi)的兩打公司合作,幫助開(kāi)發(fā)者部署自己的版本。Meta聲稱(chēng),Llama 3.1在生產(chǎn)中的運(yùn)行成本約為OpenAI的GPT-4o的一半。它發(fā)布了模型權(quán)重,供公司使用定制數(shù)據(jù)進(jìn)行訓(xùn)練和調(diào)優(yōu)。
三、Meta自己還在蹚產(chǎn)品的路
走開(kāi)源路的Meta把壁壘瞄準(zhǔn)了產(chǎn)品,Llama的實(shí)現(xiàn)被規(guī)劃為AI助手。
小扎預(yù)測(cè),到今年年底,Meta AI將成為使用最廣泛的助手,超過(guò)ChatGPT。
Llama 3.1將會(huì)賦能給一系列Meta系應(yīng)用,從本周開(kāi)始,Llama 3.1將在美國(guó)首先通過(guò)WhatsApp和Meta AI網(wǎng)站提供。在接下來(lái)的幾周內(nèi),Instagram和Facebook上也將上線這些能力。模型還將支持新的語(yǔ)言,包括法語(yǔ)、德語(yǔ)、印地語(yǔ)、意大利語(yǔ)和西班牙語(yǔ)。
盡管Llama 3.1最先進(jìn)的4050億參數(shù)模型可免費(fèi)用于Meta AI,但在一周內(nèi)超過(guò)指定數(shù)量的提示后,助手將切換到更縮減的70億參數(shù)模型。這表明4050億參數(shù)模型在大規(guī)模運(yùn)行中對(duì)Meta來(lái)說(shuō)過(guò)于昂貴。
四、開(kāi)源到底:三方共贏的AI之路
每次Meta發(fā)布新模型時(shí),小扎都會(huì)再次重申自己的開(kāi)源信仰。
這次,在自己的長(zhǎng)文中,扎克伯格描述了一個(gè)開(kāi)發(fā)者、Meta以及世界三方共贏的開(kāi)源之路,詳盡描述了他為何會(huì)走開(kāi)源之路。以下節(jié)選了文中的重要觀點(diǎn):
1.開(kāi)源AI對(duì)開(kāi)發(fā)者有利
當(dāng)我與全球的開(kāi)發(fā)者、CEO和政府官員交談時(shí),通常會(huì)聽(tīng)到幾個(gè)主題:
我們需要訓(xùn)練、微調(diào)和蒸餾我們自己的模型。每個(gè)組織有不同的需求,這些需求最好由使用其特定數(shù)據(jù)訓(xùn)練或微調(diào)的不同規(guī)模的模型來(lái)滿(mǎn)足。設(shè)備上的任務(wù)和分類(lèi)任務(wù)需要小模型,而更復(fù)雜的任務(wù)需要大模型?,F(xiàn)在,你可以使用最先進(jìn)的Llama模型,繼續(xù)用自己的數(shù)據(jù)訓(xùn)練它們,然后將其蒸餾成最適合你的模型規(guī)模——而無(wú)需我們或其他任何人看到你的數(shù)據(jù)。
我們需要控制自己的命運(yùn),而不是被鎖定在一個(gè)閉源供應(yīng)商中。許多組織不希望依賴(lài)他們無(wú)法運(yùn)行和控制的模型。他們不希望閉源模型提供商能夠改變他們的模型、修改使用條款,甚至完全停止服務(wù)他們。他們也不希望被鎖定在擁有模型專(zhuān)有權(quán)的單一云上。開(kāi)源使得你可以輕松地在兼容的工具鏈公司之間移動(dòng)。
我們需要保護(hù)我們的數(shù)據(jù)。許多組織處理敏感數(shù)據(jù),需要確保這些數(shù)據(jù)的安全,不能通過(guò)云API發(fā)送到閉源模型。其他組織則根本不信任閉源模型提供商。開(kāi)源解決了這些問(wèn)題,因?yàn)槟憧梢栽谌魏文阆胍牡胤竭\(yùn)行模型。眾所周知,開(kāi)源軟件通常更安全,因?yàn)樗且愿该鞯姆绞介_(kāi)發(fā)的。
我們需要一個(gè)高效且經(jīng)濟(jì)實(shí)惠的模型。開(kāi)發(fā)者可以在自己的基礎(chǔ)設(shè)施上運(yùn)行Llama 3.1 405B進(jìn)行推理,其成本大約是使用閉源模型(如GPT-4o)的50%,無(wú)論是用戶(hù)界面還是離線推理任務(wù)。
我們希望投資于長(zhǎng)期標(biāo)準(zhǔn)的生態(tài)系統(tǒng)。很多人看到開(kāi)源的進(jìn)展速度比閉源模型更快,他們希望在能給他們帶來(lái)長(zhǎng)期優(yōu)勢(shì)的架構(gòu)上構(gòu)建系統(tǒng)。
2.開(kāi)源AI對(duì)Meta有利
人們經(jīng)常問(wèn)我是否擔(dān)心通過(guò)開(kāi)源Llama放棄技術(shù)優(yōu)勢(shì),但我認(rèn)為從幾個(gè)方面來(lái)看這忽略了大局:
首先,為了確保我們可以訪問(wèn)最好的技術(shù),并且不會(huì)在長(zhǎng)期內(nèi)被鎖定在閉源生態(tài)系統(tǒng)中,Llama需要發(fā)展成一個(gè)完整的生態(tài)系統(tǒng),包括工具、高效改進(jìn)、硅優(yōu)化和其他集成。如果只有我們一家公司使用Llama,這個(gè)生態(tài)系統(tǒng)就不會(huì)發(fā)展,我們也不會(huì)比閉源Unix的變體更好。
其次,我預(yù)計(jì)AI開(kāi)發(fā)將繼續(xù)非常具有競(jìng)爭(zhēng)性,這意味著開(kāi)源任何給定的模型并不會(huì)在某一時(shí)間點(diǎn)上給予下一個(gè)最好的模型一個(gè)巨大的優(yōu)勢(shì)。Llama成為行業(yè)標(biāo)準(zhǔn)的路徑是通過(guò)一代又一代地始終保持競(jìng)爭(zhēng)力、高效和開(kāi)放。
第三,Meta和閉源模型提供商之間的一個(gè)關(guān)鍵區(qū)別是,出售AI模型訪問(wèn)權(quán)不是我們的商業(yè)模式。這意味著公開(kāi)發(fā)布Llama不會(huì)像閉源提供商那樣削弱我們的收入、可持續(xù)性或研究投資能力。(這也是為什么一些閉源提供商一直在游說(shuō)政府反對(duì)開(kāi)源的原因之一。)
最后,Meta有著長(zhǎng)久的開(kāi)源項(xiàng)目和成功歷史。通過(guò)發(fā)布我們的服務(wù)器、網(wǎng)絡(luò)和數(shù)據(jù)中心設(shè)計(jì)到Open Compute Project并讓供應(yīng)鏈標(biāo)準(zhǔn)化我們的設(shè)計(jì),我們節(jié)省了數(shù)十億美元。通過(guò)開(kāi)源領(lǐng)先的工具(如PyTorch、React以及許多其他工具),我們也從生態(tài)系統(tǒng)的創(chuàng)新中受益。這種方法在我們長(zhǎng)期堅(jiān)持時(shí)一直對(duì)我們有效。
4.開(kāi)源AI對(duì)世界有利
我相信開(kāi)源是一個(gè)積極AI未來(lái)的必要條件。AI比任何其他現(xiàn)代技術(shù)都更有潛力提高人類(lèi)生產(chǎn)力、創(chuàng)造力和生活質(zhì)量——并在加速經(jīng)濟(jì)增長(zhǎng)的同時(shí)推動(dòng)醫(yī)學(xué)和科學(xué)研究的進(jìn)步。開(kāi)源將確保世界上更多的人能夠獲得AI的好處和機(jī)會(huì),權(quán)力不會(huì)集中在少數(shù)幾家公司手中,并且技術(shù)可以更均勻和安全地部署在整個(gè)社會(huì)中。
關(guān)于開(kāi)源AI模型的安全性存在持續(xù)的辯論,而我的觀點(diǎn)是開(kāi)源AI將比替代方案更安全。我認(rèn)為政府會(huì)得出這樣的結(jié)論,即支持開(kāi)源符合他們的利益,因?yàn)檫@將使世界更加繁榮和安全。
參考鏈接:1.https://www.theverge.com/2024/7/23/24204055/meta-ai-llama-3-1-open-source-assistant-openai-chatgpt
本文轉(zhuǎn)載自??51CTO技術(shù)棧??
