自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最強(qiáng)模型Llama 3.1 405B正式發(fā)布,扎克伯格:開(kāi)源引領(lǐng)新時(shí)代 精華

發(fā)布于 2024-7-24 09:43
瀏覽
0收藏

剛剛,大家期待已久的 Llama 3.1 官方正式發(fā)布了!


Meta 官方發(fā)出了「開(kāi)源引領(lǐng)新時(shí)代」的聲音。


最強(qiáng)模型Llama 3.1 405B正式發(fā)布,扎克伯格:開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)


在官方博客中,Meta 表示:「直到今天,開(kāi)源大語(yǔ)言模型在功能和性能方面大多落后于封閉模型。現(xiàn)在,我們正在迎來(lái)一個(gè)開(kāi)源引領(lǐng)的新時(shí)代。我們公開(kāi)發(fā)布 Meta Llama 3.1 405B,我們認(rèn)為這是世界上最大、功能最強(qiáng)大的開(kāi)源基礎(chǔ)模型。迄今為止,所有 Llama 版本的總下載量已超過(guò) 3 億次,我們才剛剛開(kāi)始?!?/p>


Meta 創(chuàng)始人、CEO 扎克伯格也親自寫(xiě)了篇長(zhǎng)文《Open Source AI Is the Path Forward》,闡述為什么開(kāi)源對(duì)所有開(kāi)發(fā)者、對(duì) Meta、對(duì)世界都是好事。


最強(qiáng)模型Llama 3.1 405B正式發(fā)布,扎克伯格:開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)


此次發(fā)布的要點(diǎn)包括:


  • 最新的系列模型將上下文長(zhǎng)度擴(kuò)展到了 128K、增加了對(duì)八種語(yǔ)言的支持,并包括頂級(jí)開(kāi)源模型 Llama 3.1 405B;
  • Llama 3.1 405B 獨(dú)樹(shù)一幟,Meta 官方稱其可與最好的閉源模型相媲美;
  • 此次發(fā)布還提供了更多與模型配合使用的組件(包括參考系統(tǒng))來(lái)將 Llama 打造為一個(gè)系統(tǒng);
  • 用戶通過(guò) WhatsApp 和 meta.ai 就可以體驗(yàn) Llama 3.1 405B 了。


最強(qiáng)模型Llama 3.1 405B正式發(fā)布,扎克伯格:開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)


地址:https://llama.meta.com/


各位網(wǎng)友可以下載嘗鮮了。


Llama 3.1 介紹


Llama 3.1 405B 是首個(gè)公開(kāi)可用的模型,在常識(shí)、可操縱性、數(shù)學(xué)、工具使用和多語(yǔ)言翻譯等方面可與頂級(jí) AI 模型相媲美。


Meta 表示最新一代的 Llama 將激發(fā)新的應(yīng)用程序和建模范式,包括利用合成數(shù)據(jù)生成來(lái)提升和訓(xùn)練更小的模型,以及模型蒸餾 —— 這是一種在開(kāi)源領(lǐng)域從未達(dá)到的能力。


與此同時(shí),Meta 還推出了 8B 和 70B 模型的升級(jí)版本,支持多種語(yǔ)言,上下文長(zhǎng)度達(dá)到 128K,推理能力也更強(qiáng)。最新模型支持高級(jí)用例,例如長(zhǎng)篇文本摘要、多語(yǔ)言對(duì)話智能體和編碼助手。


舉例來(lái)說(shuō),Llama 3.1 可以將故事翻譯成西班牙語(yǔ):


最強(qiáng)模型Llama 3.1 405B正式發(fā)布,扎克伯格:開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)


當(dāng)用戶提問(wèn)「有 3 件襯衫、5 條短褲和 1 條連衣裙,假如要旅行 10 天。準(zhǔn)備的衣服夠不夠?」模型能夠快速的進(jìn)行推理。


最強(qiáng)模型Llama 3.1 405B正式發(fā)布,扎克伯格:開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)


長(zhǎng)上下文:對(duì)于上傳的文檔,Llama 3.1 能夠分析和總結(jié)最多 8k token 的大型文檔。


最強(qiáng)模型Llama 3.1 405B正式發(fā)布,扎克伯格:開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)


編碼助手,對(duì)于用戶要求,可以快速編寫(xiě)代碼:


最強(qiáng)模型Llama 3.1 405B正式發(fā)布,扎克伯格:開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)


此外,Llama 3.1 405B 的開(kāi)發(fā)者還發(fā)推文「劇透」,表示開(kāi)發(fā) GPT-4o 一樣集成語(yǔ)音和視覺(jué)能力的模型還在開(kāi)發(fā)中。


最強(qiáng)模型Llama 3.1 405B正式發(fā)布,扎克伯格:開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)


Meta 還對(duì)開(kāi)源協(xié)議進(jìn)行了更改,允許開(kāi)發(fā)人員使用 Llama 模型(包括 405B)的輸出來(lái)改進(jìn)其他模型。此外,為了兌現(xiàn)開(kāi)源承諾,從今天開(kāi)始,Meta 將這些模型提供給社區(qū),用戶可以在 llama.meta.com 和 Hugging Face 上下載。


下載地址:



模型評(píng)估


Meta 在超過(guò) 150 個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了評(píng)估,此外,他們還進(jìn)行了廣泛的人類評(píng)估。


實(shí)驗(yàn)結(jié)果表明,旗艦?zāi)P?Llama 3.1 405B 在一系列任務(wù)中與領(lǐng)先的基礎(chǔ)模型包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 具有競(jìng)爭(zhēng)力。此外,8B 和 70B 小型模型與具有相似數(shù)量參數(shù)的閉源和開(kāi)源模型具有競(jìng)爭(zhēng)力。


最強(qiáng)模型Llama 3.1 405B正式發(fā)布,扎克伯格:開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)


最強(qiáng)模型Llama 3.1 405B正式發(fā)布,扎克伯格:開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)


最強(qiáng)模型Llama 3.1 405B正式發(fā)布,扎克伯格:開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)


模型架構(gòu)


作為 Meta 迄今為止最大的模型,使用超過(guò) 15 萬(wàn)億個(gè) token 訓(xùn)練 Llama 3.1 405B 是一項(xiàng)重大挑戰(zhàn)。為了實(shí)現(xiàn)這種規(guī)模的訓(xùn)練,Meta 優(yōu)化了整個(gè)訓(xùn)練堆棧,并在超過(guò) 16,000 個(gè) H100 GPU 上訓(xùn)練,使該模型成為第一個(gè)在此規(guī)模上訓(xùn)練的 Llama 模型。


最強(qiáng)模型Llama 3.1 405B正式發(fā)布,扎克伯格:開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)


為了解決這個(gè)問(wèn)題,Meta 在設(shè)計(jì)上做出了以下一些選擇,重點(diǎn)保持模型開(kāi)發(fā)過(guò)程的可擴(kuò)展性和簡(jiǎn)單性。


  • 選擇了僅進(jìn)行少量調(diào)整的標(biāo)準(zhǔn)解碼器 Transformer 模型架構(gòu),而不是混合專家模型,以最大限度地提高訓(xùn)練穩(wěn)定性。
  • 采用迭代后訓(xùn)練程序,每輪都使用監(jiān)督微調(diào)和直接偏好優(yōu)化。這使 Meta 能夠?yàn)槊枯唲?chuàng)建最高質(zhì)量的合成數(shù)據(jù),并提高每項(xiàng)功能的性能。


與之前版本的 Llama 相比,Meta 提高了用于預(yù)訓(xùn)練和后訓(xùn)練的數(shù)據(jù)數(shù)量和質(zhì)量,如為預(yù)訓(xùn)練數(shù)據(jù)開(kāi)發(fā)更仔細(xì)的預(yù)處理和管理管道,為后訓(xùn)練數(shù)據(jù)開(kāi)發(fā)更嚴(yán)格的質(zhì)量保證與過(guò)濾方法。


正如語(yǔ)言模型 scaling laws 所預(yù)期的那樣,Meta 新旗艦?zāi)P蛢?yōu)于使用相同程序訓(xùn)練的較小模型。Meta 還使用 405B 參數(shù)模型來(lái)提高較小模型的后訓(xùn)練質(zhì)量。


為了支持 405B 模型的大規(guī)模推理產(chǎn)出,Meta 將模型從 16 比特 (BF16) 量化為 8 比特 (FP8) ,有效降低了所需的計(jì)算要求,并允許模型在單個(gè)服務(wù)器節(jié)點(diǎn)運(yùn)行。


指令和聊天微調(diào)


Llama 3.1 405B 努力提高模型響應(yīng)用戶指令的實(shí)用性、質(zhì)量和詳細(xì)指令遵循能力,同時(shí)確保高水平的安全性。


在后訓(xùn)練階段,研究團(tuán)隊(duì)通過(guò)在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行幾輪對(duì)齊來(lái)構(gòu)建最終的聊天模型。每輪都涉及監(jiān)督微調(diào)(SFT)、拒絕采樣(RS)和直接偏好優(yōu)化(DPO)。


研究團(tuán)隊(duì)使用合成數(shù)據(jù)生成來(lái)產(chǎn)生絕大多數(shù) SFT 示例,并多次迭代以在所有功能上生成越來(lái)越高質(zhì)量的合成數(shù)據(jù)。此外,研究團(tuán)隊(duì)還采用了多種數(shù)據(jù)處理技術(shù),以過(guò)濾這些合成數(shù)據(jù),達(dá)到最高質(zhì)量,并可以跨功能擴(kuò)展微調(diào)數(shù)據(jù)量。


Llama 系統(tǒng)


Llama 模型一直是作為 AI 系統(tǒng)的一部分而存在的,可以協(xié)調(diào)多個(gè)組件,包括調(diào)用外部工具。Meta 旨在超越基礎(chǔ)模型,讓開(kāi)發(fā)人員能夠靈活地設(shè)計(jì)和創(chuàng)建符合其愿景的定制產(chǎn)品。


為了在模型層之外負(fù)責(zé)任地開(kāi)發(fā)人工智能,Meta 發(fā)布了一個(gè)完整的參考系統(tǒng),其中包括多個(gè)示例應(yīng)用程序以及新組件,例如 Llama Guard 3(一種多語(yǔ)言安全模型)和 Prompt Guard(一個(gè) prompt 注入過(guò)濾器)。這些示例應(yīng)用程序是開(kāi)源的,可以由開(kāi)源社區(qū)構(gòu)建。


為了與行業(yè)、初創(chuàng)公司和開(kāi)源社區(qū)進(jìn)行更廣泛的合作,幫助更好地定義組件的接口,Meta 在 GitHub 上發(fā)布了針對(duì)「Llama Stack」的評(píng)論請(qǐng)求。Llama Stack 是一組標(biāo)準(zhǔn)化接口,用于構(gòu)建規(guī)范的工具鏈組件(微調(diào)、合成數(shù)據(jù)生成)和智能體應(yīng)用程序。這有助于更輕松地實(shí)現(xiàn)互操作性。


,時(shí)長(zhǎng)01:10



與封閉模型不同,Llama 模型權(quán)重可供下載。開(kāi)發(fā)人員可以根據(jù)自己的需求和應(yīng)用程序完全定制模型,在新數(shù)據(jù)集上進(jìn)行訓(xùn)練,并進(jìn)行額外的微調(diào)。


使用 Llama 3.1 405B 進(jìn)行開(kāi)發(fā)


對(duì)于普通開(kāi)發(fā)者來(lái)說(shuō),部署 405B 這樣大規(guī)模的模型無(wú)疑是一項(xiàng)挑戰(zhàn),它需要大量的計(jì)算資源和專業(yè)技能。在與開(kāi)發(fā)者社區(qū)的交流中,Meta 意識(shí)到,生成式 AI 的開(kāi)發(fā)不僅僅是給模型輸入 prompt。他們期望所有開(kāi)發(fā)者都能在以下領(lǐng)域充分開(kāi)發(fā) Llama 3.1 405B 的潛力:


  • 實(shí)時(shí)和批量推理
  • 監(jiān)督式微調(diào)
  • 測(cè)試和評(píng)估模型在特定應(yīng)用中的性能
  • 持續(xù)預(yù)訓(xùn)練
  • 檢索增強(qiáng)生成(RAG)
  • 函數(shù)調(diào)用
  • 合成數(shù)據(jù)生成


發(fā)布即日起,Llama 3.1 405B 模型的所有高級(jí)功能都將開(kāi)放,開(kāi)發(fā)者們可以即刻上手。開(kāi)發(fā)者們還可以探索更高階的工作流,例如基于模型蒸餾的合成數(shù)據(jù)生成。這次升級(jí),Meta 還無(wú)縫集成了合作伙伴 AWS、NVIDIA 和 Databricks 提供的解決方案,以實(shí)現(xiàn)更高效的檢索增強(qiáng)生成(RAG)。此外,Groq 已經(jīng)為在云端部署模型進(jìn)行了低延遲推理的優(yōu)化,也對(duì)本地系統(tǒng)進(jìn)行了類似的性能提升。 


Meta 這次還為 Llama 3.1 405B 內(nèi)置了「工具大禮包」,內(nèi)含 vLLM、TensorRT 和 PyTorch 等關(guān)鍵項(xiàng)目,從模型開(kāi)發(fā)到部署「開(kāi)箱即用」,一步到位。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/QUWumWsTF_Qq77tdlyCHdg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦