自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="udhfz"><i id="udhfz"><tr id="udhfz"></tr></i></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代精華

輕薄滴假象

發(fā)布于 2024-7-24 09:43

瀏覽

0收藏

剛剛，大家期待已久的 Llama 3.1 官方正式發(fā)布了！

Meta 官方發(fā)出了「開(kāi)源引領(lǐng)新時(shí)代」的聲音。

最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)

在官方博客中，Meta 表示：「直到今天，開(kāi)源大語(yǔ)言模型在功能和性能方面大多落后于封閉模型。現(xiàn)在，我們正在迎來(lái)一個(gè)開(kāi)源引領(lǐng)的新時(shí)代。我們公開(kāi)發(fā)布 Meta Llama 3.1 405B，我們認(rèn)為這是世界上最大、功能最強(qiáng)大的開(kāi)源基礎(chǔ)模型。迄今為止，所有 Llama 版本的總下載量已超過(guò) 3 億次，我們才剛剛開(kāi)始?！?/p>

Meta 創(chuàng)始人、CEO 扎克伯格也親自寫(xiě)了篇長(zhǎng)文《Open Source AI Is the Path Forward》，闡述為什么開(kāi)源對(duì)所有開(kāi)發(fā)者、對(duì) Meta、對(duì)世界都是好事。

最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)

此次發(fā)布的要點(diǎn)包括：

最新的系列模型將上下文長(zhǎng)度擴(kuò)展到了 128K、增加了對(duì)八種語(yǔ)言的支持，并包括頂級(jí)開(kāi)源模型 Llama 3.1 405B；
Llama 3.1 405B 獨(dú)樹(shù)一幟，Meta 官方稱其可與最好的閉源模型相媲美；
此次發(fā)布還提供了更多與模型配合使用的組件（包括參考系統(tǒng)）來(lái)將 Llama 打造為一個(gè)系統(tǒng)；
用戶通過(guò) WhatsApp 和 meta.ai 就可以體驗(yàn) Llama 3.1 405B 了。

最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)

地址：https://llama.meta.com/

各位網(wǎng)友可以下載嘗鮮了。

Llama 3.1 介紹

Llama 3.1 405B 是首個(gè)公開(kāi)可用的模型，在常識(shí)、可操縱性、數(shù)學(xué)、工具使用和多語(yǔ)言翻譯等方面可與頂級(jí) AI 模型相媲美。

Meta 表示最新一代的 Llama 將激發(fā)新的應(yīng)用程序和建模范式，包括利用合成數(shù)據(jù)生成來(lái)提升和訓(xùn)練更小的模型，以及模型蒸餾 —— 這是一種在開(kāi)源領(lǐng)域從未達(dá)到的能力。

與此同時(shí)，Meta 還推出了 8B 和 70B 模型的升級(jí)版本，支持多種語(yǔ)言，上下文長(zhǎng)度達(dá)到 128K，推理能力也更強(qiáng)。最新模型支持高級(jí)用例，例如長(zhǎng)篇文本摘要、多語(yǔ)言對(duì)話智能體和編碼助手。

舉例來(lái)說(shuō)，Llama 3.1 可以將故事翻譯成西班牙語(yǔ)：

最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)

當(dāng)用戶提問(wèn)「有 3 件襯衫、5 條短褲和 1 條連衣裙，假如要旅行 10 天。準(zhǔn)備的衣服夠不夠？」模型能夠快速的進(jìn)行推理。

最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)

長(zhǎng)上下文：對(duì)于上傳的文檔，Llama 3.1 能夠分析和總結(jié)最多 8k token 的大型文檔。

最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)

編碼助手，對(duì)于用戶要求，可以快速編寫(xiě)代碼：

最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)

此外，Llama 3.1 405B 的開(kāi)發(fā)者還發(fā)推文「劇透」，表示開(kāi)發(fā) GPT-4o 一樣集成語(yǔ)音和視覺(jué)能力的模型還在開(kāi)發(fā)中。

最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)

Meta 還對(duì)開(kāi)源協(xié)議進(jìn)行了更改，允許開(kāi)發(fā)人員使用 Llama 模型（包括 405B）的輸出來(lái)改進(jìn)其他模型。此外，為了兌現(xiàn)開(kāi)源承諾，從今天開(kāi)始，Meta 將這些模型提供給社區(qū)，用戶可以在 llama.meta.com 和 Hugging Face 上下載。

下載地址：

??https://huggingface.co/meta-llama??
??https://llama.meta.com/??

模型評(píng)估

Meta 在超過(guò) 150 個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了評(píng)估，此外，他們還進(jìn)行了廣泛的人類評(píng)估。

實(shí)驗(yàn)結(jié)果表明，旗艦?zāi)Ｐ?Llama 3.1 405B 在一系列任務(wù)中與領(lǐng)先的基礎(chǔ)模型包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 具有競(jìng)爭(zhēng)力。此外，8B 和 70B 小型模型與具有相似數(shù)量參數(shù)的閉源和開(kāi)源模型具有競(jìng)爭(zhēng)力。

最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)

最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)

最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)

模型架構(gòu)

作為 Meta 迄今為止最大的模型，使用超過(guò) 15 萬(wàn)億個(gè) token 訓(xùn)練 Llama 3.1 405B 是一項(xiàng)重大挑戰(zhàn)。為了實(shí)現(xiàn)這種規(guī)模的訓(xùn)練，Meta 優(yōu)化了整個(gè)訓(xùn)練堆棧，并在超過(guò) 16,000 個(gè) H100 GPU 上訓(xùn)練，使該模型成為第一個(gè)在此規(guī)模上訓(xùn)練的 Llama 模型。

最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代-AI.x社區(qū)

為了解決這個(gè)問(wèn)題，Meta 在設(shè)計(jì)上做出了以下一些選擇，重點(diǎn)保持模型開(kāi)發(fā)過(guò)程的可擴(kuò)展性和簡(jiǎn)單性。

選擇了僅進(jìn)行少量調(diào)整的標(biāo)準(zhǔn)解碼器 Transformer 模型架構(gòu)，而不是混合專家模型，以最大限度地提高訓(xùn)練穩(wěn)定性。
采用迭代后訓(xùn)練程序，每輪都使用監(jiān)督微調(diào)和直接偏好優(yōu)化。這使 Meta 能夠?yàn)槊枯唲?chuàng)建最高質(zhì)量的合成數(shù)據(jù)，并提高每項(xiàng)功能的性能。

與之前版本的 Llama 相比，Meta 提高了用于預(yù)訓(xùn)練和后訓(xùn)練的數(shù)據(jù)數(shù)量和質(zhì)量，如為預(yù)訓(xùn)練數(shù)據(jù)開(kāi)發(fā)更仔細(xì)的預(yù)處理和管理管道，為后訓(xùn)練數(shù)據(jù)開(kāi)發(fā)更嚴(yán)格的質(zhì)量保證與過(guò)濾方法。

正如語(yǔ)言模型 scaling laws 所預(yù)期的那樣，Meta 新旗艦?zāi)Ｐ蛢?yōu)于使用相同程序訓(xùn)練的較小模型。Meta 還使用 405B 參數(shù)模型來(lái)提高較小模型的后訓(xùn)練質(zhì)量。

為了支持 405B 模型的大規(guī)模推理產(chǎn)出，Meta 將模型從 16 比特 (BF16) 量化為 8 比特 (FP8) ，有效降低了所需的計(jì)算要求，并允許模型在單個(gè)服務(wù)器節(jié)點(diǎn)運(yùn)行。

指令和聊天微調(diào)

Llama 3.1 405B 努力提高模型響應(yīng)用戶指令的實(shí)用性、質(zhì)量和詳細(xì)指令遵循能力，同時(shí)確保高水平的安全性。

在后訓(xùn)練階段，研究團(tuán)隊(duì)通過(guò)在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行幾輪對(duì)齊來(lái)構(gòu)建最終的聊天模型。每輪都涉及監(jiān)督微調(diào)（SFT）、拒絕采樣（RS）和直接偏好優(yōu)化（DPO）。

研究團(tuán)隊(duì)使用合成數(shù)據(jù)生成來(lái)產(chǎn)生絕大多數(shù) SFT 示例，并多次迭代以在所有功能上生成越來(lái)越高質(zhì)量的合成數(shù)據(jù)。此外，研究團(tuán)隊(duì)還采用了多種數(shù)據(jù)處理技術(shù)，以過(guò)濾這些合成數(shù)據(jù)，達(dá)到最高質(zhì)量，并可以跨功能擴(kuò)展微調(diào)數(shù)據(jù)量。

Llama 系統(tǒng)

Llama 模型一直是作為 AI 系統(tǒng)的一部分而存在的，可以協(xié)調(diào)多個(gè)組件，包括調(diào)用外部工具。Meta 旨在超越基礎(chǔ)模型，讓開(kāi)發(fā)人員能夠靈活地設(shè)計(jì)和創(chuàng)建符合其愿景的定制產(chǎn)品。

為了在模型層之外負(fù)責(zé)任地開(kāi)發(fā)人工智能，Meta 發(fā)布了一個(gè)完整的參考系統(tǒng)，其中包括多個(gè)示例應(yīng)用程序以及新組件，例如 Llama Guard 3（一種多語(yǔ)言安全模型）和 Prompt Guard（一個(gè) prompt 注入過(guò)濾器）。這些示例應(yīng)用程序是開(kāi)源的，可以由開(kāi)源社區(qū)構(gòu)建。

為了與行業(yè)、初創(chuàng)公司和開(kāi)源社區(qū)進(jìn)行更廣泛的合作，幫助更好地定義組件的接口，Meta 在 GitHub 上發(fā)布了針對(duì)「Llama Stack」的評(píng)論請(qǐng)求。Llama Stack 是一組標(biāo)準(zhǔn)化接口，用于構(gòu)建規(guī)范的工具鏈組件（微調(diào)、合成數(shù)據(jù)生成）和智能體應(yīng)用程序。這有助于更輕松地實(shí)現(xiàn)互操作性。

，時(shí)長(zhǎng)01:10

與封閉模型不同，Llama 模型權(quán)重可供下載。開(kāi)發(fā)人員可以根據(jù)自己的需求和應(yīng)用程序完全定制模型，在新數(shù)據(jù)集上進(jìn)行訓(xùn)練，并進(jìn)行額外的微調(diào)。

使用 Llama 3.1 405B 進(jìn)行開(kāi)發(fā)

對(duì)于普通開(kāi)發(fā)者來(lái)說(shuō)，部署 405B 這樣大規(guī)模的模型無(wú)疑是一項(xiàng)挑戰(zhàn)，它需要大量的計(jì)算資源和專業(yè)技能。在與開(kāi)發(fā)者社區(qū)的交流中，Meta 意識(shí)到，生成式 AI 的開(kāi)發(fā)不僅僅是給模型輸入 prompt。他們期望所有開(kāi)發(fā)者都能在以下領(lǐng)域充分開(kāi)發(fā) Llama 3.1 405B 的潛力：

實(shí)時(shí)和批量推理
監(jiān)督式微調(diào)
測(cè)試和評(píng)估模型在特定應(yīng)用中的性能
持續(xù)預(yù)訓(xùn)練
檢索增強(qiáng)生成（RAG）
函數(shù)調(diào)用
合成數(shù)據(jù)生成

發(fā)布即日起，Llama 3.1 405B 模型的所有高級(jí)功能都將開(kāi)放，開(kāi)發(fā)者們可以即刻上手。開(kāi)發(fā)者們還可以探索更高階的工作流，例如基于模型蒸餾的合成數(shù)據(jù)生成。這次升級(jí)，Meta 還無(wú)縫集成了合作伙伴 AWS、NVIDIA 和 Databricks 提供的解決方案，以實(shí)現(xiàn)更高效的檢索增強(qiáng)生成（RAG）。此外，Groq 已經(jīng)為在云端部署模型進(jìn)行了低延遲推理的優(yōu)化，也對(duì)本地系統(tǒng)進(jìn)行了類似的性能提升。

Meta 這次還為 Llama 3.1 405B 內(nèi)置了「工具大禮包」，內(nèi)含 vLLM、TensorRT 和 PyTorch 等關(guān)鍵項(xiàng)目，從模型開(kāi)發(fā)到部署「開(kāi)箱即用」，一步到位。

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/QUWumWsTF_Qq77tdlyCHdg??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Llama 3超大杯有何驚喜？Meta會(huì)一直開(kāi)源嗎？當(dāng)初為何篤信元宇宙？扎克伯格新訪談回應(yīng)一切

輕薄滴假象 ? 2231瀏覽 ? 0回復(fù)
新測(cè)試基準(zhǔn)發(fā)布，最強(qiáng)開(kāi)源Llama 3尷尬了

Crystalcxt ? 2954瀏覽 ? 0回復(fù)
Meta 開(kāi)源最強(qiáng)大模型Llama 3.1，參數(shù)多達(dá) 405B，超16000塊H100訓(xùn)練，燃燒數(shù)億經(jīng)費(fèi)！小扎：堅(jiān)定開(kāi)源不動(dòng)搖！

51CTO技術(shù)棧 ? 3729瀏覽 ? 0回復(fù)
最強(qiáng)大模型 Llama 3.1-405B 架構(gòu)設(shè)計(jì)剖析

玄姐聊AGI ? 2841瀏覽 ? 0回復(fù)
Meta正式發(fā)布Llama-3.1，超大杯405B！千呼萬(wàn)喚始出來(lái)！

PaperAgent ? 2913瀏覽 ? 0回復(fù)
Llama3.1系列模型正式開(kāi)源，最大405B，閉源模型的統(tǒng)治時(shí)代將迎來(lái)結(jié)束？

NLP工作站 ? 2218瀏覽 ? 0回復(fù)
扎克伯格的下一代產(chǎn)品：Llama4、社交推薦以及“去TMD”的讓人爆粗的封閉平臺(tái)

51CTO技術(shù)棧 ? 2456瀏覽 ? 0回復(fù)
互換戰(zhàn)衣|科技巨頭馬克·扎克伯格攜手黃仁勛共話AI開(kāi)源

angel ? 2122瀏覽 ? 0回復(fù)
阿里史上最大規(guī)模開(kāi)源發(fā)布，超GPT-4o 、Llama-3.1！

Aceryt ? 2080瀏覽 ? 0回復(fù)
扎克伯格最新采訪！AI和AR的融合，是否將取代手機(jī)？充滿AI的APP會(huì)顛覆人類的社交方式嗎？

51CTO技術(shù)棧 ? 1853瀏覽 ? 0回復(fù)
Llama-4使用10萬(wàn)塊GPU訓(xùn)練、更好開(kāi)源，扎克伯格親口確認(rèn)！

Aceryt ? 3149瀏覽 ? 0回復(fù)
Qwen2.5：13個(gè)新模型來(lái)襲！開(kāi)源通用、編碼、數(shù)學(xué)模型全解讀，72B超越Llama 405B - 本地安裝測(cè)試

老蛀蟲(chóng) ? 4802瀏覽 ? 0回復(fù)
廣告收入大漲近20%，市值卻啪啪打臉，扎克伯格坦承交底：AI真的機(jī)會(huì)很大，Llama4明年年初

51CTO技術(shù)棧 ? 1946瀏覽 ? 0回復(fù)
Qwen2.5：13個(gè)新模型來(lái)襲！開(kāi)源通用、編碼、數(shù)學(xué)模型全解讀，72B超越Llama 405B - 本地安裝測(cè)試

老蛀蟲(chóng) ? 4017瀏覽 ? 0回復(fù)
Claude 3.5 引領(lǐng)人工智能新時(shí)代的強(qiáng)大模型

丟翅膀的魚(yú) ? 2313瀏覽 ? 0回復(fù)
Good Fire AI 針對(duì) Llama 3.1 8B 和 Llama 3.3 70B 的開(kāi)源稀疏自動(dòng)編碼器 (SAE)

Halo咯咯 ? 1581瀏覽 ? 0回復(fù)
1B模型如何通過(guò)測(cè)試時(shí)優(yōu)化逆襲405B LLM？

arnoldzhw ? 1642瀏覽 ? 0回復(fù)
Llama 4 凌晨震撼發(fā)布：Meta開(kāi)源最強(qiáng)MoE多模態(tài)模型，1000萬(wàn)上下文碾壓行業(yè)！

AI博物院 ? 1180瀏覽 ? 0回復(fù)
NVIDIA開(kāi)源Llama-3.1-Nemotron-Ultra-253B-v1，性能直逼DeepSeek

Halo咯咯 ? 956瀏覽 ? 0回復(fù)

輕薄滴假象

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目，還有梁文鋒親自參與，昨晚API大降價(jià) 2025-02-27 12:40:06發(fā)布
全球首個(gè)AI CUDA工程師來(lái)了！將PyTorch原生實(shí)現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：中科大聯(lián)合華為諾亞提出Entropy Law，揭秘大模型性能、數(shù)據(jù)壓縮率以及訓(xùn)練損失關(guān)系

下一篇：只要一張圖就能「還原」繪畫(huà)過(guò)程，這篇論文比爆火的Paints-UNDO實(shí)現(xiàn)得更早

社區(qū)精華內(nèi)容

目錄