自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="z8kjy"></cite>

<cite id="z8kjy"><rp id="z8kjy"></rp></cite>

<sub id="z8kjy"></sub>

^{<blockquote id="z8kjy"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越

發(fā)布于 2024-7-23 13:19

瀏覽

0收藏

歷史再次重演，Llama 3.1 405B提前泄露了！

現(xiàn)在，基準(zhǔn)測試和磁力鏈已經(jīng)傳得滿天飛了。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

除了最大的405B，Meta這次還升級了5月初發(fā)布的8B和70B模型，并將上下文長度全部提升到了128K。

至此，模型版本也正式從Llama 3迭代到了Llama 3.1。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

根據(jù)磁力鏈提供的信息，新模型大小為763.48GiB（約820GB）。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

從泄露的「基準(zhǔn)測試」可以看出，連8B小模型都很能打，而70B的模型，性能在多項基準(zhǔn)上都能趕超GPT-4o了。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

開發(fā)者們看到測試結(jié)果后也原地炸鍋，Topology CEO Aidan McLau驚呼道——

如果Llama 3-405B的基準(zhǔn)測試是真的，它將

- 成為世界上最好的模型

- 每個人都可調(diào)

- 比GPT-4o還便宜！

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

HyperWriteAI CEO Matt Schumer預(yù)言：它定將成為開源模型中的SOTA。（連70B都能和GPT-4o掰手腕，何況這還是在指令微調(diào)之前。）

想象一下，一個GPT-4o級別的模型，以每秒330個token的速度運行，價格還要便宜10倍。這簡直太令人興奮了。

明天，將是狂野的一天！

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

而小扎的一句話，更是暗示著405B的到來——重大一周前的寧靜時刻。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

眾多網(wǎng)友在線逼問OpenAI：新模型啥時候放出？

Llama 3.1家族，明日上線

根據(jù)泄露的模型卡，Llama 3.1將在23日發(fā)布。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

許可證為「定制商業(yè)許可」和「Llama 3.1社區(qū)許可」。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

泄露的Model Card：https://pastebin.com/9jGkYbXY

具體來說，多語言大模型 Llama 3.1系列是一組預(yù)訓(xùn)練和指令微調(diào)的生成模型，包括8B、70B和405B三種參數(shù)規(guī)模。

指令微調(diào)后的Llama 3.1純文本模型（8B、70B、405B），針對多語言對話用例進(jìn)行了優(yōu)化。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

除了英語，它還可以支持7種語言，包括德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。

據(jù)介紹，Llama 3.1的新增能力包括，更長的上下文、支持多語言輸入和輸出，以及開發(fā)者與第三方工具的集成。

基準(zhǔn)測試

在GitHub上一張基準(zhǔn)圖（現(xiàn)404）顯示，Llama 3.1在基準(zhǔn)測試中的優(yōu)異表現(xiàn)。

具體來說，在基準(zhǔn)預(yù)訓(xùn)練模型的基準(zhǔn)評測中，Llama 3.1 405B在通用任務(wù)、知識推理、閱讀理解上創(chuàng)下最新紀(jì)錄。

尤其在，MMLU、SQuAD細(xì)分基準(zhǔn)上，提升最為明顯。

與此同時，Llama 3.1 8B和70B參數(shù)版本，相較于Llama 3，得到了細(xì)微地改善。不過，有些指標(biāo)，70B Llama 3.1還不如前一代。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

另外，指令微調(diào)模型中，看得出Llama 3.1 405B比預(yù)訓(xùn)練模型更強。在推理、代碼、數(shù)學(xué)、工具使用、多語言基準(zhǔn)上，紛紛碾壓微調(diào)后的8B和70B版本。

Llama 3.1 8B和70B微調(diào)模型，同樣在多項能力任務(wù)中，性能大幅提升。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

還有網(wǎng)友匯總了其他領(lǐng)先模型的基準(zhǔn)，通過對比可以看出，Claude 3.5 Sonnet才是所有基準(zhǔn)中的王者。

Llama 3.1 405B微調(diào)版本僅在數(shù)學(xué)基準(zhǔn)MMLU Pro上，最能打，以73.3%成績打敗所有大模型。

另外，405B在GPQA（研究生水平的專業(yè)知識和推理）、數(shù)學(xué)、DROP（閱讀理解）、MGSM（多語言數(shù)學(xué)）、HumanEval（編程），BBH（知識評估）基準(zhǔn)上，與GPT-4o不相上下。

而且，405B大幅領(lǐng)先最新GPT-4o mini模型。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

Llama 3.1是一個自回歸語言模型，使用優(yōu)化的Transformer架構(gòu)。調(diào)整后的版本使用了SFT和RLHF，以符合人類對安全的偏好。

對于Llama 3.1系列模型，token計數(shù)僅指預(yù)訓(xùn)練數(shù)據(jù)。

所有模型的版本，都使用分組查詢注意力（GQA）來提高推理的可擴展性。

15T token訓(xùn)練數(shù)據(jù)

與Llama 3一樣，Llama 3.1也是在大約15萬億個來自公開可用來源的token上進(jìn)行了預(yù)訓(xùn)練。

微調(diào)數(shù)據(jù)包括公開可用的指令數(shù)據(jù)集，以及超過2500萬個合成樣本，預(yù)訓(xùn)練數(shù)據(jù)截止到2023年12月。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

商用研究皆可

Llama 3.1支持多語言環(huán)境下的商業(yè)和研究用途。

經(jīng)過指令微調(diào)的純文本模型適用于聊天助手，而預(yù)訓(xùn)練模型可以適應(yīng)各種自然語言生成任務(wù)。Llama 3.1模型集合還支持利用其模型輸出來改進(jìn)其他模型，包括合成數(shù)據(jù)生成和模型蒸餾。

違反使用法律法規(guī)、被使用政策和Llama 3.1社區(qū)許可證禁止、支持語言之外的使用，都屬于超出范圍。

并且團隊強調(diào)，除了支持的8種語言，Llama 3.1在更廣泛的語言集合上進(jìn)行了訓(xùn)練。開發(fā)者對其進(jìn)行微調(diào)，就可以在其他語言上適用，前提是遵守社區(qū)許可證等政策，并保證使用是安全和負(fù)責(zé)的。

3930萬GPU小時訓(xùn)練

在預(yù)訓(xùn)練時，Meta使用了定制的訓(xùn)練庫、Meta定制的GPU集群和生產(chǎn)基礎(chǔ)設(shè)施。微調(diào)、注釋和評估也都是在生產(chǎn)基礎(chǔ)設(shè)施上進(jìn)行的。

訓(xùn)練累計使用了3930萬GPU小時的計算時間，硬件類型為H100-80GB（TDP為700W）。

訓(xùn)練時間是訓(xùn)練每個模型所需的總GPU時間，功耗是每個GPU設(shè)備的峰值功率容量，根據(jù)功率使用效率進(jìn)行了調(diào)整。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

訓(xùn)練的總位置基溫室氣體排放估計為11,390噸二氧化碳當(dāng)量（CO2eq）。

Meta強調(diào)，自2020年以來，自己一直保持著凈零的溫室氣體排放，并且100%的電力都是由可再生資源生成的，因此基于市場基準(zhǔn)的總溫室氣體排放為0噸二氧化碳當(dāng)量。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

重大風(fēng)險

在重大風(fēng)險上，Meta也做了測試。

包括CBRNE（化學(xué)、生物、放射性、核和爆炸材料）有用性、兒童安全和網(wǎng)絡(luò)攻擊。

在網(wǎng)絡(luò)攻擊上，團隊調(diào)查了LLMs是否可以提高人類在黑客任務(wù)中的能力，包括技能水平和速度。

研究重點在評估LLMs在網(wǎng)絡(luò)攻擊行動中用作自主Agent的能力，特別是被勒索軟件攻擊時。

主要目標(biāo)就是評估這些模型是否能在沒有人為干預(yù)的情況下，有效地作為獨立Agent執(zhí)行復(fù)雜的網(wǎng)絡(luò)攻擊。

網(wǎng)友炸鍋，再一次見證歷史

磁力鏈放出后，迫不及待的網(wǎng)友直接開始下載，不過這可能需要等待很久。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

一部分網(wǎng)友開始坐等Llama 3.1 405B明天發(fā)布，再一次見證歷史！

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

開源模型與閉源模型的差距，再次縮小了。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

還有人測試了「9.11和9.9誰大」的經(jīng)典陷阱題，Llama 3.1-405B竟答對了。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

對于「GPU窮人」來說，820GB在筆記本上運行實在是太勉強了。

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越-AI.x社區(qū)

本文轉(zhuǎn)自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/Ds740ZJ1nZZQ4vuQb_n4_g??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

超越GPT-4，斯坦福團隊手機可跑的大模型火了，一夜下載量超2k

輕薄滴假象 ? 3139瀏覽 ? 0回復(fù)
GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了？來 MathBench 看看新版 GPT-4o 到底強在哪！

戀戀青鳥 ? 3073瀏覽 ? 0回復(fù)
AutoCoder：性能超越GPT-4o的模型，居然只有33B，還是開源！

大語言模型論文跟蹤 ? 4947瀏覽 ? 0回復(fù)
蘋果一夜重塑iPhone！GPT-4o加持Siri，AI深入所有APP，庫克：開啟蘋果AI下一章

Crystalcxt ? 2988瀏覽 ? 0回復(fù)
GPT-4o背后可能的語音技術(shù)

魚蟲子 ? 2820瀏覽 ? 0回復(fù)
GPT-4o攻破ARC-AGI無法被挑戰(zhàn)的神話！71%準(zhǔn)確率成新SOTA

angel ? 2147瀏覽 ? 0回復(fù)
超越GPT-4o，Claude 3.5一夜封王！10倍編碼速度逆天，全網(wǎng)最全實測來了

duhorse ? 3951瀏覽 ? 0回復(fù)
阿里史上最大規(guī)模開源發(fā)布，超GPT-4o 、Llama-3.1！

Aceryt ? 2085瀏覽 ? 0回復(fù)
擊敗GPT-4o、僅次于o1！英偉達(dá)重磅開源超強大模型--Nemotron

Aceryt ? 2997瀏覽 ? 0回復(fù)
重磅開源Nemotron大模型：擊敗GPT-4o、僅次于o1！

51CTO技術(shù)棧 ? 1884瀏覽 ? 0回復(fù)
被GPT4o的讀圖能力震撼到了

ceesoft ? 1872瀏覽 ? 0回復(fù)
超GPT-4o，1240億參數(shù)！最強開源多模態(tài)模型 Pixtral Large！

Aceryt ? 2051瀏覽 ? 0回復(fù)
一夜小模型王座易主！英偉達(dá)發(fā)布超強小模型，性能、速率、緩存全面超越Llama3.2！

51CTO技術(shù)棧 ? 1749瀏覽 ? 0回復(fù)
微軟開源最強小模型Phi-4，超GPT-4o、可商用

Aceryt ? 1927瀏覽 ? 0回復(fù)
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準(zhǔn)測試中超越了 GPT-4o

Halo咯咯 ? 1.0w瀏覽 ? 0回復(fù)
谷歌開源A2A，一夜改變智能體交互

Aceryt ? 1144瀏覽 ? 0回復(fù)
清華發(fā)布GLM 4！32B參數(shù)模型硬剛GPT-4o，性能驚艷

Halo咯咯 ? 1770瀏覽 ? 0回復(fù)
DeepSeek R2提前泄露？周二或周三發(fā)布？海外謠言一夜刷屏，HggingFace CEO一帖子引瘋狂猜想，DS又被消費了

51CTO技術(shù)棧 ? 319瀏覽 ? 0回復(fù)
阿里Qwen3一夜封神！開源模型跑出3倍推理速度，OpenAI沉默

AI博物院 ? 415瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發(fā)布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓(xùn)推顛覆級創(chuàng)新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：哈佛DeepMind開辟「虛擬神經(jīng)科學(xué)」新領(lǐng)域！在世界模擬器馴養(yǎng)「賽博老鼠」

下一篇：長上下文能力只是吹牛？最強GPT-4o正確率僅55.8%，開源模型不如瞎蒙

社區(qū)精華內(nèi)容

目錄

<sub id="0rok6"></sub>

<cite id="0rok6"><track id="0rok6"></track></cite>

<sup id="0rok6"></sup>