自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="wqemp"><track id="wqemp"></track></cite>

<legend id="wqemp"><track id="wqemp"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

英偉達(dá)253B開源新王登場(chǎng)，Llama 4三天變陪襯！直逼DeepSeek-R1成推理天花板

作者：新智元 2025-04-09 10:40:32

Llama 4剛出世就被碾壓！英偉達(dá)強(qiáng)勢(shì)開源Llama Nemotron-253B推理模型，在數(shù)學(xué)編碼、科學(xué)問答中準(zhǔn)確率登頂，甚至以一半?yún)?shù)媲美DeepSeek R1，吞吐量暴漲4倍。關(guān)鍵秘訣，就在于團(tuán)隊(duì)采用的測(cè)試時(shí)Scaling。

Llama 4誕生不過3天，反手就被超越了。

剛剛，英偉達(dá)官宣開源「超大杯」Llama Nemotron推理模型，共有253B參數(shù)，基于Llama-3.1-405B微調(diào)而來。

在多項(xiàng)基準(zhǔn)測(cè)試中，Llama Nemotron一舉擊敗了兩款Llama 4模型。而且僅用一半的參數(shù)，性能直逼DeepSeek R1。

尤其是，在復(fù)雜數(shù)學(xué)推理AIME（2024/2025）、科學(xué)推理GPQA Diamond、編碼LiveCodeBnech中，新模型取得SOTA。

圖片

相比DeepSeek R1 671B，它的推理吞吐量提升了4倍。

圖片

Llama-3.1-Nemotron-Ultra-253B-v1經(jīng)過后期訓(xùn)練，專注于推理、人類聊天偏好和任務(wù)，如RAG（檢索增強(qiáng)生成）和工具調(diào)用。

它能支持128Ktoken的上下文長(zhǎng)度，且能夠在單個(gè)8xH100芯片節(jié)點(diǎn)上進(jìn)行推理。

這個(gè)模型之所以能達(dá)到如此強(qiáng)的推理性能，是因?yàn)樵谀Ｐ途群托手g取得了良好平衡，讓效率（吞吐量）直接轉(zhuǎn)化為成本節(jié)省。

通過采用一種新穎的神經(jīng)架構(gòu)搜索（NAS）方法，研究者大大減少了模型的內(nèi)存占用，從而支持更大的工作負(fù)載，并減少了在數(shù)據(jù)中心環(huán)境中運(yùn)行模型所需的GPU數(shù)量。

現(xiàn)在，該模型已準(zhǔn)備好支持商用。

Llama Nemotron超大杯上線，推理開源天花板

今年3 月，英偉達(dá)首次亮相了Llama Nemotron系列推理模型。

它一共包含三種規(guī)模：Nano、Super 和 Ultra，分別針對(duì)不同場(chǎng)景和計(jì)算資源需求，供開發(fā)者使用。

· Nano

Nano（8B）基于Llama 3.1 8B微調(diào)而來，專為PC和邊緣設(shè)備而設(shè)計(jì)。

如下圖，Llama Nemotron Nano在GPQA Diamond、AIME 2025、MATH-500、BFCL、IFEval、MBPP和MTBench等多項(xiàng)基準(zhǔn)測(cè)試中，展現(xiàn)出領(lǐng)先性能。

圖 1. Llama Nemotron Nano在一系列推理和智能體基準(zhǔn)測(cè)試中提供同類最佳性能

· Super

Super（49B）是從Llama 3.3 70B蒸餾而來，針對(duì)數(shù)據(jù)中心GPU進(jìn)行了優(yōu)化，便可實(shí)現(xiàn)最高吞吐量下的最佳準(zhǔn)確性。

下圖顯示，Llama Nemotron Super在GPQA Diamond、AIME 2024/2025、MATH-500、MBPP、Arena Hard、BFCL和IFEval等多項(xiàng)基準(zhǔn)測(cè)試，取得了最優(yōu)性能。

圖 2. Llama Nemotron Super在一系列推理和智能體基準(zhǔn)測(cè)試中提供領(lǐng)先性能

· Ultra

Ultra（253B）是從Llama 3.1 405B蒸餾而來，專為多GPU數(shù)據(jù)中心打造最強(qiáng)智能體而設(shè)計(jì)，

圖表顯示，采用FP8精度的Llama Nemotron Ultra 253B在GPQA、Complex Math、BFCL、LiveCodeBench以及IFEval上表現(xiàn)出色。

圖3. FP8精度的Llama Nemotron Ultra提供同類最佳的推理和智能體基準(zhǔn)測(cè)試性能

Llama Nemotron家族模型均是基于開源 Llama構(gòu)建，并采用英偉達(dá)審核后的數(shù)據(jù)集合成數(shù)據(jù)，因此全部可以商用。

秘密武器：測(cè)試時(shí)Scaling

英偉達(dá)是如何訓(xùn)練出性能如此卓越的模型的？背后的關(guān)鍵，就在于「測(cè)試時(shí)scaling」（或稱推理時(shí)scaling）和「推理」。

測(cè)試時(shí)scaling這項(xiàng)技術(shù)，會(huì)在模型推理階段投入更多計(jì)算資源，用以思考和權(quán)衡各種選項(xiàng)，來提升模型響應(yīng)質(zhì)量，這就使得模型在關(guān)鍵下游任務(wù)上的性能得以提升。

對(duì)問題進(jìn)行推理是一項(xiàng)復(fù)雜的任務(wù)，而測(cè)試時(shí)投入的計(jì)算資源，正是使這些模型能達(dá)到前述需推理水平的關(guān)鍵因素。

它能讓模型在推理期間利用更多資源，開辟更廣闊的可能性空間，從而增加模型建立起必要關(guān)聯(lián)、找到原本可能無法獲得的解決方案的幾率。

盡管「推理」和「測(cè)試時(shí)scaling」對(duì)智能體工作流如此重要，但有一個(gè)共同問題，卻普遍困擾著如今最先進(jìn)的推理模型——

開發(fā)者無法選擇何時(shí)讓模型進(jìn)行推理，也就是說，做不到在「推理開啟」和「推理關(guān)閉」之間自由切換。

而Llama Nemotron系列模型則攻破了這一難題，用「系統(tǒng)提示詞」來控制推理開關(guān)！

如何構(gòu)建？

Llama 3.3 Nemotron 49B Instruct以Llama 3.3 70B Instruct為基礎(chǔ)模型，經(jīng)歷了一個(gè)廣泛的后訓(xùn)練階段后，不僅模型尺寸減小，還讓原始能力保留甚至增強(qiáng)了。

三個(gè)后訓(xùn)練階段如下。

1. 通過神經(jīng)架構(gòu)搜索 (NAS) 和知識(shí)蒸餾進(jìn)行蒸餾。

2. 監(jiān)督微調(diào)：使用了由英偉達(dá)創(chuàng)建的600億Token 合成數(shù)據(jù)（代表了所生成的 3000萬樣本中的400萬），以確保在「推理關(guān)閉」和「推理開啟」兩種模式下內(nèi)容的高質(zhì)量。在此階段，團(tuán)隊(duì)利用了NVIDIA NeMo框架，有效且高效地?cái)U(kuò)展了后訓(xùn)練流程。

3. 強(qiáng)化學(xué)習(xí)：這個(gè)階段是利用NVIDIA NeMo完成的，模型的對(duì)話能力和指令遵循性能得以增強(qiáng)，從而在廣泛的任務(wù)中都能提供高質(zhì)量的響應(yīng)。

圖片

第一個(gè)階段（步驟1和2）已在神經(jīng)架構(gòu)搜索 (NAS) 技術(shù)報(bào)告中詳細(xì)闡述。

簡(jiǎn)而言之，該階段可被視為通過多種蒸餾和NAS方法，依據(jù)特定的旗艦硬件，將各模型的參數(shù)量「調(diào)整至合適尺寸」，從而達(dá)到預(yù)選的最優(yōu)值。

模型后訓(xùn)練的第二個(gè)階段（步驟3和4）則涉及由合成數(shù)據(jù)驅(qū)動(dòng)的監(jiān)督微調(diào)，目的在于實(shí)現(xiàn)幾個(gè)關(guān)鍵目標(biāo)。

首要目標(biāo)，就是提升模型在多種任務(wù)上的非推理性能。

后訓(xùn)練流程的這一環(huán)節(jié)（步驟3）利用了團(tuán)隊(duì)精選的提示詞，通過基線模型 (Llama 3.3 70B Instruct) 以及Qwen2.5 7B Math和Coder模型生成合成數(shù)據(jù)。

這些數(shù)據(jù)隨后經(jīng)過團(tuán)隊(duì)的精選與審核，用于增強(qiáng)模型在聊天、數(shù)學(xué)和代碼任務(wù)上的「推理關(guān)閉」模式下的性能。

同時(shí)，團(tuán)隊(duì)也投入大量精力，確保在此階段，「推理關(guān)閉」模式下的指令遵循和函數(shù)調(diào)用性能達(dá)到同類最佳水平。

第二個(gè)目標(biāo)（步驟4）是通過在精選的DeepSeek-R1數(shù)據(jù)（僅限數(shù)學(xué)、代碼和科學(xué)領(lǐng)域）上進(jìn)行訓(xùn)練，打造出同類最佳的推理模型。

每一個(gè)提示詞和響應(yīng)都經(jīng)過嚴(yán)格篩選，確保在推理能力增強(qiáng)過程中僅使用高質(zhì)量數(shù)據(jù)，并輔以NVIDIA NeMo框架的支持。這就能確保團(tuán)隊(duì)可以選擇性地從 DeepSeek-R1中蒸餾出它在優(yōu)勢(shì)領(lǐng)域所具備的強(qiáng)大推理能力。

「推理開啟」/「推理關(guān)閉」兩種模式的訓(xùn)練（步驟3和4）是同時(shí)進(jìn)行的，兩者唯一的區(qū)別在于系統(tǒng)提示詞。

這意味著，最終生成的模型既能作為推理模型運(yùn)行，也能作為傳統(tǒng)的LLM運(yùn)行，并通過一個(gè)開關(guān)（即系統(tǒng)提示詞）在兩種模式間切換。

這種設(shè)計(jì)，使得組織機(jī)構(gòu)能夠?qū)蝹€(gè)尺寸適宜的模型同時(shí)用于推理任務(wù)和非推理任務(wù)。

最后一個(gè)階段（步驟5和6）則采用了強(qiáng)化學(xué)習(xí)來更好地對(duì)齊用戶意圖與期望。

模型首先利用REINFORCE算法和基于啟發(fā)式的驗(yàn)證器，針對(duì)指令遵循和函數(shù)調(diào)用這兩個(gè)任務(wù)進(jìn)行RL以提升性能（步驟5）。

隨后，采用RLHF技術(shù)，結(jié)合HelpSteer2數(shù)據(jù)集和NVIDIA Llama 3.1 Nemotron獎(jiǎng)勵(lì)模型，對(duì)最終模型進(jìn)行面向聊天應(yīng)用場(chǎng)景的對(duì)齊（步驟6）。

最終，這些后訓(xùn)練步驟打造出了同類最佳的推理模型，并且通過提供在兩種范式（推理與非推理）間切換的機(jī)制，確保了模型在函數(shù)調(diào)用和指令遵循方面的性能不受影響。

模型則能高效支持智能體AI工作流中的各個(gè)，同時(shí)還能保持針對(duì)旗艦級(jí)英偉達(dá)硬件優(yōu)化的最佳參數(shù)量。

性能刷新SOTA，吞吐量最高5倍提升

· Llama Nemotron Super

Llama Nemotron融合了DeepSeek-R1等模型強(qiáng)大的推理能力，以及Llama 3.3 70B Instruct具備的強(qiáng)大世界知識(shí)與對(duì)可靠工具調(diào)用及指令遵循，最終打造出在關(guān)鍵智能體任務(wù)上表現(xiàn)領(lǐng)先的模型。

結(jié)果顯示，Llama Nemotron 49B準(zhǔn)確性最高，且吞吐量提升達(dá)5倍。

圖 5. Llama Nemotron Super為智能體任務(wù)提供了最高的準(zhǔn)確性和吞吐量，從而降低了推理成本

· Llama Nemotron Ultra 253B

Llama Nemotron Ultra總參數(shù)量?jī)H為253B，但其推理性能已達(dá)到甚至超越DeepSeek-R1等頂級(jí)開放推理模型。

與此同時(shí)，憑借優(yōu)化的模型尺寸實(shí)現(xiàn)了顯著更高的吞吐量，并保留了優(yōu)秀的工具調(diào)用能力。

這種卓越推理能力與毫不妥協(xié)的工具調(diào)用能力的結(jié)合，使其成為智能體工作流領(lǐng)域的同類最佳模型。

除了應(yīng)用Llama Nemotron Super的完整后訓(xùn)練流程外，Llama Nemotron Ultra還額外經(jīng)歷了一個(gè)專注的RL階段，旨在進(jìn)一步增強(qiáng)其推理能力。

結(jié)果表明，相較于DeepSeek-R1 671B，Llama Nemotron Ultra的吞吐量提升高達(dá)4倍，并且在GPQA、AIME 2024、AIME 2025、BFCL、LiveCodeBench、MATH500和IFEval的等權(quán)重平均準(zhǔn)確性方面取得最高分。

圖6. Llama Nemotron Ultra同時(shí)提供卓越的準(zhǔn)確性和驚人的吞吐量

打造多智能體系統(tǒng)，搞定復(fù)雜任務(wù)

由Llama 3.3 Nemotron 49B Instruct驅(qū)動(dòng)的多智能體協(xié)作系統(tǒng)，在Arena Hard 基準(zhǔn)測(cè)試中，拿下了驚艷的92.7分。

傳統(tǒng)的測(cè)試時(shí)計(jì)算scaling方法，大多聚焦于那些有明確答案的問題，比如數(shù)學(xué)題、邏輯推理、編程競(jìng)賽。

現(xiàn)實(shí)中，許多重要任務(wù)缺乏可驗(yàn)證的解決方案，比如提出創(chuàng)新研究思路、撰寫學(xué)術(shù)論文，或是為復(fù)雜的軟件產(chǎn)品開發(fā)有效的交付策略。

這些問題，往往更具挑戰(zhàn)性，也更貼近實(shí)際需求。

Llama Nemotron測(cè)試時(shí)計(jì)算scaling系統(tǒng)正是為此而生，它模仿了人類解決復(fù)雜問題寫作模式，通過以下幾個(gè)步驟實(shí)現(xiàn)：

1. 集思廣益：針對(duì)問題初步構(gòu)思一個(gè)或多個(gè)解決方案。

2. 獲取反饋：就初步方案征求朋友、同事或其他專家的意見。

3. 編輯修訂：根據(jù)收集到的反饋對(duì)初步方案進(jìn)行修改。

4. 擇優(yōu)選?。涸谡闲抻喴庖姾?，選出最具潛力的最終解決方案。

這種方法使得測(cè)試時(shí)計(jì)算scaling技術(shù)能夠應(yīng)用于更廣泛的通用領(lǐng)域任務(wù)。

要形象地理解這個(gè)多智能體協(xié)作系統(tǒng)，可以將其類比為一個(gè)團(tuán)隊(duì)協(xié)同工作，為一個(gè)沒有標(biāo)準(zhǔn)答案的開放式問題尋找最佳解決方案。

與之相對(duì)，「長(zhǎng)思考」則好比訓(xùn)練單個(gè)人深度、持久地鉆研一個(gè)問題，最終得出一個(gè)可以對(duì)照標(biāo)準(zhǔn)答案進(jìn)行驗(yàn)證的結(jié)果。

因此，多智能體系統(tǒng)強(qiáng)大之處在于，不僅提升解決復(fù)雜問題效率，還能通過協(xié)作挖掘更多可能性。

參考資料：

https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

https://developer.nvidia.com/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/

https://build.nvidia.com/nvidia/llama-3_1-nemotron-ultra-253b-v1?ncid=so-twit-273200

責(zé)任編輯：武曉燕來源：新智元

Llama 4 英偉達(dá)253B 開源

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="esltx"></style>