自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="rnug0"><p id="rnug0"></p></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

英偉達(dá)開源最強(qiáng)通用模型Nemotron-4 340B

作者：機(jī)器之心 2024-06-17 08:55:00

人工智能新聞

高質(zhì)量的訓(xùn)練數(shù)據(jù)在自定義 LLM 的響應(yīng)性能、準(zhǔn)確性和質(zhì)量中起著至關(guān)重要的作用 —— 但強(qiáng)大的數(shù)據(jù)集經(jīng)常是昂貴且難以訪問的。

英偉達(dá)的通用大模型 Nemotron，開源了最新的 3400 億參數(shù)版本。

本周五，英偉達(dá)宣布推出 Nemotron-4 340B。它包含一系列開放模型，開發(fā)人員可以使用這些模型生成合成數(shù)據(jù)，用于訓(xùn)練大語言模型（LLM），可用于醫(yī)療健康、金融、制造、零售等所有行業(yè)的商業(yè)應(yīng)用。

高質(zhì)量的訓(xùn)練數(shù)據(jù)在自定義 LLM 的響應(yīng)性能、準(zhǔn)確性和質(zhì)量中起著至關(guān)重要的作用 —— 但強(qiáng)大的數(shù)據(jù)集經(jīng)常是昂貴且難以訪問的。通過獨(dú)特的開放模型許可，Nemotron-4 340B 為開發(fā)人員提供了一種免費(fèi)、可擴(kuò)展的方式來生成合成數(shù)據(jù)，從而幫助人們構(gòu)建強(qiáng)大的 LLM。

Nemotron-4 340B 系列包括基礎(chǔ)、Instruct 和 Reward 模型，它們形成了一個(gè) pipeline，用于生成訓(xùn)練和改進(jìn) LLM 的合成數(shù)據(jù)。這些模型經(jīng)過優(yōu)化，可與 NVIDIA NeMo 配合使用，后者是一個(gè)用于端到端模型訓(xùn)練的開源框架，包括數(shù)據(jù)管理、定制和評估。它們還針對開源 NVIDIA TensorRT-LLM 庫的推理進(jìn)行了優(yōu)化。

英偉達(dá)表示，Nemotron-4 340B 現(xiàn)已可從 Hugging Face 下載。開發(fā)人員很快就能在 ai.nvidia.com 上訪問這些模型，它們將被打包為 NVIDIA NIM 微服務(wù)，并帶有可在任何地方部署的標(biāo)準(zhǔn)應(yīng)用程序編程接口。

Hugging Face 下載：https://huggingface.co/collections/nvidia/nemotron-4-340b-666b7ebaf1b3867caf2f1911

導(dǎo)航 Nemotron 以生成合成數(shù)據(jù)

大語言模型可以幫助開發(fā)人員在無法訪問大型、多樣化標(biāo)記數(shù)據(jù)集的情況下生成合成訓(xùn)練數(shù)據(jù)。

Nemotron-4 340B Instruct 模型創(chuàng)建了多樣化的合成數(shù)據(jù)，模仿了現(xiàn)實(shí)世界數(shù)據(jù)的特征，有助于提高數(shù)據(jù)質(zhì)量，從而提高自定義 LLM 在各個(gè)領(lǐng)域的性能和魯棒性。

為了提高 AI 生成的數(shù)據(jù)的質(zhì)量，開發(fā)人員可以使用 Nemotron-4 340B Reward 模型來篩選高質(zhì)量的響應(yīng)。Nemotron-4 340B Reward 根據(jù)五個(gè)屬性對響應(yīng)進(jìn)行評分：可用性、正確性、連貫性、復(fù)雜性和冗長性。它目前在 AI2 創(chuàng)建的 Hugging Face RewardBench 排行榜上名列第一，用于評估獎勵(lì)模型的能力、安全性和缺陷。

在這個(gè)合成數(shù)據(jù) pipeline 中，（1）Nemotron-4 340B Instruct 模型用于生成基于文本的合成輸出。然后，評估模型（2） Nemotron-4 340B Reward 評估生成的文本并提供反饋，從而指導(dǎo)迭代改進(jìn)并確保合成數(shù)據(jù)的準(zhǔn)確。

研究人員還可以使用自己的專有數(shù)據(jù)，結(jié)合已包含的 HelpSteer2 數(shù)據(jù)集，來定制 Nemotron-4 340B 基礎(chǔ)模型，從而創(chuàng)建自有的 Instruct 模型或獎勵(lì)模型。

論文地址：https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdf

方法介紹

Nemotron-4-340B-Base 模型架構(gòu)是一種標(biāo)準(zhǔn)的僅解碼器 Transformer 架構(gòu)，具有因果注意力掩碼、旋轉(zhuǎn)位置嵌入 (RoPE)、SentencePiece tokenizer 等。Nemotron-4-340B-Base 的超參數(shù)如表 1 所示。它有 94 億個(gè)嵌入?yún)?shù)和 3316 億個(gè)非嵌入?yún)?shù)。

下表為 Nemotron-4-340B-Base 模型的一些訓(xùn)練細(xì)節(jié)，表中總結(jié)了批大小漸變的 3 個(gè)階段，包括每次迭代時(shí)間和模型 FLOP/s 利用率。

為了開發(fā)強(qiáng)大的獎勵(lì)模型，英偉達(dá)收集了一個(gè)包含 10k 人類偏好數(shù)據(jù)的數(shù)據(jù)集，稱為 HelpSteer2，并公開發(fā)布了這個(gè)數(shù)據(jù)集。

數(shù)據(jù)集地址：https://huggingface.co/datasets/nvidia/HelpSteer2

回歸獎勵(lì)模型 Nemotron-4-340B-Reward 建立在 Nemotron-4-340B-Base 模型之上，并用新的獎勵(lì)頭替換最后的 softmax 層。這個(gè)頭是一個(gè)線性投影，它將最后一層的隱藏狀態(tài)映射到 HelpSteer 屬性（有用性、正確性、連貫性、復(fù)雜性、冗長性）的五維向量中。在推理過程中，這些屬性值可以通過加權(quán)和聚合為總體獎勵(lì)。這種獎勵(lì)模式為訓(xùn)練 Nemotron-4-340B-Instruct 提供了堅(jiān)實(shí)的基礎(chǔ)。

該研究發(fā)現(xiàn)這樣的模型在 RewardBench 上表現(xiàn)非常出色：

用 NeMo 微調(diào)，用 TensorRT-LLM 優(yōu)化推理

使用開源的 NVIDIA NeMo 和 NVIDIA TensorRT-LLM，開發(fā)者可以優(yōu)化他們的指導(dǎo)模型和獎勵(lì)模型的效率，從而生成合成數(shù)據(jù)并對響應(yīng)進(jìn)行評分。

所有 Nemotron-4 340B 模型都使用 TensorRT-LLM 進(jìn)行了優(yōu)化，以利用張量并行性，這是一種模型并行性，其中單個(gè)權(quán)重矩陣在多個(gè) GPU 和服務(wù)器上分割，從而實(shí)現(xiàn)大規(guī)模的高效推理。

Nemotron-4 340B Base 經(jīng)過 9 萬億個(gè) token 的訓(xùn)練，可以使用 NeMo 框架進(jìn)行定制，以適應(yīng)特定的用例或領(lǐng)域。這種微調(diào)過程受益于大量的預(yù)訓(xùn)練數(shù)據(jù)，并為特定的下游任務(wù)提供更準(zhǔn)確的輸出。

在這當(dāng)中，NeMo 框架提供了多種定制方法，包括監(jiān)督微調(diào)和參數(shù)高效微調(diào)方法，如低秩自適應(yīng) (LoRA)。

為了提升模型質(zhì)量，開發(fā)者可以使用 NeMo Aligner 和由 Nemotron-4 340B Reward 注釋的數(shù)據(jù)集對其模型進(jìn)行對齊。對齊是訓(xùn)練大型語言模型的一個(gè)關(guān)鍵步驟，其中模型行為通過使用類似 RLHF 算法進(jìn)行微調(diào)，以確保其輸出安全、準(zhǔn)確、符合上下文且與其既定目標(biāo)一致。

尋求企業(yè)級支持和生產(chǎn)環(huán)境安全的企業(yè)也可以通過云原生的 NVIDIA AI Enterprise 軟件平臺訪問 NeMo 和 TensorRT-LLM。該平臺為生成式 AI 基礎(chǔ)模型提供了加速和高效的運(yùn)行時(shí)環(huán)境。

評測數(shù)據(jù)

圖 1 突出顯示了 Nemotron-4 340B 模型家族在選定任務(wù)中的準(zhǔn)確性。具體來說：

Nemotron-4-340B-Base 在 ARC-Challenge、MMLU 和 BigBench Hard 基準(zhǔn)等常識推理任務(wù)上與 Llama-3 70B、Mixtral 8x22B 和 Qwen-2 72B 等開放訪問基礎(chǔ)模型相媲美。

在指令遵循和聊天功能方面，Nemotron-4-340B-Instruct 超越了相應(yīng)的指令模型。Nemotron-4-340B Reward 在 RewardBench 上實(shí)現(xiàn)了最高準(zhǔn)確率，甚至超越了 GPT-4o-0513 和 Gemini 1.5 Pro-0514 等專有模型。

在 Nemotron-4-340B 推出后，評測平臺立即放出了它的基準(zhǔn)成績，可見在 Arena-Hard-Auto 等硬基準(zhǔn)測試中它的成績超越了 Llama-3-70b

這是否意味著，新的業(yè)界最強(qiáng)大模型已經(jīng)出現(xiàn)？

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="ihe3t"><li id="ihe3t"><progress id="ihe3t"></progress></li></p>