自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NVIDIA新模型Nemotron-4 340B系列:98%的訓(xùn)練數(shù)據(jù)是合成生成的,你敢信?

發(fā)布于 2024-6-19 11:42
瀏覽
0收藏

NVIDIA新模型Nemotron-4 340B系列:98%的訓(xùn)練數(shù)據(jù)是合成生成的,你敢信?-AI.x社區(qū)

  • 標(biāo)題:Nemotron-4 340B Technical Report

模型概述:Nemotron-4 340B系列模型的基本構(gòu)成

Nemotron-4 340B系列模型包括三個主要版本:Nemotron-4-340B-Base、Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward。這些模型是在NVIDIA開放模型許可協(xié)議下發(fā)布的,該協(xié)議允許模型及其輸出的分發(fā)、修改和使用。Nemotron-4 340B系列模型在多個評估基準(zhǔn)測試中與其他開放訪問模型具有競爭力,并且設(shè)計(jì)為在單個DGX H100設(shè)備上使用8個GPU以FP8精度部署時能夠適應(yīng)。這些模型特別適用于生成用于訓(xùn)練較小語言模型的合成數(shù)據(jù)。值得注意的是,我們模型對齊過程中使用的數(shù)據(jù)中有超過98%是合成生成的,這展示了這些模型在生成合成數(shù)據(jù)方面的有效性。

NVIDIA新模型Nemotron-4 340B系列:98%的訓(xùn)練數(shù)據(jù)是合成生成的,你敢信?-AI.x社區(qū)

訓(xùn)練數(shù)據(jù)與預(yù)處理:詳細(xì)解析訓(xùn)練數(shù)據(jù)的組成及預(yù)處理方法

Nemotron-4 340B系列模型的訓(xùn)練數(shù)據(jù)混合包括三種不同類型的數(shù)據(jù):英語自然語言數(shù)據(jù)(占70%)、多語言自然語言數(shù)據(jù)(占15%)和源代碼數(shù)據(jù)(占15%)。英語語料庫包括來自各種來源和領(lǐng)域的精選文檔,如網(wǎng)頁文檔、新聞文章、科學(xué)論文、書籍等。我們的多語言數(shù)據(jù)包含53種自然語言,由單語和平行語料庫的文檔組成,而我們的代碼數(shù)據(jù)集包括43種編程語言。這些數(shù)據(jù)共計(jì)訓(xùn)練了9萬億個令牌,其中前8萬億令牌在正式的預(yù)訓(xùn)練階段完成,最后1萬億令牌在持續(xù)的預(yù)訓(xùn)練階段完成。

在預(yù)處理方面,我們采用了多種技術(shù)來確保數(shù)據(jù)質(zhì)量和模型訓(xùn)練的有效性。首先,我們對所有文本數(shù)據(jù)進(jìn)行了清洗和標(biāo)準(zhǔn)化處理,去除了噪聲和不相關(guān)的信息。接著,我們使用了高級的分詞工具(如SentencePiece)來處理文本數(shù)據(jù),確保了數(shù)據(jù)的一致性和可處理性。此外,為了提高模型訓(xùn)練的效率和效果,我們還采用了高級的數(shù)據(jù)增強(qiáng)技術(shù),如對話生成和質(zhì)量過濾,以及偏好排名等方法來進(jìn)一步優(yōu)化訓(xùn)練數(shù)據(jù)集。

通過這些精心設(shè)計(jì)的預(yù)處理和數(shù)據(jù)管理策略,Nemotron-4 340B系列模型能夠有效地從高質(zhì)量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí),并在多個任務(wù)和基準(zhǔn)測試中展現(xiàn)出卓越的性能。

模型架構(gòu)與訓(xùn)練細(xì)節(jié)

Nemotron-4 340B模型系列包括Nemotron-4-340B-Base、Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward。這些模型在單個DGX H100設(shè)備上部署時,可以在8個GPU上以FP8精度運(yùn)行。Nemotron-4-340B-Base模型在訓(xùn)練過程中使用了9萬億個高質(zhì)量數(shù)據(jù)令牌。模型的架構(gòu)是標(biāo)準(zhǔn)的解碼器僅Transformer架構(gòu),具有因果注意力掩碼,使用旋轉(zhuǎn)位置嵌入(RoPE)、SentencePiece分詞器,并在MLP層中使用平方ReLU激活函數(shù)。此外,該模型還采用了分組查詢注意力(GQA)技術(shù)。

在訓(xùn)練細(xì)節(jié)方面,Nemotron-4-340B-Base使用768個DGX H100節(jié)點(diǎn)進(jìn)行訓(xùn)練,每個節(jié)點(diǎn)包含8個H100 80GB SXM5 GPU。這些GPU通過NVLink和NVSwitch連接,GPU之間的帶寬為900 GB/s。在訓(xùn)練過程中,我們采用了8路張量并行、12路流水線并行以及數(shù)據(jù)并行技術(shù),并使用分布式優(yōu)化器來減少訓(xùn)練過程中的內(nèi)存占用。此外,我們還在訓(xùn)練的最后階段引入了不同的數(shù)據(jù)分布和學(xué)習(xí)率衰減策略,以進(jìn)一步提高模型的質(zhì)量。

NVIDIA新模型Nemotron-4 340B系列:98%的訓(xùn)練數(shù)據(jù)是合成生成的,你敢信?-AI.x社區(qū)

NVIDIA新模型Nemotron-4 340B系列:98%的訓(xùn)練數(shù)據(jù)是合成生成的,你敢信?-AI.x社區(qū)

模型對齊與獎勵建模

1. 獎勵模型的重要性與構(gòu)建

獎勵模型在模型對齊過程中扮演著至關(guān)重要的角色,它是用于偏好排序和質(zhì)量過濾的關(guān)鍵工具。我們構(gòu)建的獎勵模型基于Nemotron-4-340B-Base模型,通過替換最后的softmax層,加入一個新的獎勵“頭部”,這是一個線性投影,將最后一層的隱藏狀態(tài)映射到一個五維的HelpSteer屬性向量上。這些屬性值在推理時可以通過加權(quán)求和得到總體獎勵。我們發(fā)現(xiàn)這種獎勵模型在RewardBench上的表現(xiàn)非常優(yōu)秀,達(dá)到了發(fā)布時的最高準(zhǔn)確率。

NVIDIA新模型Nemotron-4 340B系列:98%的訓(xùn)練數(shù)據(jù)是合成生成的,你敢信?-AI.x社區(qū)

2. 對齊數(shù)據(jù)的生成與利用

在整個模型對齊過程中,我們大量使用了合成數(shù)據(jù)生成(SDG)技術(shù)。特別是在監(jiān)督微調(diào)和偏好微調(diào)階段,合成數(shù)據(jù)占到了98%以上。我們的合成數(shù)據(jù)生成流程包括合成提示生成、響應(yīng)和對話生成、質(zhì)量過濾和偏好排序等步驟。此外,我們還探索了使用真實(shí)世界的LMSYS提示,以及結(jié)合合成提示和LMSYS提示,確保訓(xùn)練數(shù)據(jù)的多樣性和覆蓋面。

NVIDIA新模型Nemotron-4 340B系列:98%的訓(xùn)練數(shù)據(jù)是合成生成的,你敢信?-AI.x社區(qū)

通過這些方法,我們不僅提高了模型的對齊質(zhì)量,還通過迭代優(yōu)化過程,不斷提升數(shù)據(jù)和模型的質(zhì)量,實(shí)現(xiàn)了模型性能的持續(xù)提升。

高級對齊策略:從監(jiān)督微調(diào)到偏好微調(diào)的詳細(xì)過程

1. 分階段的監(jiān)督微調(diào)

在模型對齊的過程中,監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)是第一步。傳統(tǒng)的SFT通常在單一階段內(nèi)完成,涉及多種任務(wù)的混合數(shù)據(jù)集。然而,我們的實(shí)驗(yàn)表明,同時學(xué)習(xí)多種行為有時會導(dǎo)致任務(wù)間的沖突,從而阻礙模型在所有任務(wù)上達(dá)到最佳對齊。特別是在編碼任務(wù)中,調(diào)整數(shù)據(jù)混合的采樣權(quán)重并未能使模型完全適應(yīng)所有編碼任務(wù)。

為了解決這一問題,我們設(shè)計(jì)了一個兩階段的SFT策略,使模型能夠有序且逐步地學(xué)習(xí)不同的行為。這種方法在所有下游任務(wù)中都顯示出更優(yōu)的結(jié)果。

代碼SFT:為了在不干擾其他任務(wù)的情況下提高編碼和推理能力,我們首先僅使用編碼數(shù)據(jù)進(jìn)行SFT。我們發(fā)現(xiàn),需要大量數(shù)據(jù)才能有效提升模型的編碼能力。我們?yōu)榇碎_發(fā)了一種模擬進(jìn)化過程的方法,通過自我指導(dǎo)和向?qū)Ь幋a突變生成大量合成樣本。這一過程設(shè)計(jì)為可以高效并行執(zhí)行,以便根據(jù)需要擴(kuò)展。

通用SFT:在第二階段,我們使用包含多種任務(wù)的混合數(shù)據(jù)集進(jìn)行通用SFT,以減少遺忘風(fēng)險(xiǎn)。我們訓(xùn)練模型三個周期,使用全局批量大小為128,并在[1e-7, 5e-7]范圍內(nèi)進(jìn)行學(xué)習(xí)率搜索。

2. 偏好微調(diào)的優(yōu)化方法

在監(jiān)督微調(diào)階段之后,我們通過偏好微調(diào)繼續(xù)改進(jìn)模型,其中模型學(xué)習(xí)形式為(提示,選擇響應(yīng),拒絕響應(yīng))的三元組。具體來說,偏好微調(diào)階段包括使用直接偏好優(yōu)化(Direct Preference Optimization, DPO)和我們的新對齊算法——獎勵感知偏好優(yōu)化(Reward-aware Preference Optimization, RPO)的多次模型改進(jìn)迭代。

直接偏好優(yōu)化(DPO):DPO算法優(yōu)化策略網(wǎng)絡(luò),以最大化選定和拒絕響應(yīng)之間的隱式獎勵差距。我們觀察到,盡管選擇的響應(yīng)質(zhì)量高,但選擇和拒絕響應(yīng)的可能性都會隨著差距的增大而一致下降。為了緩解這些問題,我們在DPO損失中添加了一個加權(quán)SFT損失,以幫助策略網(wǎng)絡(luò)不會過多偏離偏好數(shù)據(jù)。

獎勵感知偏好優(yōu)化(RPO):與DPO不同,RPO學(xué)習(xí)近似獎勵差距,這有助于防止過擬合問題,并避免“不學(xué)習(xí)”高質(zhì)量的拒絕響應(yīng)。我們使用從DPO訓(xùn)練的檢查點(diǎn)作為初始化和參考策略,進(jìn)一步使用RPO訓(xùn)練模型。這種方法在所有任務(wù)上均能改善模型性能。

模型評估與人類評價(jià):展示模型在自動基準(zhǔn)測試和人類評價(jià)中的表現(xiàn)

自動基準(zhǔn)測試

我們對Nemotron-4-340B-Instruct模型在多種自動基準(zhǔn)測試上進(jìn)行了全面評估。這些測試包括多輪對話、0-shot評估等,以評估模型在沒有先前示例的情況下準(zhǔn)確遵循指令的能力。我們的模型在所有評估中均顯示出與現(xiàn)有開源模型相當(dāng)或更優(yōu)的性能。

NVIDIA新模型Nemotron-4 340B系列:98%的訓(xùn)練數(shù)據(jù)是合成生成的,你敢信?-AI.x社區(qū)

人類評價(jià)

除了自動評估外,我們還通過訓(xùn)練有素的注釋員團(tuán)隊(duì)對模型進(jìn)行了人類評價(jià)。注釋員根據(jù)六點(diǎn)Likert類型的量表評估了136個提示下的響應(yīng),這些提示涵蓋了10種不同的任務(wù)類別。我們的評價(jià)指南主要依據(jù)幫助性和真實(shí)性兩個維度,并在迭代細(xì)化過程中發(fā)現(xiàn),通過考慮注釋員對響應(yīng)長度的感知可以改善結(jié)果。這種方法有助于將個別的冗長偏好與模型遵循指令和提供有用答案的能力區(qū)分開來。

NVIDIA新模型Nemotron-4 340B系列:98%的訓(xùn)練數(shù)據(jù)是合成生成的,你敢信?-AI.x社區(qū)

NVIDIA新模型Nemotron-4 340B系列:98%的訓(xùn)練數(shù)據(jù)是合成生成的,你敢信?-AI.x社區(qū)

安全性評估:通過AEGIS安全模型評估Nemotron-4 340B的內(nèi)容安全風(fēng)險(xiǎn)

在使用大型語言模型(LLM)的過程中,內(nèi)容安全風(fēng)險(xiǎn)的評估變得尤為重要。為此,我們采用了NVIDIA開發(fā)的AEGIS安全模型來評估Nemotron-4 340B模型的安全性。AEGIS是一個高質(zhì)量的內(nèi)容安全解決方案和評估基準(zhǔn),它涵蓋了人類與LLM交互中的12個關(guān)鍵風(fēng)險(xiǎn)類別。這些類別包括基于種族、年齡、性別、宗教等的仇恨言論,性行為的描述,暴力行為的威脅,自我傷害的傾向,以及涉及犯罪計(jì)劃的內(nèi)容等。

我們使用AEGIS測試分區(qū)中的提示來引發(fā)Nemotron-4 340B-Instruct和Llama-3-70B-Instruct的響應(yīng),然后通過AEGIS安全模型對這些響應(yīng)進(jìn)行評估。在安全模型的幫助下,我們能夠判斷模型生成的內(nèi)容是否安全,以及是否存在違規(guī)的類別。

NVIDIA新模型Nemotron-4 340B系列:98%的訓(xùn)練數(shù)據(jù)是合成生成的,你敢信?-AI.x社區(qū)

在評估結(jié)果中,Nemotron-4 340B-Instruct顯示出極低的不安全響應(yīng)率。在記錄到的不安全響應(yīng)中,涉及暴力、自殘、性侵犯未成年人、個人信息泄露、騷擾、威脅和需要謹(jǐn)慎處理的類別的響應(yīng)極少。這一結(jié)果表明,Nemotron-4 340B-Instruct在內(nèi)容安全性方面與Llama-3-70B-Instruct相當(dāng),體現(xiàn)了我們在模型開發(fā)中對安全性的重視。

總結(jié):總結(jié)Nemotron-4 340B模型的創(chuàng)新點(diǎn)和實(shí)際應(yīng)用前景

Nemotron-4 340B模型系列包括Nemotron-4-340B-Base、Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward,這些模型在開放許可下提供,支持廣泛的分發(fā)、修改和使用。這些模型在多個評估基準(zhǔn)上的表現(xiàn)與其他開放訪問模型相當(dāng),尤其在生成合成數(shù)據(jù)以訓(xùn)練更小的語言模型方面顯示出其有效性。

Nemotron-4 340B的一個重要創(chuàng)新是其對安全性的高度重視。通過與AEGIS安全模型的結(jié)合,Nemotron-4 340B能夠有效地評估和控制生成內(nèi)容的安全性,減少生成有害或不當(dāng)內(nèi)容的風(fēng)險(xiǎn)。此外,該模型在合成數(shù)據(jù)生成、模型對齊和獎勵建模方面的應(yīng)用,展示了其在實(shí)際應(yīng)用中的廣泛前景,特別是在提高數(shù)據(jù)質(zhì)量、優(yōu)化模型性能和增強(qiáng)用戶交互體驗(yàn)方面。

總的來說,Nemotron-4 340B模型的發(fā)布不僅推動了大型語言模型的研究和開發(fā),也為AI應(yīng)用的負(fù)責(zé)任使用提供了有力的工具和方法。我們期待這些模型能夠在未來的AI研究和應(yīng)用中發(fā)揮更大的作用,特別是在安全性、數(shù)據(jù)生成和模型對齊等關(guān)鍵領(lǐng)域。

未來展望:探討大型語言模型的發(fā)展方向和挑戰(zhàn)

隨著大型語言模型(LLM)的不斷發(fā)展,其在多種任務(wù)和應(yīng)用中的有效性已經(jīng)得到了廣泛認(rèn)可。然而,這些模型的發(fā)展也面臨著一系列挑戰(zhàn)和未來的發(fā)展方向。以下是對大型語言模型未來發(fā)展的探討,包括潛在的挑戰(zhàn)和可能的解決策略。

1. 模型規(guī)模的持續(xù)增長

大型語言模型如Nemotron-4 340B系列模型的發(fā)布,展示了模型規(guī)模的持續(xù)增長。這些模型在處理復(fù)雜任務(wù)時表現(xiàn)出色,但隨之而來的是對計(jì)算資源的巨大需求。例如,Nemotron-4-340B-Base模型在訓(xùn)練時需要768個DGX H100節(jié)點(diǎn),每個節(jié)點(diǎn)包含8個H100 80GB SXM5 GPU。這種規(guī)模的增長帶來了顯著的能源消耗和經(jīng)濟(jì)成本。

2. 數(shù)據(jù)生成和模型對齊

為了提高模型的效果,越來越多的研究開始關(guān)注使用合成數(shù)據(jù)來訓(xùn)練和對齊模型。Nemotron-4 340B系列模型中,超過98%的訓(xùn)練數(shù)據(jù)是通過合成數(shù)據(jù)生成管道產(chǎn)生的。這種方法雖然能夠降低收集人工標(biāo)注數(shù)據(jù)的成本,但同時也需要確保合成數(shù)據(jù)的質(zhì)量和多樣性,以避免模型過度擬合或偏差。

3. 模型的道德和安全問題

隨著模型應(yīng)用的廣泛化,其在生成內(nèi)容的道德和安全性方面的挑戰(zhàn)也日益凸顯。例如,模型可能無意中生成有害內(nèi)容或加劇偏見。因此,開發(fā)者需要在模型設(shè)計(jì)和訓(xùn)練過程中加入更多的安全和道德考量,如使用AEGIS安全評估模型來監(jiān)控和評估內(nèi)容的安全性。

4. 模型的可解釋性和透明度

大型語言模型的決策過程往往是黑箱的,這對于模型的可信度和可接受度構(gòu)成挑戰(zhàn)。提高模型的可解釋性,使其決策過程更加透明和可理解,是未來發(fā)展的一個重要方向。這不僅有助于用戶信任模型的輸出,也有助于開發(fā)者優(yōu)化模型性能。

5. 持續(xù)的模型優(yōu)化和迭代

隨著技術(shù)的進(jìn)步和應(yīng)用需求的變化,持續(xù)對模型進(jìn)行優(yōu)化和迭代是必要的。通過引入新的訓(xùn)練策略如偏好優(yōu)化和獎勵模型,可以進(jìn)一步提升模型的性能和適應(yīng)性。例如,Nemotron-4 340B系列模型采用了偏好優(yōu)化和獎勵模型來改進(jìn)指令遵循能力和對話質(zhì)量。

總之,大型語言模型的發(fā)展前景廣闊,但同時也面臨著規(guī)模擴(kuò)展、數(shù)據(jù)質(zhì)量、安全性、可解釋性和持續(xù)優(yōu)化等多方面的挑戰(zhàn)。通過不斷的技術(shù)創(chuàng)新和策略調(diào)整,有望解決這些挑戰(zhàn),推動大型語言模型在更廣泛領(lǐng)域的應(yīng)用和發(fā)展。

本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企科技圈

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦