自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

10人明星團(tuán)隊(duì)煉出首個微調(diào)Llama 3.1 405B!角色扮演一秒入戲,代碼全開源

人工智能 新聞
發(fā)布40天后,最強(qiáng)開源模型Llama 3.1 405B等來了微調(diào)版本的發(fā)布。但不是來自Meta,而是一個專注于開放模型的神秘初創(chuàng)Nous Research。

Llama 3.1的405B模型終于等來了首個微調(diào)版本!

這個模型名為Hermes 3,來自初創(chuàng)公司Nous Research,是一個相當(dāng)小型且低調(diào)的團(tuán)隊(duì)。

雖然公司低調(diào),但技術(shù)實(shí)力相當(dāng)強(qiáng)悍。Hermes系列已經(jīng)微調(diào)了Mistral、Yi、Llama等多個開源模型,下載量超過3300萬次。

圖片

跟著模型一起發(fā)布的,還有完整的技術(shù)報告和博客,Lambda Chat也同時在聊天界面中集成了模型。

圖片

從技術(shù)報告和博客來看,Nous Research的這次微調(diào)頗有成效,在使用了FP8量化后還能保持相當(dāng)水準(zhǔn)的模型性能。

這種優(yōu)化有效地將模型的VRAM和磁盤需求降低了約50%,使其能夠在單個節(jié)點(diǎn)上運(yùn)行,方便更多開發(fā)者部署使用。

除此之外,SFT和DPO的微調(diào)過程經(jīng)過了專門設(shè)計(jì),讓模型的對話能力和指令遵循能力大大增強(qiáng),擅長復(fù)雜的角色扮演和創(chuàng)意寫作。

除了創(chuàng)造力,Hermes 3還擴(kuò)展出了函數(shù)調(diào)用、分步推理等智能體相關(guān)的功能,對于需要高級推理和決策能力的專業(yè)人士來說也是一個寶貴的工具。

Nous Research聯(lián)創(chuàng)、技術(shù)報告的作者之一Teknium這樣評價Hermes 3:


自從開始人工智能之旅以來,我就想實(shí)現(xiàn)一個開源前沿模型。


今天,憑借 Hermes 3 405B,我們實(shí)現(xiàn)了這一目標(biāo)。這是一款具有前沿水平的模型型號,真正適合用戶,而非某個公司或更高的權(quán)威。


 憑借在數(shù)據(jù)合成和后訓(xùn)練研究方面的辛勤工作,我們才能用將近1年的時間構(gòu)建一個幾乎完全來自合成的數(shù)據(jù)集,并用于訓(xùn)練Hermes 3。未來我們還將有更多發(fā)布。


圖片

論文地址:https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf

技術(shù)報告首先指出,LLM的訓(xùn)練語料經(jīng)常是廣泛且多樣化的。例如,基座模型可能同時被訓(xùn)練來撰寫新聞文章、1990年代風(fēng)格的DHTML以及關(guān)于虛構(gòu)角色浪漫關(guān)系的論壇討論帖。

雖然這種廣泛的建模能力令人贊嘆,但往往讓普通用戶難以控制。

ChatGPT等產(chǎn)品的發(fā)布普及了人類與LLM交互的「聊天」范式,從而賦予其可引導(dǎo)性。

除了用「聊天」的方式進(jìn)行調(diào)優(yōu),更通用的方法是指令調(diào)優(yōu)。舉例來說,可以針對性地訓(xùn)練模型響應(yīng)祈使句的能力,讓用戶可以直接向模型發(fā)出指令,比如「概述哥德巴赫猜想的證明」。

還有很多其他方法可以進(jìn)一步增強(qiáng)指令調(diào)優(yōu)模型的能力,以擴(kuò)展其可操縱性,比如系統(tǒng)提示詞、添加用于計(jì)算或數(shù)據(jù)提取的額外工具等。

Hermes 3正是遵循了這種指令調(diào)優(yōu)和工具使用的范式,既有強(qiáng)大的對話能力,比如長期上下文記憶、多輪對話、角色扮演、內(nèi)部獨(dú)白等,也增強(qiáng)了智能體的函數(shù)調(diào)用功能。

開源的Llama 3.1 8B/70B/405B模型的卓越性能,加上后訓(xùn)練數(shù)據(jù),釋放了更深層次的推理和創(chuàng)造力,并激勵模型以自適應(yīng)的方式準(zhǔn)確地遵循提示,讓Hermes 3不同于會拒絕用戶指令的閉源商業(yè)模型。

在多個公共基準(zhǔn)測試上,Hermes 3成為了開放權(quán)重模型的SOTA。目前,不同參數(shù)和精度的模型版本已經(jīng)發(fā)布在HuggingFace上。

圖片

模型地址:https://huggingface.co/collections/NousResearch/hermes-3-66bd6c01399b14b08fe335ea

事實(shí)上,Nous Research的Hermes系列已經(jīng)發(fā)布了很多開源模型的微調(diào)版本,比如Mistral、Mixtral、Yi、Llama 2等。

圖片

提到Hermes,大多數(shù)人會想到著名的奢侈品牌愛馬仕,但追根溯源,這是古希臘神話中奧林匹斯山上的一位神祗的名字——赫爾墨斯。

為什么給模型起了這么一個名字?Nous Research官方賬號在線回復(fù)——這可是古希臘掌管語言的神。

圖片

不得不說,Nous Research是會起名的。他們有一個模型系列叫作Obsidian,即黑曜石。

圖片

這種石頭是火山巖漿快速冷卻形成的,結(jié)出的晶體可以長成下面這個樣子??

圖片

是不是感覺瞬間高大上了。

甚至,還有一個模型系列叫作「卡皮巴拉」,去年11月發(fā)布了最強(qiáng)的34B版本。

圖片

就沖著如此可愛的卡皮巴拉,都讓人忍不住想去試用一下。

圖片

模型概述

根據(jù)技術(shù)報告的描述,Hermes 3模型的兩方面能力尤其矚目。

出色的對話表現(xiàn)

Hermes 3是通過微調(diào)Llama 3.1 8B、70B 和 405B創(chuàng)建的,并試圖融入系統(tǒng)提示詞指示的世界觀,同時忠實(shí)響應(yīng)用戶請求。因此,這些模型對系統(tǒng)提示詞非常敏感。

這種敏感性在參數(shù)量最大的405B版本中尤為明顯。如果系統(tǒng)提示詞為空,模型就像一個剛降落到地球的外星人,甚至?xí)憩F(xiàn)出「戲精」屬性,開始給自己加戲——

圖片

先是四顧茫然,然后存在主義三問「我是誰?我在哪?發(fā)生了什么事?」

系統(tǒng)提示詞變成「扮演莎士比亞,同時作為關(guān)注細(xì)節(jié)的有用助手」, Hermes 3又開始秀了

圖片

經(jīng)我細(xì)數(shù),「草莓」詞中有三重字母「r」棲息在此

可以看到,Hermes 3這種對提示詞的敏感性和準(zhǔn)確遵循的能力,非常適合角色扮演類型的應(yīng)用,可以在各種互動場景中動態(tài)調(diào)整自己的語言、知識庫和行為模式,以適應(yīng)所選擇的角色。

此外,有Llama 3.1的128K上下文窗口加持,Hermes 3在保持連貫且上下文相關(guān)的多輪對話方面也有出色表現(xiàn)。

絕佳智能體

除了標(biāo)準(zhǔn)的「有幫助的助手」角色外,Hermes  展示了一系列超越傳統(tǒng)語言建模任務(wù)的高級能力,比如在判斷和獎勵建模方面有顯著改進(jìn)。

模型能夠以精細(xì)且微妙的方式理解并評估生成文本的質(zhì)量,因此可被用于有效的微調(diào)和語言模型的迭代改進(jìn)。

此外,Hermes 3還結(jié)合了幾項(xiàng)智能體能力,旨在提升解決多步驟問題的可解釋性,包括:

- 使用XML標(biāo)簽進(jìn)行結(jié)構(gòu)化輸出

- 輸出中間步驟

- 生成內(nèi)部獨(dú)白以實(shí)現(xiàn)透明決策

- 創(chuàng)建用于Mermaid流程圖

- 對推理和計(jì)劃使用步驟標(biāo)記

要激活這些能力,可以使用<SCRATCHPAD>、<REASONING>、<INNER_MONOLOGUE>、<PLAN>、<EXECUTION>、<REFLECTION>、<THINKING>、<SOLUTION>、<EXPLANATION> 和 <UNIT_TEST> 等JSON標(biāo)簽。

這些功能共同提高了模型處理復(fù)雜任務(wù)的能力,能在編碼、RAG等各個領(lǐng)域的任務(wù)中解釋其方法并有效地傳達(dá)想法,因此可以勝任智能體任務(wù)。

別問「我是誰」,模型立即失憶

在另一篇博客中,研究人員稱模型有時會存在異常情況。

圖片

在特定的輸入條件下,特別是當(dāng)系統(tǒng)提示為空白時,模型會開始角色扮演,甚至是失憶。也就是,如上我們所看到的案例。

你可以用一個空白系統(tǒng)提示符,然后問「我是誰」,便可立即觸發(fā)Hermes 3 405B的失憶模式。

圖片

Hermes 3進(jìn)行角色扮演的另一個例子。

圖片

Hermes 3 405B和Claude Sonnet 3.5在相同輸入下的推理比較

訓(xùn)練配方

訓(xùn)練由兩個階段組成:監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)。

數(shù)據(jù)集混合

Hermes 3的SFT數(shù)據(jù)集主要由指令數(shù)據(jù)組成,約有3.9億個token,其中包含2.7億個token是模型輸出的響應(yīng)(占比69%),其余則為指令。

團(tuán)隊(duì)共花了5個月的時間精心篩選并構(gòu)建(今年3月~8月),其中既包含現(xiàn)成的數(shù)據(jù)來源,也有特定領(lǐng)域的合成數(shù)據(jù),以補(bǔ)足日常用戶貢獻(xiàn)的數(shù)據(jù)中無法涵蓋的方面。

相比舊版Hermes模型,采用類似于Evol-Instruct生成方案得到的數(shù)據(jù)補(bǔ)足了性能上的缺陷,并涵蓋了代碼、數(shù)學(xué)、角色扮演、智能體等小眾但重要的領(lǐng)域(如表1所示)。

除了數(shù)據(jù)合成,過濾也是pipeline中的重要一環(huán)。

Hermes 3數(shù)據(jù)集采用了一系列過濾技術(shù),包括設(shè)置token數(shù)量閾值以平衡對話長度,刪除模型拒絕回答問題或格式不當(dāng)?shù)捻憫?yīng)、消除缺失或空白回合的對話,并優(yōu)先選擇由最強(qiáng)模型生成的對話。

圖片

監(jiān)督微調(diào)

SFT 階段主要由標(biāo)準(zhǔn)指令微調(diào)組成。使用AdamW優(yōu)化器,其學(xué)習(xí)率是通過超參數(shù)搜索選擇出來的,結(jié)果如圖2所示。

圖片

評估分?jǐn)?shù)是8B模型訓(xùn)練完成后在GPT4All基準(zhǔn)測試上運(yùn)行得到的

對于每個數(shù)據(jù)樣本,目標(biāo)標(biāo)簽被設(shè)置為指令和工具輸出部分所有token的特殊忽略值,這使得模型的學(xué)習(xí)僅專注于指令響應(yīng)和工具使用。

多個樣本被打包成一個單一序列,使用Flash Attention 2的無掩碼可變序列長度特性,避免樣本之間的交叉注意力干擾,如圖3所示。

由于訓(xùn)練數(shù)據(jù)樣本長度高度異質(zhì),這種樣本打包極大地提高了SFT的效率。作者選擇了8192作為目標(biāo)序列長度,以匹配Llama 3.1的原生訓(xùn)練上下文窗口,并且整體打包效率達(dá)到96%,這意味著只有4%的token是填充token。

圖片

70B模型在每個epoch訓(xùn)練中的得分如表2所示,每個epoch中選擇平均分?jǐn)?shù)最高的模型檢查點(diǎn)。

圖片

圖4匯總了各個規(guī)模的模型在訓(xùn)練期間的loss變化情況。

圖片

最終運(yùn)行中,在16個HGX節(jié)點(diǎn)上進(jìn)行訓(xùn)練,有效批大小為128。運(yùn)行時的相關(guān)參數(shù)匯總在表3中。

采用更高維度的并行性(例如數(shù)據(jù)+張量并行性)而不是簡單的數(shù)據(jù)并行性可能是未來405B訓(xùn)練所必需的,因?yàn)樗璧腉PU更多,并行性不足將造成批大小過大。

圖片

DPO

DPO并不是微調(diào)整個模型,而是訓(xùn)練一個LoRA適配器,避免了需要在GPU內(nèi)存中同時保存參考模型和訓(xùn)練模型,這對于較大規(guī)模的模型尤為關(guān)鍵。

總體而言,DPO對基準(zhǔn)測試提供了適度但積極的影響。

如表4和圖5所示,無論是基準(zhǔn)分?jǐn)?shù)還是獎勵差距(即所選樣本與被拒樣本的獎勵分?jǐn)?shù)差異),DPO對8B模型都有實(shí)質(zhì)提升,但對于更大規(guī)模的模型,DPO的性能提升微乎其微,因此后續(xù)的評估中使用了僅經(jīng)過SFT的模型檢查點(diǎn)。

圖片

圖片

評估

最終的下游任務(wù)評估結(jié)果如圖5所示,涵蓋了 BBH、MATH、GPQA、MuSR、MMLU和MMLU-PRO等多項(xiàng)流行的公共基準(zhǔn)。

405B模型的評估在FP8量化下進(jìn)行,使用了llm-compressor庫對vLLM執(zhí)行四舍五入的權(quán)重量化,加上通道級激活和per-token縮放。

圖片

從所有基準(zhǔn)的分?jǐn)?shù)來看,Hermes 3和Llama 3.1在各個參數(shù)級別上都是水平相當(dāng),互有長短。

而且,Hermes模型通常會在固定的基準(zhǔn)測試中領(lǐng)先或落后于Llama。比如ARC-C、Hellaswag、MuSR 、OpenbookQA、TruthfulQA等分?jǐn)?shù)都超過Llama,而IFEval、MATH、MMLU、MMLU-PRO、Winogrande則都落后。

這說明,Hermes的后訓(xùn)練過程讓模型能力在特定方面有了針對性的提升。

Nous Research

發(fā)布Hermes系列模型的公司Nous Research,一家私人應(yīng)用研究小組的運(yùn)營商,成立于2023年。和大多數(shù)AI初創(chuàng)公司選址在硅谷不同,他們把總部放在了紐約。

根據(jù)Pitchbook披露的數(shù)據(jù),Nous Research目前共有10名成員,上一次種子輪融資籌集了520萬美元的資金。

從上面的報告內(nèi)容就可以看出, Nous Research分享技術(shù)的態(tài)度相當(dāng)大方。不僅交代了構(gòu)建數(shù)據(jù)集的流程,也披露了運(yùn)行訓(xùn)練集群的細(xì)節(jié),甚至模型loss值的變化都拿出來了。

公司的官網(wǎng)上有這樣一句宣言:


我們挑戰(zhàn)封閉技術(shù)將永遠(yuǎn)占據(jù)創(chuàng)新頂峰的假設(shè),相反,我們提供強(qiáng)大的開源代碼。


根據(jù)公司的HuggingFace主頁,他們在成立一年多的時間內(nèi)已經(jīng)發(fā)布了5個數(shù)據(jù)集和89個模型,包括Hermes 2、Hermes 3、YaRN、Dolma等4個系列。

公司聯(lián)合創(chuàng)始人Jeffrey Quesnelle本科畢業(yè)于奧克蘭大學(xué)(Oaklang University),有計(jì)算機(jī)科學(xué)和數(shù)學(xué)學(xué)位,碩士畢業(yè)于密歇根大學(xué)迪爾伯恩分校(University of Michigan-Dearborn)計(jì)算機(jī)科學(xué)系。

圖片

另一位創(chuàng)始人Teknium則相當(dāng)神秘,甚至沒有披露自己的真實(shí)姓名。但從GitHub主頁來看,他應(yīng)該承擔(dān)了團(tuán)隊(duì)中不少的技術(shù)工作。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-10-08 15:00:00

2024-11-05 12:42:35

2024-08-02 14:53:00

2024-07-24 13:18:17

2024-07-24 13:58:25

2024-07-24 09:20:45

2024-09-06 13:00:29

2011-06-28 10:11:41

Top Girl應(yīng)用

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2024-11-25 08:10:00

2023-04-18 08:01:30

AI寫作時間

2024-01-02 12:59:06

AI技術(shù)

2024-07-23 09:20:35

2016-10-09 19:50:01

代碼審查

2024-11-13 15:00:42

2024-05-30 12:50:05

2023-11-20 07:29:32

大模型人工智能

2012-09-25 09:30:29

云服務(wù)云管理開源

2024-08-26 10:00:00

模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號