自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

LLM數(shù)學性能暴漲168%，微軟14人團隊力作！合成數(shù)據(jù)2.0秘訣曝光，智能體生成教學

作者：新智元 2024-08-19 13:18:12

人工智能新聞

合成數(shù)據(jù)2.0秘訣曝光了！來自微軟的研究人員們提出了智能體框架AgentInstruct，能夠自動創(chuàng)建大量、多樣化的合成數(shù)據(jù)。經(jīng)過合成數(shù)據(jù)微調(diào)后的模型Orca-3，在多項基準上刷新了SOTA。

全世界高質(zhì)量數(shù)據(jù)幾乎枯竭。

AI科學家們?yōu)榱私鉀Q這一難題，可謂是絞盡腦汁。

目前來看，合成數(shù)據(jù)或許就是大模型的未來，也成為業(yè)界公認的解決之法。

就連英偉達科學家Jim Fan曾發(fā)文表示，合成數(shù)據(jù)將提供下一萬億個高質(zhì)量的訓練token。

但是，用合成數(shù)據(jù)，并非完全對LLM訓練有幫助。

前段時間，Nature封面研究顯示，合成數(shù)據(jù)迭代9次后，會讓大模型崩潰。而且，類似的研究比比皆是。

那么，我們該怎么辦呢？

最近，微軟團隊提出了可擴展的智能體框架——AgentInstruct，可自動創(chuàng)建大量多樣化、高質(zhì)量的合成數(shù)據(jù)。

它最大的優(yōu)勢在于，僅只用原始數(shù)據(jù)源，就能創(chuàng)建完整的提示和回應。

論文地址：https://arxiv.org/pdf/2407.03502

對此，研究人員使用AgentInstruct，創(chuàng)建了2500萬對「后訓練」數(shù)據(jù)集，涵蓋了多種使用技能，如文本編輯、創(chuàng)意寫作、工具使用、編碼、閱讀理解等。

然后，他們利用這些數(shù)據(jù)對Mistral-7b進行后訓練，得到了Orca-3模型。

與原始的Mistral-7b-Instruct相比，Orca-3在多個基準測試中，都顯示出顯著的性能提升。

而在數(shù)學方面上的表現(xiàn)，性能直接暴漲168%。

當「合成數(shù)據(jù)」遇上智能體

過去一年，我們見證了智能體的興起。

智能體可以生成高質(zhì)量的數(shù)據(jù)，通過反思和迭代，其能力反超了底層基礎(chǔ)大模型。

在這個過程中，智能體可以回顧解決方案，自我批評，并改進解決方案。它們甚至可以利用工具，如搜索API、計算器、代碼解釋，來擴展大模型的能力。

此外，多智能體還可以帶來更多的優(yōu)勢，比如模擬場景，同時生成新的提示和響應。

它們還可以實現(xiàn)數(shù)據(jù)生成工作流的自動化，減少或消除某些任務對人工干預的需求。

論文中，作者提出了「生成式教學」的概念。

這是說，使用合成數(shù)據(jù)進行后訓練，特別是通過強大的模型創(chuàng)建數(shù)據(jù)，來教另一個模型新技能或行為。

AgentInstruct是生成式教學的一個智能體解決方案。

總而言之，AgentInstruct可以創(chuàng)建：

- 高質(zhì)量數(shù)據(jù)：使用強大的模型如GPT-4，結(jié)合搜索和代碼解釋器等工具。

- 多樣化數(shù)據(jù)：AgentInstruct同時生成提示和回應。它使用多智能體（配備強大的LLM、工具和反思流程）和一個包含100多個子類別的分類法，來創(chuàng)建多樣化和高質(zhì)量的提示和回應。

- 大量數(shù)據(jù)：AgentInstruct可以自主運行，并可以應用驗證和數(shù)據(jù)過濾的流程。它不需要種子提示，而是使用原始文檔作為種子。

生成式教學：AgentInstruct

我們?nèi)绾蝿?chuàng)建海量數(shù)據(jù)？如何保證生成的數(shù)據(jù)具有多樣性？如何生成復雜或微妙的數(shù)據(jù)？

為此，研究人員概述了解決這些挑戰(zhàn)的結(jié)構(gòu)化方法：

具體來說，AgentInstruct定義了三種不同的自動化生成流程：

內(nèi)容轉(zhuǎn)換流程：將原始種子轉(zhuǎn)換為中間表示，簡化了針對特定目標創(chuàng)建指令的過程。

種子指令生成流程：由多個智能體組成，以內(nèi)容轉(zhuǎn)換流程的轉(zhuǎn)換后種子為輸入，生成一組多樣化的指令。

指令改進流程：以種子指令流程的指令為輸入，迭代地提升其復雜性和質(zhì)量。

接下來，研究人員為為17種不同的技能實現(xiàn)了這些流程，每種技能都有多個子類別。

這些技能包括閱讀理解、問答、編碼、檢索增強生成、創(chuàng)意寫作、工具/API使用和網(wǎng)絡控制。

完整列表，如下表1中所示。

接下來，研究人員通過以下三種技能的案例研究，來解釋這些工作流是如何運作的。

實驗結(jié)果

正如開頭所述，研究人員使用2580萬對指令，微調(diào)Mistral-7b-v0.1模型，然后得到Orca-3。

那么經(jīng)過使用AgentInstruct數(shù)據(jù)訓練Orca-3，性能究竟如何？

AgentInstruct的目標是合成一個大型且多樣化的數(shù)據(jù)集，其中包含不同難度級別的數(shù)據(jù)。

在這個數(shù)據(jù)集上，像Orca-2.5、Mistral-Instruct-7b和ChatGPT這樣的基準模型得分遠低于10分，顯示出它們相對于GPT-4（被指定為基準，得分為10）的劣勢。

圖4中描繪的性能比較展示了基準模型與Orca-3之間的對比分析。

這個圖顯示了在AgentInstruct數(shù)據(jù)的支持下，后訓練過程中各種能力的顯著提升。

表2概括了所有評估維度的平均得分。

平均而言，包括每輪訓練輪后的Orca-3，AgentInstruct數(shù)據(jù)的引入使性能相比Orca 2.5基準提高了33.94%，相比Mistral-Instruct-7B提高了14.92%。

刷新多項基準SOTA

表3中給出了每個基準的所有基線的結(jié)果。

比如，在AGIEval提升40%，在MMLU上提升19%，在GSM8K上提升54%，在BBH上提升38%，在AlpacaEval上提升45%。

此外，它在性能上持續(xù)超過其他模型，如LLAMA-8B-instruct和GPT-3.5-turbo。

就閱讀理解任務來說，對于LLM至關(guān)重要。對于小模型來說，也更為重要。

通過使用AgentInstruct進行針對性訓練，可以觀察到Mistral的閱讀理解能力有了實質(zhì)性的提升（見表4）——相比Orca 2.5提高了18%，相對于Mistral-Instruct-7b提高了21%。

此外，通過利用這種數(shù)據(jù)驅(qū)動的方法，研究人員將一個7B參數(shù)的模型在LSATs的閱讀理解部分的表現(xiàn)，提升到了與GPT-4相匹配的水平。

再拿數(shù)學來說，通過AgentInstruct，成功提升了Mistral在從小學到大學水平的各種難度數(shù)學問題上的熟練程度，如下表5所示。

在各種流行的數(shù)學基準測試上，改進幅度從44%-168%不等。

應當強調(diào)的是，生成式教學的目標是教授一種技能，而不是生成數(shù)據(jù)來滿足特定的基準測試。AgentInstruct在生成式教學方面的有效性通過在各種數(shù)學數(shù)據(jù)集上的顯著改進得到了證明。

表6顯示了，Orca-3-7B模型和FoFo基準上，其他開源和閉源基準的性能。

另外，通過 AgentInstruct 方法，成功地將模型幻覺減少31.34%，同時達到了與GPT-4（教師）相當?shù)馁|(zhì)量水平。

表8顯示了使用/不使用RAG的MIRAGE上所有模型的結(jié)果。

總之，AgentInstruct生成教學方法，為模型后訓練生成大量多樣化和高質(zhì)量數(shù)據(jù)的挑戰(zhàn)，提供了一個有前途的解決方案。

責任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sup id="iajog"><rt id="iajog"><table id="iajog"></table></rt></sup>