自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟華人團(tuán)隊(duì)最新研究:從LLM到LAM,讓大模型真正具有「行動(dòng)力」!

人工智能 新聞
AI大模型正從僅會(huì)聊天的LLM進(jìn)化為能夠執(zhí)行任務(wù)的大型行動(dòng)模型LAM。它不僅能理解用戶的指令,還能在軟件環(huán)境中自主執(zhí)行任務(wù)。

LLM只能針對(duì)問題進(jìn)行回答與分析?這種「隔靴搔癢」的體驗(yàn)也許就要被終結(jié)了!

最近,微軟推出了一項(xiàng)名為「大型行動(dòng)模型」(Large Aciton Model,LAM)的創(chuàng)新技術(shù),標(biāo)志著大模型從語言理解向?qū)嶋H執(zhí)行任務(wù)的轉(zhuǎn)變。

與傳統(tǒng)的LLM不同,LAM不僅能理解用戶的自然語言指令,還能將這些指令轉(zhuǎn)化為具體的行動(dòng)步驟,在軟件環(huán)境中自主執(zhí)行文檔編輯、表格處理等任務(wù)。

雖然這實(shí)際上并不是一個(gè)全新的概念,但LAM是首款能夠操作Microsoft Office來執(zhí)行任務(wù)的模型。

圖片

論文鏈接:https://arxiv.org/pdf/2412.10047

不同于GPT-4o等負(fù)責(zé)處理和生成文本的傳統(tǒng)語言模型,LAM可以將用戶請(qǐng)求轉(zhuǎn)化為實(shí)際操作。

例如同樣是給一個(gè)男人買夾克,LLM只能給出文本步驟,而LAM卻可以直接像女朋友一樣挑選款式并網(wǎng)購(gòu)。

圖片

哪個(gè)更加有實(shí)際效用,這就自不必多說了。畢竟誰不想有個(gè)能直接替自己去解決一些生活瑣碎的「分身」呢?

LAM能夠理解用戶通過文本、語音或圖像等各種輸入方式表達(dá)的需求,并將這些需求轉(zhuǎn)化為詳細(xì)的逐步計(jì)劃。

執(zhí)行過程中,LAM能將復(fù)雜的任務(wù)分解為多個(gè)子任務(wù),根據(jù)實(shí)時(shí)情況調(diào)整其行動(dòng)策略,以應(yīng)對(duì)執(zhí)行過程中的意外情況。

此外,LAM還能自主探索與學(xué)習(xí),獨(dú)立探索新的解決方案。

讓LLM行動(dòng)起來

LAM通常建立在LLM的基礎(chǔ)上,但是從LLM到LAM的過渡卻并沒那么容易,如下圖所示。

圖片

從LLM到LAM的轉(zhuǎn)變

將LLM轉(zhuǎn)化為功能性LAM的過程涉及多個(gè)復(fù)雜的階段,每個(gè)階段都需要大量的努力與專業(yè)知識(shí)。

首先需要利用LLM來處理用戶數(shù)據(jù)集,并生成對(duì)應(yīng)的文本輸出,將任務(wù)分解為行動(dòng)與相應(yīng)的計(jì)劃。

經(jīng)過微調(diào)之后,接受了任務(wù)要求的LAM就能輸出對(duì)應(yīng)的文本格式的行動(dòng)輸出。

最后將其輸出反饋給智能體,讓其與環(huán)境不斷地實(shí)時(shí)交互。

如何開發(fā)LAM?

既然LAM能夠?yàn)槲覀儓?zhí)行任務(wù),化為我們的「分身」來幫我們與世界互動(dòng),那么如何開發(fā)與部署LAM就是一個(gè)關(guān)鍵的問題。

LAM的訓(xùn)練過程包括以下關(guān)鍵步驟:

1. 任務(wù)分解與規(guī)劃:模型首先學(xué)習(xí)將任務(wù)分解為邏輯步驟,并生成詳細(xì)的執(zhí)行計(jì)劃。

2. 行動(dòng)生成與執(zhí)行:將用戶意圖轉(zhuǎn)化為具體的行動(dòng)指令,包括圖形用戶界面操作、API調(diào)用等。

3. 動(dòng)態(tài)調(diào)整與優(yōu)化:在執(zhí)行過程中,LAM能根據(jù)反饋調(diào)整其行動(dòng)策略,以提高成功率和效率。

4. 從獎(jiǎng)勵(lì)機(jī)制學(xué)習(xí):通過獎(jiǎng)勵(lì)機(jī)制進(jìn)行微調(diào)訓(xùn)練,進(jìn)一步優(yōu)化模型的性能。

圖片

階段1:任務(wù)分解與規(guī)劃

在初始階段,模型將任務(wù)分解為邏輯步驟。

研究人員以Mistral-7B作為基礎(chǔ)模型,收集了來自多個(gè)來源的76,672個(gè)任務(wù)-計(jì)劃對(duì)(???? , ????),包括應(yīng)用幫助文檔、WikiHow和歷史搜索查詢。

在此階段不會(huì)生成具體的行動(dòng),但模型獲得了強(qiáng)大的規(guī)劃能力,為后續(xù)的動(dòng)作執(zhí)行提供了重要基礎(chǔ)。

階段2:行動(dòng)生成與執(zhí)行

在此階段,作者引入了由GPT-4o標(biāo)注的任務(wù)-動(dòng)作軌跡,讓LAM向先進(jìn)的AI模型GPT-4o學(xué)習(xí)。

將學(xué)習(xí)到的任務(wù)規(guī)劃轉(zhuǎn)化為可執(zhí)行的動(dòng)作,從GPT-4o的成功經(jīng)驗(yàn)中汲取知識(shí)和策略,更好地理解和處理復(fù)雜任務(wù)。

本文中的示例應(yīng)用是Microsoft Word,在該環(huán)境下共收集了2,192個(gè)成功的專家軌跡。每個(gè)軌跡由一系列狀態(tài)-動(dòng)作對(duì)(???? , ????)組成。通過對(duì)這些成功的行動(dòng)序列進(jìn)行學(xué)習(xí),我們獲得了LAM2。

階段3:動(dòng)態(tài)調(diào)整與優(yōu)化

之后,我們讓模型嘗試解決GPT-4o失敗的任務(wù),通過ReAct機(jī)制與環(huán)境進(jìn)行交互。

首先從GPT-4o失敗的任務(wù)中采樣2,284個(gè)任務(wù),并收集了LAM2生成的496個(gè)成功軌跡,將這些數(shù)據(jù)與2,192個(gè)GPT-4o成功軌跡相結(jié)合,形成了一個(gè)增強(qiáng)數(shù)據(jù)集。

在這一階段,LAM會(huì)自主探索新的解決方案,嘗試解決那些曾難倒其他AI系統(tǒng)的問題,拓展自身能力邊界,增強(qiáng)對(duì)不同任務(wù)和場(chǎng)景的適應(yīng)性。

階段4:從獎(jiǎng)勵(lì)機(jī)制中學(xué)習(xí)

盡管模型在前述階段有所改進(jìn),但未能充分利用失敗所帶來的學(xué)習(xí)機(jī)會(huì)。

因此,論文引入了強(qiáng)化學(xué)習(xí)來解決這些問題。通過基于獎(jiǎng)勵(lì)的訓(xùn)練對(duì)系統(tǒng)進(jìn)行微調(diào),根據(jù)模型執(zhí)行任務(wù)的結(jié)果給予相應(yīng)的獎(jiǎng)勵(lì)或懲罰,引導(dǎo)模型不斷優(yōu)化行為策略,以達(dá)到更好的效果。

可以看到,訓(xùn)練LAM的過程包括四個(gè)步驟:首先,模型學(xué)習(xí)如何將任務(wù)分解為邏輯步驟。其次,通過先進(jìn)的AI系統(tǒng)(如GPT-4o)學(xué)習(xí)如何將計(jì)劃轉(zhuǎn)化為具體行動(dòng)。然后,LAM會(huì)獨(dú)立探索新的解決方案。最后,通過獎(jiǎng)勵(lì)機(jī)制進(jìn)行微調(diào)訓(xùn)練。

表中總結(jié)了每個(gè)階段使用的訓(xùn)練數(shù)據(jù)。

圖片

LAM數(shù)據(jù)收集與構(gòu)建

眾所周知,數(shù)據(jù)是訓(xùn)練LLM的基石。類似地,LAM在監(jiān)督微調(diào)階段也需要經(jīng)過精心準(zhǔn)備的以行動(dòng)為導(dǎo)向的高質(zhì)量數(shù)據(jù)。

因此研究者采用了兩階段的數(shù)據(jù)收集:任務(wù)-計(jì)劃數(shù)據(jù)和任務(wù)-行動(dòng)數(shù)據(jù),如下圖所示。

圖片

任務(wù)-計(jì)劃數(shù)據(jù):在這一階段,研究者收集包含任務(wù)和對(duì)應(yīng)計(jì)劃的數(shù)據(jù)。

任務(wù)是用自然語言表達(dá)的用戶請(qǐng)求,而計(jì)劃是為完成這些任務(wù)而設(shè)計(jì)的詳細(xì)步驟。例如,「如何在Word中更改字體大???」會(huì)有一個(gè)對(duì)應(yīng)的計(jì)劃,概述完成該任務(wù)所需的步驟。

這些數(shù)據(jù)用于微調(diào)模型,以生成有效的計(jì)劃,并提升其高層次的推理和規(guī)劃能力。

圖片

構(gòu)建任務(wù)-計(jì)劃數(shù)據(jù)的流程

任務(wù)-行動(dòng)數(shù)據(jù):在這一階段,任務(wù)-計(jì)劃數(shù)據(jù)被轉(zhuǎn)換為任務(wù)-行動(dòng)數(shù)據(jù),包括任務(wù)、計(jì)劃和執(zhí)行這些計(jì)劃所需的相應(yīng)動(dòng)作序列。任務(wù)和計(jì)劃被細(xì)化為更具體且能夠在特定環(huán)境中執(zhí)行的內(nèi)容。

圖片

構(gòu)建任務(wù)-行動(dòng)數(shù)據(jù)的流程

經(jīng)過上述圖中的4個(gè)處理步驟后,最終生成的動(dòng)作序列類似于:

select_text(text="hello")

或者是

click(notallow=Button("20"), how="left", double=False)

也就是能夠直接與環(huán)境交互的可執(zhí)行指令。

總的來說,任務(wù)-計(jì)劃數(shù)據(jù)旨在增強(qiáng)模型的高層次規(guī)劃能力,使其能夠根據(jù)用戶請(qǐng)求生成詳細(xì)的逐步計(jì)劃。

而任務(wù)-行動(dòng)數(shù)據(jù)則側(cè)重于通過將每個(gè)計(jì)劃步驟轉(zhuǎn)化為具體、可執(zhí)行的步驟或序列,從而賦予模型執(zhí)行這些計(jì)劃的能力,并能接受環(huán)境的實(shí)時(shí)反饋。

數(shù)據(jù)收集和準(zhǔn)備流程確保模型能夠同時(shí)進(jìn)行高層次規(guī)劃和低層次行動(dòng)執(zhí)行,從而彌合了LLM生成計(jì)劃與能夠采取可執(zhí)行行動(dòng)之間的差距。

LAM的在線評(píng)估

我們將訓(xùn)練完成的LAM集成到GUI智能體UFO中,使模型預(yù)測(cè)的行動(dòng)能夠在Windows操作系統(tǒng)中有效執(zhí)行,并與環(huán)境進(jìn)行交互。

UFO智能體通過接受自然語言的用戶請(qǐng)求,并與Windows應(yīng)用程序的UI控件進(jìn)行互動(dòng),完成具體任務(wù)。

圖片

我們采用以下指標(biāo)對(duì) LAM 的性能進(jìn)行全面評(píng)估:

1. 任務(wù)成功率(Task Success Rate, TSR): 成功完成任務(wù)的數(shù)量占嘗試總?cè)蝿?wù)數(shù)量的百分比。

2. 任務(wù)完成時(shí)間: 從初始請(qǐng)求到最終動(dòng)作完成的總時(shí)間。

3. 任務(wù)完成步驟: 智能體成功完成每個(gè)任務(wù)所執(zhí)行的總動(dòng)作步驟數(shù)量。

4. 平均步驟延遲: 每個(gè)動(dòng)作步驟的平均耗時(shí)。

圖片

LAM在Word測(cè)試環(huán)境中的成功率為71%,而GPT-4o在無視覺信息輸入的情況下,成功率為63%。

此外,LAM的執(zhí)行速度也更快,每個(gè)任務(wù)僅需30秒,而GPT-4o則需要86秒,是LAM的2.8倍。

實(shí)驗(yàn)結(jié)果突顯了LAM作為僅使用文本的模型的優(yōu)勢(shì),使LAM成為實(shí)際應(yīng)用中有效的解決方案。

未來展望

LAM的推出為辦公自動(dòng)化、復(fù)雜任務(wù)處理等領(lǐng)域帶來了新的可能性。例如,在Microsoft Office中,LAM可以自動(dòng)執(zhí)行文檔編輯、表格處理等任務(wù),極大地提高工作效率。此外,LAM還有潛力在更多領(lǐng)域發(fā)揮重要作用。

LAM展示了其發(fā)展?jié)摿?,在商業(yè)化落地中仍然面臨一些挑戰(zhàn),例如,控制機(jī)器人系統(tǒng)的LAM可能會(huì)誤解指令并導(dǎo)致?lián)p害;金融或醫(yī)療應(yīng)用中如果執(zhí)行錯(cuò)誤動(dòng)作,可能帶來嚴(yán)重的后果。

然而,研究人員相信,LAM代表了AI發(fā)展的一次重要轉(zhuǎn)變,預(yù)示著AI助手將能更積極地協(xié)助人類完成實(shí)際任務(wù)。

行動(dòng)勝于言辭

LAM的推出標(biāo)志著人工智能從語言理解向任務(wù)執(zhí)行的轉(zhuǎn)變,開啟了AI自主的新時(shí)代。從生成語言到執(zhí)行具體動(dòng)作,大模型將能在現(xiàn)實(shí)世界中產(chǎn)生直接影響,這是邁向AGI的關(guān)鍵一步。

未來,隨著技術(shù)的不斷發(fā)展,LAM將在更多領(lǐng)域發(fā)揮重要作用,為我們的生活和工作帶來更多便利和驚喜。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-12-13 13:24:44

AI技術(shù)

2024-04-11 07:10:59

大語言模型AI人工智能

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2023-04-24 16:25:47

3D開發(fā)

2023-10-07 13:16:40

ChatGPT神經(jīng)元模型

2023-11-13 14:54:47

人工智能LoRAShear語言模型模型

2024-04-18 12:16:37

MetaAIOpenEQA

2024-05-28 09:24:32

2023-12-18 15:00:00

模型數(shù)據(jù)

2025-04-08 02:22:00

2025-01-22 09:00:00

2023-06-05 10:01:18

模型測(cè)評(píng)

2024-06-28 16:03:38

2023-09-12 14:45:18

2024-01-29 09:40:00

AI訓(xùn)練

2022-11-25 09:42:53

AI技術(shù)

2023-08-09 07:04:17

清華微軟LLM

2025-03-03 10:17:00

模型數(shù)據(jù)生成

2024-12-23 00:27:40

2025-02-20 09:27:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)