自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

羅格斯大學華人團隊開源OpenAGI平臺:語言模型是AGI的入口,領域?qū)<夷P筒豢苫蛉?/h1>

人工智能 新聞
語言模型是打開AGI大門的關鍵鑰匙。

人類所具有的智能,可以將一些最基礎的能力,通過某種組合變成一種復雜能力,并可以用來解決復雜的、多步驟的任務。

這種能力對人工智能(AI)的發(fā)展來說同樣重要,在邁向最終的通用人工智能(AGI)的過程中,除了開發(fā)大規(guī)模智能模型外,如何讓這些模型具有「利用各種特定領域?qū)<夷P鸵越鉀Q復雜任務的能力」也同樣重要。

在大型語言模型(LLMs)上取得的最新進展讓我們看到了語言模型強大的學習和推理能力,有望成為未來AGI的接口以控制、執(zhí)行外部模型以解決復雜任務

最近,來自羅格斯大學的一個華人團隊開源了一個AGI研究平臺OpenAGI,專門用于提供復雜的、多步驟的任務,并輔助有特定任務的數(shù)據(jù)集、評估指標和各種可擴展的模型。

圖片

論文鏈接:https://arxiv.org/pdf/2304.04370.pdf

項目鏈接:https://github.com/agiresearch/OpenAGI

OpenAGI將復雜的任務制定為自然語言查詢,并作為語言模型的輸入;隨后由語言模型進行選擇、合成并執(zhí)行OpenAGI提供的模型來解決該任務。

此外,文中還提出了一個從任務反饋中強化學習(RLTF)的機制,使用任務解決的結(jié)果作為反饋來提高語言模型的任務解決能力;即語言模型負責綜合各種外部模型來解決復雜的任務,而RLTF則提供反饋來提高其任務解決能力,從而實現(xiàn)自我改進的人工智能的反饋循環(huán)機制。

研究人員認為,語言模型操作各種專家模型解決復雜任務的范式是實現(xiàn)AGI的一個很有前途的方法。

在實驗部分,研究人員使用OpenAGI對幾個成熟的語言模型進行了評估,其規(guī)模從7.7億到1750億參數(shù)不等。

初步研究結(jié)果表明,即使是規(guī)模較小的語言模型,當與適當?shù)膶W習模式(如RLTF)配對時,也具有超越更大規(guī)模模型的潛力。

語言模型是AGI的入口

最近發(fā)布的大型語言模型(LLMs),如GPT-3、LLaMA、Flan-T5等都展現(xiàn)出了對自然語言的深入理解能力,并可以生成連貫的、上下文相關的回復,具有卓越的學習和推理能力,可以適用于選擇、合成和執(zhí)行外部專家模型以解決復雜的任務。

語言模型也并不局限于文本數(shù)據(jù),同樣可以應用在涉及多模態(tài)的復雜任務中,如圖像和文本的處理,以及特定領域知識的整合;在理解和生成文本的過程中,語言模型起到至關重要的作用,可以幫助AI處理各種問題。

通過整合不同領域的知識和技能,開放領域模型合成(Open-domain Model Synthesis,OMS)具有推動人工通用智能(AGI)發(fā)展的潛力、 使得人工智能能夠解決各種各樣的問題和任務。

雖然該領域已有研究人員進行了初步嘗試,但仍有幾個關鍵問題需要解決:

1、可擴展性(Extensibility), 一些相關工作使用固定數(shù)量的模型,如WebGPT和 ToolFormer,導致很難在后續(xù)進一步擴展模型的能力;

2、非線性任務規(guī)劃( Nonlinear Task Planning):目前的研究大多局限于用線性任務規(guī)劃方案來解決問題,即每個子任務必須在下一個子任務開始之前完成,這種方式可能無法解決過于復雜的、涉及多模態(tài)的任務;

3、定量評估(Quantitative Evaluation):許多現(xiàn)有的工作只提供了定性的結(jié)果(如HuggingGPT)只依靠人類的主觀評價,很難快速、公正地評估LLM的規(guī)劃能力,無法確定所采用的策略是否最優(yōu)。

OpenAGI平臺

OpenAGI平臺的目標就是緩解上述三個局限性,其中包含多樣化的特定領域?qū)<夷P秃蛷碗s的多步驟任務,支持單模態(tài)或多模態(tài)輸入,并有相應的數(shù)據(jù)集作支撐。

圖片

OpenAGI的具體工作流程為:

1)選擇自然語言任務描述和任務相關的數(shù)據(jù)集;

2)將任務描述作為輸入送入大型語言模型以生成解決方案,可能需要將解決方案映射到功能模型名稱,或使用約束生成直接生成模型名稱;

3)選擇和合成模型,并執(zhí)行以處理數(shù)據(jù)樣本;

4)評估語言模型的任務解決能力可以通過比較輸出和真實標簽的一致性。

模型與數(shù)據(jù)集

OpenAGI內(nèi)的專家模型主要來自于Hugging Face的transformers和diffusers庫、以及Github存儲庫。

OpenAGI的系統(tǒng)設計很靈活,用戶可以自行接入領域任務與模型,目前包括:

語言相關的模型

圖片

視覺相關的模型

圖片

視覺-語言相關的模型

圖片

數(shù)據(jù)集方面為了能夠與各自模型的訓練數(shù)據(jù)集保持一致或相似,主要包括:ImageNet-1K、COCO、CNN/Daily Mail、SST2、TextVQA、SQuAD等;

在確定了原始數(shù)據(jù)集后,采用數(shù)據(jù)增強方法從不同的角度對數(shù)據(jù)集進行擴充,以構建復雜的、多步驟的任務,包括高斯模糊、高斯噪聲、灰度、低分辨率、翻譯、單詞遮罩。

評估指標包括CLIP分數(shù)(圖文相似度)、BERT分數(shù)(文本相似度)、ViT分數(shù)(視覺相似度)。

局限性

不過OpenAGI也進一步暴露了目前各種模型的局限性:

1. 分布外泛化(Out-of-Distribution Generalization)

因為特定領域的專家模型對訓練數(shù)據(jù)的分布有強烈的依賴性,在泛化能力上可能十分有限,當處理來自不同來源的、表現(xiàn)出分布變化的圖像時,原始模型序列變得無效了。

圖片

上圖的例子中,在大多數(shù)情況下,只有少數(shù)顏色被模型準確地恢復,并且可能是不正確的;此外噪音和模糊的存在,對人類觀察者來說仍然是高度可感知的。

2. 最優(yōu)任務規(guī)劃(Optimal Task Planning)

結(jié)合不同的模型來產(chǎn)生解決方案的方法有很多,可能使我們難以確定最佳的方法;并且對于一個給定的任務來說,有可能存在多個有效的解決方案,但每個解決方案的質(zhì)量可能差別很大。

圖片

例如,上圖中以不同的順序執(zhí)行相同的四個模型會導致明顯不同的結(jié)果。與第一種方法相比,第二種方法的結(jié)果表現(xiàn)出明顯更多的噪音和顏色不一致的情況。

因此,對于大型語言模型來說,從各種可能性中確定并實施最佳的任務計劃是至關重要的

3. 非線性任務結(jié)構(Nonlinear Task Structures)

在模型執(zhí)行過程中,一個模型可能需要一個以上的輸入,而每個輸入都需要由前一個模型產(chǎn)生,從而導致解決方案的非線性(樹狀)結(jié)構。

在這種情況下,采用非線性任務規(guī)劃可以更有效地整合不同的輸入,更有效地對模型進行并行處理以達到預期的結(jié)果。

然而,將這種非線性任務規(guī)劃能力納入大型語言性會帶來更大的挑戰(zhàn),有可能超出語言模型的任務解決能力范圍。

RLTF+非線性任務規(guī)劃

為了解決「分布外泛化」和「最優(yōu)任務規(guī)劃」的問題,研究人員提出了從任務反饋中進行強化學習(Reinforcement Learning from Task Feedback,RLTF)的機制,基于在執(zhí)行大型語言模型中設計的解決方案后從任務中獲取的性能反饋,可以有效地完善語言模型的規(guī)劃策略,從而形成了一個增強的、更具適應性的系統(tǒng)。

圖片

事實上,在面對現(xiàn)實世界的任務時,僅僅依靠輸入文本的學習對大型語言模型來說是不夠的;任務反饋提供了額外的信息,將LLM的學習軌跡引向改進且有效的解決方案。

對于「非線性任務結(jié)構」問題,研究人員提出了非線性任務規(guī)劃,利用beam search作為一種有效的半自回歸解碼方法,在每個解碼步驟中,不同的假設(hypotheses)被視為不同輸入的平行可操作解決方案,而非相互競爭的假設。

為了達到這個目的,語言模型必須滿足三個條件:1)只生成模型名稱,沒有無關的標記;2)生成有效的模型序列;3)必要時為不同的輸入生成并行的模型序列。

圖片

如果一個任務需要對多個輸入進行并行處理,如文本和圖像,那么在生成時,一個以文本為輸入的可操作方案和另一個以圖像為輸入的方案將被生成并并行地執(zhí)行。

實驗結(jié)果

與LLaMA-7b和Flan-T5-Large相比,GPT-3.5-turbo在零樣本和少樣本學習設置中都表現(xiàn)出優(yōu)越的性能,在BERT評分、ViT評分和整體性能中都取得了更高的評分。

圖片

LLaMA-7b雖然表現(xiàn)不如GPT-3.5-turbo,但與它的零樣本學習性能相比,在少樣本學習中表現(xiàn)出更好的整體性能;不過在相同設置下,其性能仍遠低于GPT-3.5-turbo。

與零樣本和少樣本學習策略相比,使用微調(diào)或來自任務反饋的強化學習(RLTF)時,F(xiàn)lan-T5-Large展現(xiàn)出明顯的性能提升。

在進一步的分析中可以發(fā)現(xiàn),在零樣本的情況下,大多數(shù)語言模型都很難生成有效的任務規(guī)劃,更不用說最佳解決方案;特別是,GPT-3.5傾向于產(chǎn)生重復的內(nèi)容,隨后映射到相同的模型名稱。

圖片

同時,LLaMA-7b和Flan-T5-Large受制于它們的零樣本能力,同樣未能生成一個合理的計劃。

在少樣本的設置中,加入了幾個手動標注的任務計劃作為指導生成的指令后,可以看到任務計劃的質(zhì)量得到了顯著的改善。

圖片

三個語言模型都能在短時間內(nèi)生成合理的規(guī)劃,與所提供的例子在語義上相似的解決方案。

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-11-09 06:51:46

開源工具開源

2019-08-05 10:00:13

LinuxBash命令

2022-11-08 08:49:09

IT專家職業(yè)要素

2017-05-24 08:39:48

2020-05-07 18:20:52

Git腳本Linux開源

2013-09-18 09:40:32

企業(yè)BYOD企業(yè)應用商店

2024-08-01 14:44:21

2010-06-05 22:52:33

UML

2020-10-27 12:43:53

數(shù)據(jù)分析技術工具

2024-12-03 10:55:56

微服務架構注冊中心

2021-11-30 05:51:46

React開發(fā)工具

2017-03-27 17:53:45

Linux

2014-01-09 14:25:19

MacOS X工具

2012-04-18 17:06:41

PhoneGap

2011-02-22 08:55:42

Chrome企業(yè)瀏覽器

2013-01-04 09:53:32

大數(shù)據(jù)技術大數(shù)據(jù)

2015-05-07 13:38:15

2011-07-21 10:52:05

應用交付IPv6

2022-03-29 10:03:12

IT領導者首席信息官
點贊
收藏

51CTO技術棧公眾號