NLP還能做什么?北航、ETH、港科大、中科院等多機(jī)構(gòu)聯(lián)合發(fā)布百頁(yè)論文,系統(tǒng)闡述后ChatGPT技術(shù)鏈
一切都要從 ChatGPT 的橫空出世說(shuō)起......
曾經(jīng)一片祥和的 NLP 社區(qū),被這個(gè)突如其來(lái)的 “怪物” 嚇到了!一夜之間,整個(gè) NLP 圈發(fā)生了巨大的變化,工業(yè)界迅速跟進(jìn),資本 “狂飆”,開(kāi)始了復(fù)刻 ChatGPT 之路;學(xué)術(shù)界突然陷入了一片迷茫的狀態(tài)......大家慢慢開(kāi)始相信 “NLP is solved!”
然而,從最近依然活躍的 NLP 學(xué)術(shù)圈和層出不窮的優(yōu)秀工作來(lái)看,事實(shí)并非如此,甚至可以說(shuō) “NLP just got real!”
這幾個(gè)月,北航、Mila、香港科技大學(xué)、蘇黎世聯(lián)邦理工學(xué)院(ETH)、滑鐵盧大學(xué)、達(dá)特茅斯學(xué)院、謝菲爾德大學(xué)、中科院等多家機(jī)構(gòu),經(jīng)過(guò)系統(tǒng)、全面的調(diào)研之后,打磨出一篇 110 頁(yè)的論文,系統(tǒng)闡述了后 ChatGPT 時(shí)代的技術(shù)鏈:交互。
- 論文地址:https://arxiv.org/abs/2305.13246
- 項(xiàng)目資源:https://github.com/InteractiveNLP-Team
與傳統(tǒng)的 “人在環(huán)路(HITL)”、“寫(xiě)作助手” 等類(lèi)型的交互不同,本文所討論的交互,有著更高、更全面的視角:
- 對(duì)工業(yè)界:如果大模型有事實(shí)性、時(shí)效性等難以解決的問(wèn)題,那 ChatGPT+X 能否解決呢?甚至就像 ChatGPT Plugins 那樣,讓它和工具交互幫我們一步到位訂票、訂餐、畫(huà)圖!也就是說(shuō),我們可以通過(guò)一些系統(tǒng)化的技術(shù)框架緩解當(dāng)下大模型的一些局限。
- 對(duì)學(xué)術(shù)界:什么是真正的 AGI?其實(shí)早在 2020 年,深度學(xué)習(xí)三巨頭、圖靈獎(jiǎng)獲得者 Yoshua Bengio 就描繪了交互型語(yǔ)言模型的藍(lán)圖 [1]:一個(gè)可以和環(huán)境交互,甚至可以和其他智能體進(jìn)行社會(huì)交互的語(yǔ)言模型,才能有最為全面的語(yǔ)言語(yǔ)義表示。在某種程度上,與環(huán)境、與人的交互造就了人類(lèi)智慧。
因此,讓語(yǔ)言模型(LM)與外部實(shí)體以及自我進(jìn)行交互,不僅僅可以幫助彌合大模型的固有缺陷,還可能是通往 AGI 的終極理想的一個(gè)重要的里程碑!
什么是交互?
其實(shí) “交互” 的概念并不是作者們臆想的。自從 ChatGPT 問(wèn)世之后,誕生了很多關(guān)于 NLP 界新問(wèn)題的論文,比如:
- Tool Learning with Foundation Models 闡述了讓語(yǔ)言模型使用工具進(jìn)行推理或者執(zhí)行現(xiàn)實(shí)操作 [2];
- Foundation Models for Decision Making: Problems, Methods, and Opportunities 闡述了如何使用語(yǔ)言模型執(zhí)行決策任務(wù) (decision making)[3];
- ChatGPT for Robotics: Design Principles and Model Abilities 闡述了如何使用 ChatGPT 賦能機(jī)器人 [4];
- Augmented Language Models: a Survey 闡述了如何使用思維鏈 (Chain of Thought)、工具使用(Tool-use)等增強(qiáng)語(yǔ)言模型,并指出了語(yǔ)言模型使用工具可以給外部世界產(chǎn)生實(shí)際的影響(即 act)[5];
- Sparks of Artificial General Intelligence: Early experiments with GPT-4 闡述了如何使用 GPT-4 執(zhí)行各種類(lèi)型的任務(wù),其中包括了與人、環(huán)境、工具等交互的案例 [6]。
可見(jiàn),NLP 學(xué)界的關(guān)注點(diǎn),逐漸從 “怎么打造模型”,過(guò)渡到了 “怎么打造框架”,也就是將更多的實(shí)體納入到語(yǔ)言模型訓(xùn)練、推理的過(guò)程當(dāng)中。最為典型的例子就是大家所熟知的 Reinforcement Learning from Human Feedback (RLHF), 基本原理就是讓語(yǔ)言模型從與人的交互(反饋)中進(jìn)行學(xué)習(xí) [7],這一思想成為了 ChatGPT 畫(huà)龍點(diǎn)睛的一筆。
因此可以說(shuō),“交互” 這個(gè)特性,是 ChatGPT 之后,NLP 最為主流的技術(shù)發(fā)展路徑之一!作者們的論文首次定義并系統(tǒng)解構(gòu)了 “交互式 NLP”,并主要基于交互對(duì)象的維度,盡可能全面地討論了各種技術(shù)方案的優(yōu)劣以及應(yīng)用上的考慮,包括:
- LM 與人類(lèi)交互,以更好地理解和滿足用戶需求,個(gè)性化回應(yīng),與人類(lèi)價(jià)值觀對(duì)齊 (alignment),并改善整體用戶體驗(yàn);
- LM 與知識(shí)庫(kù)交互,以豐富語(yǔ)言表達(dá)的事實(shí)知識(shí),增強(qiáng)回應(yīng)的知識(shí)背景相關(guān)性,并動(dòng)態(tài)利用外部信息生成更準(zhǔn)確的回應(yīng);
- LM 與模型和工具交互,以有效分解和解決復(fù)雜推理任務(wù),利用特定知識(shí)處理特定子任務(wù),并促進(jìn)智能體社會(huì)行為的涌現(xiàn);
- LM 與環(huán)境交互,以學(xué)習(xí)基于語(yǔ)言的實(shí)體表征(language grounding),并有效地處理類(lèi)似推理、規(guī)劃和決策等與環(huán)境觀察相關(guān)的具身任務(wù)(embodied tasks)。
因此,在交互的框架下,語(yǔ)言模型不再是語(yǔ)言模型本身,而是一個(gè)可以 “看”(observe)、可以 “動(dòng)作”(act)、可以 “獲取反饋”(feedback) 的基于語(yǔ)言的智能體。
與某個(gè)對(duì)象進(jìn)行交互,作者們稱(chēng)之為 “XXX-in-the-loop”, 表示這個(gè)對(duì)象參與了語(yǔ)言模型訓(xùn)練或者推理的過(guò)程,并且是以一種級(jí)聯(lián)、循環(huán)、反饋、或者迭代的形式參與其中的。
與人交互
讓語(yǔ)言模型與人交互可以分為三種方式:
- 使用提示進(jìn)行交流
- 使用反饋進(jìn)行學(xué)習(xí)
- 使用配置進(jìn)行調(diào)節(jié)
另外,為了保證可規(guī)?;牟渴?,往往采用模型或者程序模擬人類(lèi)的行為或者偏好,即從人類(lèi)模擬中學(xué)習(xí)。
總的來(lái)說(shuō),與人交互要解決的核心問(wèn)題是對(duì)齊問(wèn)題 (alignment), 也就是如何讓語(yǔ)言模型的響應(yīng)更加符合用戶的需要,更加有幫助、無(wú)害且有理有據(jù),能讓用戶有更好的使用體驗(yàn)等。
“使用提示進(jìn)行交流” 主要著重于交互的實(shí)時(shí)性和持續(xù)性,也就是強(qiáng)調(diào)連續(xù)性質(zhì)的多輪對(duì)話。這一點(diǎn)和 Conversational AI [8] 的思想是一脈相承的。也就是,通過(guò)多輪對(duì)話的方式,讓用戶連續(xù)地問(wèn)下去,讓語(yǔ)言模型的響應(yīng)在對(duì)話中慢慢地對(duì)齊于用戶偏好。這種方式通常在交互中不需要模型參數(shù)的調(diào)整。
“使用反饋進(jìn)行學(xué)習(xí)” 是當(dāng)前進(jìn)行 alignment 的主要方式,也就是讓用戶給語(yǔ)言模型的響應(yīng)一個(gè)反饋,這種反饋可以是描述偏好的 “好 / 壞” 的標(biāo)注,也可以是自然語(yǔ)言形式的更為詳細(xì)的反饋。模型需要被訓(xùn)練,以讓這些反饋盡可能地高。比較典型的例子就是 InstructGPT 所使用的 RLHF [7],首先使用用戶標(biāo)注的對(duì)模型響應(yīng)的偏好反饋數(shù)據(jù)訓(xùn)練獎(jiǎng)勵(lì)模型,然后使用這個(gè)獎(jiǎng)勵(lì)模型以某種 RL 算法訓(xùn)練語(yǔ)言模型以最大化獎(jiǎng)勵(lì)(如下圖)。
Training language models to follow instructions with human feedback [7]
“使用配置進(jìn)行調(diào)節(jié)” 是一種比較特殊的交互方式,允許用戶直接調(diào)整語(yǔ)言模型的超參數(shù)(比如 temperature)、或者語(yǔ)言模型的級(jí)聯(lián)方式等。典型的例子比如谷歌的 AI Chains [9], 帶有不同預(yù)設(shè) prompt 的語(yǔ)言模型互相連接構(gòu)成了一個(gè)用于處理流程化任務(wù)的推理鏈條,用戶可以通過(guò)一個(gè) UI 拖拽調(diào)整這個(gè)鏈條的節(jié)點(diǎn)連接方式。
“從人類(lèi)模擬中學(xué)習(xí)” 可以促進(jìn)上述三種方式的規(guī)?;渴?,因?yàn)橛绕湓谟?xùn)練過(guò)程,使用真實(shí)的用戶是不現(xiàn)實(shí)的。比如 RLHF 通常需要使用一個(gè) reward model 來(lái)模擬用戶的偏好。另一個(gè)例子是微軟研究院的 ITG [10], 通過(guò)一個(gè) oracle model 來(lái)模擬用戶的編輯行為。
最近,斯坦福 Percy Liang 教授等人構(gòu)建了一個(gè)非常系統(tǒng)化的 Human-LM 交互的評(píng)測(cè)方案:Evaluating Human-Language Model Interaction [11], 感興趣的讀者可以參考本論文或者原文。
與知識(shí)庫(kù)交互
語(yǔ)言模型與知識(shí)庫(kù)交互存在三個(gè)步驟:
- 確定補(bǔ)充知識(shí)的來(lái)源:Knowledge Source
- 檢索知識(shí):Knowledge Retrieval
- 使用知識(shí)進(jìn)行增強(qiáng):詳細(xì)請(qǐng)參閱本論文 Interaction Message Fusion 部分,這里不多做介紹。
總的來(lái)說(shuō),與知識(shí)庫(kù)進(jìn)行交互可以減輕語(yǔ)言模型的 “幻覺(jué)” 現(xiàn)象 (hallucination), 即提升其輸出的事實(shí)性、準(zhǔn)確性等,還能幫助改善語(yǔ)言模型的時(shí)效性問(wèn)題,幫助補(bǔ)充語(yǔ)言模型的知識(shí)能力(如下圖)等。
MineDojo [16]:當(dāng)一個(gè)語(yǔ)言模型智能體遇到不會(huì)的任務(wù),可以從知識(shí)庫(kù)中查找學(xué)習(xí)資料,然后在資料的幫助下,完成這個(gè)任務(wù)。
“Knowledge Source” 分為兩種,一種是封閉的語(yǔ)料知識(shí) (Corpus Knowledge), 如 WikiText 等 [15];另一種是開(kāi)放的網(wǎng)絡(luò)知識(shí) (Internet Knowledge), 比如使用搜索引擎可以得到的知識(shí) [14]。
“Knowledge Retrieval” 分為四種方式:
- 基于語(yǔ)言的稀疏表示以及 lexical matching 的稀疏檢索 (sparse retrieval):如 n-gram 匹配,BM25 等。
- 基于語(yǔ)言的稠密表示以及 semantic matching 的稠密檢索 (dense retrieval):如使用單塔或者雙塔模型作為檢索器等。
- 基于生成式檢索器:屬于比較新的方式,代表工作是谷歌 Tay Yi 等人的 Differentiable Search Index [12], 將知識(shí)都保存在語(yǔ)言模型的參數(shù)當(dāng)中,給一個(gè) query 后,直接輸出對(duì)應(yīng)知識(shí)的 doc id 或者 doc content. 因?yàn)檎Z(yǔ)言模型,就是知識(shí)庫(kù) [13]!
- 基于強(qiáng)化學(xué)習(xí):也是比較前沿的方式,代表工作比如 OpenAI 的 WebGPT [14],使用 human feedback 訓(xùn)練模型,以進(jìn)行正確知識(shí)的檢索。
與模型或者工具交互
語(yǔ)言模型與模型或者工具交互,主要的目的是進(jìn)行復(fù)雜任務(wù)的分解,比如將復(fù)雜的推理任務(wù)分解為若干子任務(wù),這也是 Chain of Thought [17] 的核心思想。不同的子任務(wù)可以使用具有不同能力的模型或者工具解決,比如計(jì)算任務(wù)可以使用計(jì)算器解決,檢索任務(wù)可以使用檢索模型解決。因此,這種類(lèi)型的交互不僅可以提升語(yǔ)言模型的推理 (reasoning)、規(guī)劃 (planning)、決策 (decision making) 能力,還能減輕語(yǔ)言模型的 “幻覺(jué)” (hallucination)、不準(zhǔn)確輸出等局限。特別地,當(dāng)使用工具執(zhí)行某種特定的子任務(wù)時(shí),可能會(huì)對(duì)外部世界產(chǎn)生一定影響,比如使用 WeChat API 發(fā)了一條朋友圈等,稱(chēng)為 “面向工具的學(xué)習(xí)”(Tool-Oriented Learning) [2].
另外,有時(shí)候顯式地分解一個(gè)復(fù)雜的任務(wù)是很困難的,這種時(shí)候,可以為不同的語(yǔ)言模型賦予不同的角色或者技能,然后讓這些語(yǔ)言模型在互相協(xié)作、溝通的過(guò)程當(dāng)中,隱式、自動(dòng)地形成某種分工方案 (division of labor),進(jìn)行任務(wù)的分解。這種類(lèi)型的交互不僅僅可以簡(jiǎn)化復(fù)雜任務(wù)的解決流程,還可以對(duì)人類(lèi)社會(huì)進(jìn)行模擬,構(gòu)造某種形式的智能體社會(huì)。
作者們將模型和工具放在一起,主要是因?yàn)槟P秃凸ぞ卟灰欢ㄊ欠珠_(kāi)的兩個(gè)范疇,比如一個(gè)搜索引擎工具和一個(gè) retriever model 并沒(méi)有本質(zhì)的不同。這種本質(zhì),作者們使用 “任務(wù)分解后,怎樣的子任務(wù)由怎樣的對(duì)象來(lái)承擔(dān)” 進(jìn)行界定。
語(yǔ)言模型與模型或者工具交互時(shí),有三種類(lèi)型的操作:
- Thinking: 模型與自己本身進(jìn)行交互,進(jìn)行任務(wù)的分解以及推理等;
- Acting:模型調(diào)用其他的模型,或者外部工具等,幫助進(jìn)行推理,或者對(duì)外部世界產(chǎn)生實(shí)際作用;
- Collaborating: 多個(gè)語(yǔ)言模型智能體互相溝通、協(xié)作,完成特定的任務(wù),或者模擬人類(lèi)的社會(huì)行為。
注意:Thinking 主要論及的是 “多階段思維鏈” (Multi-Stage Chain-of-Thought),即:不同的推理步驟,對(duì)應(yīng)著語(yǔ)言模型不同的調(diào)用 (multiple model run),而不是像 Vanilla CoT [17] 那樣,跑一次模型同時(shí)輸出 thought+answer (single model run).
這里部分承襲的是 ReAct [18] 的表述方式。
Thinking 的典型工作包括了 ReAct [18], Least-to-Most Prompting [19], Self-Ask [20] 等。例如,Least-to-Most Prompting [19] 首先將一個(gè)復(fù)雜問(wèn)題分解為若干簡(jiǎn)單的模塊子問(wèn)題,然后迭代式地調(diào)用語(yǔ)言模型逐個(gè)擊破。
Acting 的典型工作包括了 ReAct [18], HuggingGPT [21], Toolformer [22] 等。例如,Toolformer [22] 將語(yǔ)言模型的預(yù)訓(xùn)練語(yǔ)料處理成了帶有 tool-use prompt 的形式,因此,經(jīng)過(guò)訓(xùn)練后的語(yǔ)言模型,可以在生成文本的時(shí)候,自動(dòng)地在正確的時(shí)機(jī)調(diào)用正確的外部工具(如搜索引擎、翻譯工具、時(shí)間工具、計(jì)算器等)解決特定的子問(wèn)題。
Collaborating 主要包括:
- 閉環(huán)交互:比如 Socratic Models [23] 等,通過(guò)大型語(yǔ)言模型、視覺(jué)語(yǔ)言模型、音頻語(yǔ)言模型的閉環(huán)交互,完成特定于視覺(jué)環(huán)境的某些復(fù)雜 QA 任務(wù)。
- 心智理論 (Theory of Mind): 旨在讓一個(gè)智能體能夠理解并預(yù)測(cè)另一個(gè)智能體的狀態(tài),以促進(jìn)彼此的高效交互。例如 EMNLP 2021 的 Outstanding Paper, MindCraft [24], 給兩個(gè)不同的語(yǔ)言模型賦予了不同但互補(bǔ)的技能,讓他們?cè)诮涣鞯倪^(guò)程中協(xié)作完成 MineCraft 世界中的特定任務(wù)。著名教授 Graham Neubig 最近也非常關(guān)注這一條研究方向,如 [25].
- 溝通式代理 (Communicative Agents): 旨在讓多個(gè)智能體能夠進(jìn)行彼此交流協(xié)作。最為典型的例子就是斯坦福大學(xué)最近震驚世界的 Generative Agents [26]:搭建一個(gè)沙盒環(huán)境,讓好多個(gè)由大模型注入 “靈魂” 的智能體在其中自由活動(dòng),它們竟然可以自發(fā)地呈現(xiàn)一些類(lèi)人的社會(huì)行為,比如聊天打招呼等,頗有一種 “西部世界” 的味道(如下圖)。除此之外,比較出名的工作還有 DeepGCN 作者的新工作 CAMEL [27],讓兩個(gè)大模型賦能的智能體在彼此溝通的過(guò)程當(dāng)中開(kāi)發(fā)游戲,甚至炒股,而不需要人類(lèi)的過(guò)多干預(yù)。作者在文章中明確提出了 “大模型社會(huì)” (LLM Society) 的概念。
Generative Agents: Interactive Simulacra of Human Behavior, https://arxiv.org/pdf/2304.03442.pdf
與環(huán)境交互
語(yǔ)言模型和環(huán)境屬于兩個(gè)不同的象限:語(yǔ)言模型建立在抽象的文字符號(hào)之上,擅長(zhǎng) high-level 的推理、規(guī)劃、決策等任務(wù);而環(huán)境建立在具體的感知信號(hào)之上(如視覺(jué)信息、聽(tīng)覺(jué)信息等),模擬或者自然發(fā)生一些 low-level 的任務(wù),如提供觀察 (observation)、反饋 (feedback)、狀態(tài)更新 (state transition) 等(如:現(xiàn)實(shí)世界中一個(gè)蘋(píng)果落到了地上,模擬引擎中一個(gè) “苦力怕” 出現(xiàn)在了你的面前)。
因此,要讓語(yǔ)言模型能夠有效且高效地與環(huán)境進(jìn)行交互,主要包括了兩個(gè)方面的努力:
- Modality Grounding: 讓語(yǔ)言模型可以處理圖像、音頻等多模態(tài)信息;
- Affordance Grounding: 讓語(yǔ)言模型在環(huán)境具體場(chǎng)景的尺度下對(duì)可能的、恰當(dāng)?shù)膶?duì)象執(zhí)行可能的、恰當(dāng)?shù)膭?dòng)作。
對(duì)于 Modality Grounding 最為典型的就是視覺(jué) - 語(yǔ)言模型。一般而言可以使用單塔模型如 OFA [28], 雙塔模型如 BridgeTower [29], 或者語(yǔ)言模型與視覺(jué)模型的交互如 BLIP-2 [30] 來(lái)進(jìn)行。這里不再多說(shuō),讀者可以詳看本論文。
對(duì)于 Affordance Grounding 主要有兩個(gè)考慮,即:如何在給定任務(wù)的條件下進(jìn)行 (1) 場(chǎng)景尺度的感知 (scene-scale perception), 以及 (2) 可能的動(dòng)作 (possible action)。舉個(gè)例子:
比如上圖的場(chǎng)景,給定任務(wù) “請(qǐng)關(guān)閉客廳里面的燈”,“場(chǎng)景尺度的感知” 要求我們找到全部紅色框選的燈,而不要選中不在客廳而在廚房的綠色圈選的燈,“可能的動(dòng)作” 要求我們確定可行的關(guān)燈方式,比如拉線燈需要使用 “拉” 的動(dòng)作,而開(kāi)關(guān)燈需要使用 “撥動(dòng)開(kāi)關(guān)” 的動(dòng)作。
通常而言,Affordance Grounding 可以使用一個(gè)依附于環(huán)境的價(jià)值函數(shù)解決,如 SayCan [31] 等,也可以使用一個(gè)專(zhuān)門(mén)的 grounding model 如 Grounded Decoding [32] 等。甚至也可以通過(guò)與人、與模型、與工具等的交互來(lái)解決(如下圖)。
Inner Monologue [33]
用什么交互:交互接口
在論文 Interaction Interface 章節(jié),作者們系統(tǒng)地討論了不同交互語(yǔ)言、交互媒介的用法和優(yōu)劣,包括:
- 自然語(yǔ)言:如 few-shot example, task instruction, role assignment 甚至結(jié)構(gòu)化的自然語(yǔ)言等。主要討論了其在泛化性、表達(dá)性上的特點(diǎn)及作用等。
- 形式語(yǔ)言:如代碼、語(yǔ)法、數(shù)學(xué)公式等。主要討論了其在可解析性、推理能力上的特點(diǎn)及作用等。
- 機(jī)器語(yǔ)言:如 soft prompts, 離散化的視覺(jué) token 等。主要討論了其在泛化性、信息瓶頸理論、交互效率上的特點(diǎn)及作用等。
- 編輯:主要包括了對(duì)文本進(jìn)行的刪除、插入、替換、保留等操作。討論了它的原理、歷史、優(yōu)勢(shì)以及目前存在的局限。
- 共享記憶:主要包括了 hard memory 和 soft memory. 前者將歷史狀態(tài)記錄在一個(gè) log 里面作為記憶,后者使用一個(gè)可讀可寫(xiě)的記憶外置模塊保存張量。論文討論了兩者的特點(diǎn)、作用以及存在的局限等。
怎么交互:交互方法
論文還全面、詳細(xì)、系統(tǒng)地討論了各種各樣的交互方法,主要包括:
- Prompting: 不調(diào)整模型參數(shù),僅僅通過(guò) prompt engineering 的方式調(diào)用語(yǔ)言模型,涵蓋了上下文學(xué)習(xí)(In-Context Learning)、思維鏈提示 (Chain of Thought)、工具使用提示 (Tool-use)、級(jí)聯(lián)推理鏈 (Prompt Chaining) 等多種方法,詳細(xì)討論了各種 Prompting 技巧的原理、作用、各種 trick 和局限等,比如在可控性和魯棒性上的考慮等。
- Fine-Tuning: 進(jìn)行模型參數(shù)的調(diào)整,以讓模型從交互信息中進(jìn)行學(xué)習(xí)更新。本節(jié)涵蓋了監(jiān)督指令精調(diào) (Supervised Instruction Tuning)、參數(shù)高效精調(diào) (Parameter-Efficient Fine-Tuning)、持續(xù)學(xué)習(xí) (Continual Learning)、半監(jiān)督學(xué)習(xí) (Semi-Supervised Fine-Tuning) 等方法。詳細(xì)討論了這些方法的原理、作用、優(yōu)勢(shì)、在具體使用時(shí)的考慮、及其局限。其中還包括了部分 Knowledge Editing 的內(nèi)容(即編輯模型內(nèi)部的知識(shí))。
- Active Learning: 交互式的主動(dòng)學(xué)習(xí)算法框架。
- Reinforcement Learning: 交互式的強(qiáng)化學(xué)習(xí)算法框架,討論了在線強(qiáng)化學(xué)習(xí)框架、離線強(qiáng)化學(xué)習(xí)框架、從人類(lèi)反饋中學(xué)習(xí)(RLHF)、從環(huán)境反饋中學(xué)習(xí)(RLEF)、從 AI 反饋中學(xué)習(xí) (RLAIF) 等多種方法。
- Imitation Learning: 交互式的模仿學(xué)習(xí)算法框架,討論了在線模仿學(xué)習(xí)、離線模仿學(xué)習(xí)等。
- Interaction Message Fusion: 為上述所有交互方法提供了一個(gè)統(tǒng)一的框架,同時(shí)在這個(gè)框架中,向外擴(kuò)展,討論了不同的知識(shí)、信息融合方案,比如跨注意力融合方案 (cross-attention)、約束解碼融合方案 (constrained decoding) 等。
其他討論
囿于篇幅,本文不詳細(xì)介紹其他方面的討論,如評(píng)測(cè)、應(yīng)用、倫理、安全以及未來(lái)發(fā)展方向等。但是這些內(nèi)容在該論文原文中,仍然占據(jù)了 15 頁(yè)的內(nèi)容,因此推薦讀者在原文中查看更多細(xì)節(jié),以下為這些內(nèi)容的大綱:
對(duì)交互的評(píng)測(cè)
論文中對(duì)評(píng)測(cè)的討論主要涉及以下關(guān)鍵詞:
交互式 NLP 的主要應(yīng)用
- 可控文本生成 (Controllable Text Generation)
- 與人交互:RLHF 的思想鋼印現(xiàn)象等
- 與知識(shí)交互:Knowledge-Aware Fine-Tuning [34] 等
- 與模型、工具交互:Classifier-Guided CTG 等
- 與環(huán)境交互:affordance grounding 等
- 交互式寫(xiě)作助手 (Writing Assistant)
- Content Support: 內(nèi)容支持型
- Content Checking and Polishing:內(nèi)容檢查、潤(rùn)色型
- Content Enrichment:內(nèi)容豐富型
- Content Co-creation:內(nèi)容創(chuàng)作型
- 具身智能 (Embodied AI)
- Observation and Manipulation: 基礎(chǔ)
- Navigation and Exploration: 進(jìn)階 (e.g., long-horizon embodied tasks)
- Multi-Role Tasks: 高級(jí)
- 游戲 (Text Game)
- 包含文本的交互式游戲平臺(tái):Interactive Text Game Platforms
- 交互型語(yǔ)言模型如何玩轉(zhuǎn)僅文本類(lèi)型的游戲:Playing Text-Only Games
- 交互型語(yǔ)言模型如何賦能包含文本媒介的游戲:Powering Text-Aided Games
- 其他應(yīng)用
- 領(lǐng)域、任務(wù)專(zhuān)門(mén)化(Specialization):比如如何基于交互打造特定于金融領(lǐng)域、醫(yī)學(xué)領(lǐng)域等的語(yǔ)言模型框架。
- 個(gè)性化與人格化 (Personalization & Personality):比如如何基于交互打造特定于用戶個(gè)人的、或者帶有特定人格的語(yǔ)言模型。
- 基于模型的評(píng)測(cè)(Model-based Evaluation)
倫理與安全
討論了交互型語(yǔ)言模型在教育上的影響,還針對(duì)社會(huì)偏見(jiàn)、隱私等倫理安全問(wèn)題進(jìn)行了討論。
未來(lái)發(fā)展方向與挑戰(zhàn)
- Alignment:語(yǔ)言模型的對(duì)齊問(wèn)題,如何讓模型的輸出更加無(wú)害、更加符合人類(lèi)價(jià)值觀、更加有理有據(jù)等。
- Social Embodiment:語(yǔ)言模型的 Grounding 問(wèn)題,如何進(jìn)一步推動(dòng)語(yǔ)言模型具身化和社會(huì)化。
- Plasticity:語(yǔ)言模型的可塑性問(wèn)題,如何保證模型知識(shí)的持續(xù)更新,且不會(huì)在更新的過(guò)程中遺忘先前獲得的知識(shí)。
- Speed & Efficiency:語(yǔ)言模型的推理速度、訓(xùn)練效率等問(wèn)題,如何在不影響性能的情況下,加速推理,以及加速訓(xùn)練的效率。
- Context Length:語(yǔ)言模型的上下文窗口大小限制。如何擴(kuò)充上下文的窗口大小,使其能夠處理更長(zhǎng)的文本。
- Long Text Generation:語(yǔ)言模型的長(zhǎng)文本生成問(wèn)題。如何讓語(yǔ)言模型在極長(zhǎng)文本的生成場(chǎng)景下,也能保持優(yōu)良的性能。
- Accessibility:語(yǔ)言模型的可用性問(wèn)題。如何讓語(yǔ)言模型從閉源到開(kāi)源,如何在不過(guò)度損失性能的前提下,讓語(yǔ)言模型能夠部署在邊緣設(shè)備如車(chē)載系統(tǒng)、筆記本上等。
- Analysis:語(yǔ)言模型的分析、可解釋性等問(wèn)題。比如如何預(yù)測(cè)模型 scaling up 之后的性能,以指導(dǎo)大模型的研發(fā),如何解釋大模型內(nèi)部的機(jī)理等。
- Creativity:語(yǔ)言模型的創(chuàng)造性問(wèn)題。如何讓語(yǔ)言模型更加具有創(chuàng)造性,能夠更好地使用比喻、隱喻等,能夠創(chuàng)造出新的知識(shí)等。
- Evaluation:如何更好地針對(duì)通用大模型進(jìn)行評(píng)測(cè),如何評(píng)測(cè)語(yǔ)言模型在交互上的特性等。