自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="qehlb"><track id="qehlb"><dfn id="qehlb"></dfn></track></legend>

<blockquote id="qehlb"></blockquote>

<blockquote id="qehlb"><i id="qehlb"></i></blockquote>

<sub id="qehlb"><p id="qehlb"></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

NLP還能做什么？北航、ETH、港科大、中科院等多機(jī)構(gòu)聯(lián)合發(fā)布百頁(yè)論文，系統(tǒng)闡述后ChatGPT技術(shù)鏈

作者：機(jī)器之心 2023-06-05 16:00:39

人工智能新聞

北航、Mila、香港科技大學(xué)、蘇黎世聯(lián)邦理工學(xué)院（ETH）、滑鐵盧大學(xué)、達(dá)特茅斯學(xué)院、謝菲爾德大學(xué)、中科院等多家機(jī)構(gòu)，經(jīng)過(guò)系統(tǒng)、全面的調(diào)研之后，打磨出一篇 110 頁(yè)的論文，系統(tǒng)闡述了后 ChatGPT 時(shí)代的技術(shù)鏈：交互。

一切都要從 ChatGPT 的橫空出世說(shuō)起......

曾經(jīng)一片祥和的 NLP 社區(qū)，被這個(gè)突如其來(lái)的 “怪物” 嚇到了！一夜之間，整個(gè) NLP 圈發(fā)生了巨大的變化，工業(yè)界迅速跟進(jìn)，資本 “狂飆”，開(kāi)始了復(fù)刻 ChatGPT 之路；學(xué)術(shù)界突然陷入了一片迷茫的狀態(tài)......大家慢慢開(kāi)始相信 “NLP is solved!”

然而，從最近依然活躍的 NLP 學(xué)術(shù)圈和層出不窮的優(yōu)秀工作來(lái)看，事實(shí)并非如此，甚至可以說(shuō) “NLP just got real!”

這幾個(gè)月，北航、Mila、香港科技大學(xué)、蘇黎世聯(lián)邦理工學(xué)院（ETH）、滑鐵盧大學(xué)、達(dá)特茅斯學(xué)院、謝菲爾德大學(xué)、中科院等多家機(jī)構(gòu)，經(jīng)過(guò)系統(tǒng)、全面的調(diào)研之后，打磨出一篇 110 頁(yè)的論文，系統(tǒng)闡述了后 ChatGPT 時(shí)代的技術(shù)鏈：交互。

論文地址：https://arxiv.org/abs/2305.13246
項(xiàng)目資源：https://github.com/InteractiveNLP-Team

與傳統(tǒng)的 “人在環(huán)路（HITL）”、“寫(xiě)作助手” 等類(lèi)型的交互不同，本文所討論的交互，有著更高、更全面的視角：

對(duì)工業(yè)界：如果大模型有事實(shí)性、時(shí)效性等難以解決的問(wèn)題，那 ChatGPT+X 能否解決呢？甚至就像 ChatGPT Plugins 那樣，讓它和工具交互幫我們一步到位訂票、訂餐、畫(huà)圖！也就是說(shuō)，我們可以通過(guò)一些系統(tǒng)化的技術(shù)框架緩解當(dāng)下大模型的一些局限。
對(duì)學(xué)術(shù)界：什么是真正的 AGI？其實(shí)早在 2020 年，深度學(xué)習(xí)三巨頭、圖靈獎(jiǎng)獲得者 Yoshua Bengio 就描繪了交互型語(yǔ)言模型的藍(lán)圖 [1]：一個(gè)可以和環(huán)境交互，甚至可以和其他智能體進(jìn)行社會(huì)交互的語(yǔ)言模型，才能有最為全面的語(yǔ)言語(yǔ)義表示。在某種程度上，與環(huán)境、與人的交互造就了人類(lèi)智慧。

因此，讓語(yǔ)言模型（LM）與外部實(shí)體以及自我進(jìn)行交互，不僅僅可以幫助彌合大模型的固有缺陷，還可能是通往 AGI 的終極理想的一個(gè)重要的里程碑！

什么是交互？

其實(shí) “交互” 的概念并不是作者們臆想的。自從 ChatGPT 問(wèn)世之后，誕生了很多關(guān)于 NLP 界新問(wèn)題的論文，比如：

Tool Learning with Foundation Models 闡述了讓語(yǔ)言模型使用工具進(jìn)行推理或者執(zhí)行現(xiàn)實(shí)操作 [2]；
Foundation Models for Decision Making: Problems, Methods, and Opportunities 闡述了如何使用語(yǔ)言模型執(zhí)行決策任務(wù) (decision making)[3]；
ChatGPT for Robotics: Design Principles and Model Abilities 闡述了如何使用 ChatGPT 賦能機(jī)器人 [4]；
Augmented Language Models: a Survey 闡述了如何使用思維鏈 (Chain of Thought)、工具使用（Tool-use）等增強(qiáng)語(yǔ)言模型，并指出了語(yǔ)言模型使用工具可以給外部世界產(chǎn)生實(shí)際的影響（即 act）[5]；
Sparks of Artificial General Intelligence: Early experiments with GPT-4 闡述了如何使用 GPT-4 執(zhí)行各種類(lèi)型的任務(wù)，其中包括了與人、環(huán)境、工具等交互的案例 [6]。

可見(jiàn)，NLP 學(xué)界的關(guān)注點(diǎn)，逐漸從 “怎么打造模型”，過(guò)渡到了 “怎么打造框架”，也就是將更多的實(shí)體納入到語(yǔ)言模型訓(xùn)練、推理的過(guò)程當(dāng)中。最為典型的例子就是大家所熟知的 Reinforcement Learning from Human Feedback (RLHF), 基本原理就是讓語(yǔ)言模型從與人的交互（反饋）中進(jìn)行學(xué)習(xí) [7]，這一思想成為了 ChatGPT 畫(huà)龍點(diǎn)睛的一筆。

因此可以說(shuō)，“交互” 這個(gè)特性，是 ChatGPT 之后，NLP 最為主流的技術(shù)發(fā)展路徑之一！作者們的論文首次定義并系統(tǒng)解構(gòu)了 “交互式 NLP”，并主要基于交互對(duì)象的維度，盡可能全面地討論了各種技術(shù)方案的優(yōu)劣以及應(yīng)用上的考慮，包括：

LM 與人類(lèi)交互，以更好地理解和滿足用戶需求，個(gè)性化回應(yīng)，與人類(lèi)價(jià)值觀對(duì)齊 (alignment)，并改善整體用戶體驗(yàn)；
LM 與知識(shí)庫(kù)交互，以豐富語(yǔ)言表達(dá)的事實(shí)知識(shí)，增強(qiáng)回應(yīng)的知識(shí)背景相關(guān)性，并動(dòng)態(tài)利用外部信息生成更準(zhǔn)確的回應(yīng)；
LM 與模型和工具交互，以有效分解和解決復(fù)雜推理任務(wù)，利用特定知識(shí)處理特定子任務(wù)，并促進(jìn)智能體社會(huì)行為的涌現(xiàn)；
LM 與環(huán)境交互，以學(xué)習(xí)基于語(yǔ)言的實(shí)體表征（language grounding），并有效地處理類(lèi)似推理、規(guī)劃和決策等與環(huán)境觀察相關(guān)的具身任務(wù)（embodied tasks）。

因此，在交互的框架下，語(yǔ)言模型不再是語(yǔ)言模型本身，而是一個(gè)可以 “看”(observe)、可以 “動(dòng)作”(act)、可以 “獲取反饋”(feedback) 的基于語(yǔ)言的智能體。

與某個(gè)對(duì)象進(jìn)行交互，作者們稱(chēng)之為 “XXX-in-the-loop”, 表示這個(gè)對(duì)象參與了語(yǔ)言模型訓(xùn)練或者推理的過(guò)程，并且是以一種級(jí)聯(lián)、循環(huán)、反饋、或者迭代的形式參與其中的。

與人交互

讓語(yǔ)言模型與人交互可以分為三種方式：

使用提示進(jìn)行交流
使用反饋進(jìn)行學(xué)習(xí)
使用配置進(jìn)行調(diào)節(jié)

另外，為了保證可規(guī)?；牟渴?，往往采用模型或者程序模擬人類(lèi)的行為或者偏好，即從人類(lèi)模擬中學(xué)習(xí)。

總的來(lái)說(shuō)，與人交互要解決的核心問(wèn)題是對(duì)齊問(wèn)題 (alignment), 也就是如何讓語(yǔ)言模型的響應(yīng)更加符合用戶的需要，更加有幫助、無(wú)害且有理有據(jù)，能讓用戶有更好的使用體驗(yàn)等。

“使用提示進(jìn)行交流” 主要著重于交互的實(shí)時(shí)性和持續(xù)性，也就是強(qiáng)調(diào)連續(xù)性質(zhì)的多輪對(duì)話。這一點(diǎn)和 Conversational AI [8] 的思想是一脈相承的。也就是，通過(guò)多輪對(duì)話的方式，讓用戶連續(xù)地問(wèn)下去，讓語(yǔ)言模型的響應(yīng)在對(duì)話中慢慢地對(duì)齊于用戶偏好。這種方式通常在交互中不需要模型參數(shù)的調(diào)整。

“使用反饋進(jìn)行學(xué)習(xí)” 是當(dāng)前進(jìn)行 alignment 的主要方式，也就是讓用戶給語(yǔ)言模型的響應(yīng)一個(gè)反饋，這種反饋可以是描述偏好的 “好 / 壞” 的標(biāo)注，也可以是自然語(yǔ)言形式的更為詳細(xì)的反饋。模型需要被訓(xùn)練，以讓這些反饋盡可能地高。比較典型的例子就是 InstructGPT 所使用的 RLHF [7]，首先使用用戶標(biāo)注的對(duì)模型響應(yīng)的偏好反饋數(shù)據(jù)訓(xùn)練獎(jiǎng)勵(lì)模型，然后使用這個(gè)獎(jiǎng)勵(lì)模型以某種 RL 算法訓(xùn)練語(yǔ)言模型以最大化獎(jiǎng)勵(lì)（如下圖）。

Training language models to follow instructions with human feedback [7]

“使用配置進(jìn)行調(diào)節(jié)” 是一種比較特殊的交互方式，允許用戶直接調(diào)整語(yǔ)言模型的超參數(shù)（比如 temperature）、或者語(yǔ)言模型的級(jí)聯(lián)方式等。典型的例子比如谷歌的 AI Chains [9], 帶有不同預(yù)設(shè) prompt 的語(yǔ)言模型互相連接構(gòu)成了一個(gè)用于處理流程化任務(wù)的推理鏈條，用戶可以通過(guò)一個(gè) UI 拖拽調(diào)整這個(gè)鏈條的節(jié)點(diǎn)連接方式。

“從人類(lèi)模擬中學(xué)習(xí)” 可以促進(jìn)上述三種方式的規(guī)?；渴?，因?yàn)橛绕湓谟?xùn)練過(guò)程，使用真實(shí)的用戶是不現(xiàn)實(shí)的。比如 RLHF 通常需要使用一個(gè) reward model 來(lái)模擬用戶的偏好。另一個(gè)例子是微軟研究院的 ITG [10], 通過(guò)一個(gè) oracle model 來(lái)模擬用戶的編輯行為。

最近，斯坦福 Percy Liang 教授等人構(gòu)建了一個(gè)非常系統(tǒng)化的 Human-LM 交互的評(píng)測(cè)方案：Evaluating Human-Language Model Interaction [11], 感興趣的讀者可以參考本論文或者原文。

與知識(shí)庫(kù)交互

語(yǔ)言模型與知識(shí)庫(kù)交互存在三個(gè)步驟：

確定補(bǔ)充知識(shí)的來(lái)源：Knowledge Source
檢索知識(shí)：Knowledge Retrieval
使用知識(shí)進(jìn)行增強(qiáng)：詳細(xì)請(qǐng)參閱本論文 Interaction Message Fusion 部分，這里不多做介紹。

總的來(lái)說(shuō)，與知識(shí)庫(kù)進(jìn)行交互可以減輕語(yǔ)言模型的 “幻覺(jué)” 現(xiàn)象 (hallucination), 即提升其輸出的事實(shí)性、準(zhǔn)確性等，還能幫助改善語(yǔ)言模型的時(shí)效性問(wèn)題，幫助補(bǔ)充語(yǔ)言模型的知識(shí)能力（如下圖）等。

MineDojo [16]：當(dāng)一個(gè)語(yǔ)言模型智能體遇到不會(huì)的任務(wù)，可以從知識(shí)庫(kù)中查找學(xué)習(xí)資料，然后在資料的幫助下，完成這個(gè)任務(wù)。

“Knowledge Source” 分為兩種，一種是封閉的語(yǔ)料知識(shí) (Corpus Knowledge), 如 WikiText 等 [15]；另一種是開(kāi)放的網(wǎng)絡(luò)知識(shí) (Internet Knowledge), 比如使用搜索引擎可以得到的知識(shí) [14]。

“Knowledge Retrieval” 分為四種方式：

基于語(yǔ)言的稀疏表示以及 lexical matching 的稀疏檢索 (sparse retrieval)：如 n-gram 匹配，BM25 等。
基于語(yǔ)言的稠密表示以及 semantic matching 的稠密檢索 (dense retrieval)：如使用單塔或者雙塔模型作為檢索器等。
基于生成式檢索器：屬于比較新的方式，代表工作是谷歌 Tay Yi 等人的 Differentiable Search Index [12], 將知識(shí)都保存在語(yǔ)言模型的參數(shù)當(dāng)中，給一個(gè) query 后，直接輸出對(duì)應(yīng)知識(shí)的 doc id 或者 doc content. 因?yàn)檎Z(yǔ)言模型，就是知識(shí)庫(kù) [13]！
基于強(qiáng)化學(xué)習(xí)：也是比較前沿的方式，代表工作比如 OpenAI 的 WebGPT [14]，使用 human feedback 訓(xùn)練模型，以進(jìn)行正確知識(shí)的檢索。

與模型或者工具交互

語(yǔ)言模型與模型或者工具交互，主要的目的是進(jìn)行復(fù)雜任務(wù)的分解，比如將復(fù)雜的推理任務(wù)分解為若干子任務(wù)，這也是 Chain of Thought [17] 的核心思想。不同的子任務(wù)可以使用具有不同能力的模型或者工具解決，比如計(jì)算任務(wù)可以使用計(jì)算器解決，檢索任務(wù)可以使用檢索模型解決。因此，這種類(lèi)型的交互不僅可以提升語(yǔ)言模型的推理 (reasoning)、規(guī)劃 (planning)、決策 (decision making) 能力，還能減輕語(yǔ)言模型的 “幻覺(jué)” (hallucination)、不準(zhǔn)確輸出等局限。特別地，當(dāng)使用工具執(zhí)行某種特定的子任務(wù)時(shí)，可能會(huì)對(duì)外部世界產(chǎn)生一定影響，比如使用 WeChat API 發(fā)了一條朋友圈等，稱(chēng)為 “面向工具的學(xué)習(xí)”(Tool-Oriented Learning) [2].

另外，有時(shí)候顯式地分解一個(gè)復(fù)雜的任務(wù)是很困難的，這種時(shí)候，可以為不同的語(yǔ)言模型賦予不同的角色或者技能，然后讓這些語(yǔ)言模型在互相協(xié)作、溝通的過(guò)程當(dāng)中，隱式、自動(dòng)地形成某種分工方案 (division of labor)，進(jìn)行任務(wù)的分解。這種類(lèi)型的交互不僅僅可以簡(jiǎn)化復(fù)雜任務(wù)的解決流程，還可以對(duì)人類(lèi)社會(huì)進(jìn)行模擬，構(gòu)造某種形式的智能體社會(huì)。

作者們將模型和工具放在一起，主要是因?yàn)槟Ｐ秃凸ぞ卟灰欢ㄊ欠珠_(kāi)的兩個(gè)范疇，比如一個(gè)搜索引擎工具和一個(gè) retriever model 并沒(méi)有本質(zhì)的不同。這種本質(zhì)，作者們使用 “任務(wù)分解后，怎樣的子任務(wù)由怎樣的對(duì)象來(lái)承擔(dān)” 進(jìn)行界定。

語(yǔ)言模型與模型或者工具交互時(shí)，有三種類(lèi)型的操作：

Thinking: 模型與自己本身進(jìn)行交互，進(jìn)行任務(wù)的分解以及推理等；
Acting：模型調(diào)用其他的模型，或者外部工具等，幫助進(jìn)行推理，或者對(duì)外部世界產(chǎn)生實(shí)際作用；
Collaborating: 多個(gè)語(yǔ)言模型智能體互相溝通、協(xié)作，完成特定的任務(wù)，或者模擬人類(lèi)的社會(huì)行為。

注意：Thinking 主要論及的是 “多階段思維鏈” (Multi-Stage Chain-of-Thought)，即：不同的推理步驟，對(duì)應(yīng)著語(yǔ)言模型不同的調(diào)用 (multiple model run)，而不是像 Vanilla CoT [17] 那樣，跑一次模型同時(shí)輸出 thought+answer (single model run).

這里部分承襲的是 ReAct [18] 的表述方式。

Thinking 的典型工作包括了 ReAct [18], Least-to-Most Prompting [19], Self-Ask [20] 等。例如，Least-to-Most Prompting [19] 首先將一個(gè)復(fù)雜問(wèn)題分解為若干簡(jiǎn)單的模塊子問(wèn)題，然后迭代式地調(diào)用語(yǔ)言模型逐個(gè)擊破。

Acting 的典型工作包括了 ReAct [18], HuggingGPT [21], Toolformer [22] 等。例如，Toolformer [22] 將語(yǔ)言模型的預(yù)訓(xùn)練語(yǔ)料處理成了帶有 tool-use prompt 的形式，因此，經(jīng)過(guò)訓(xùn)練后的語(yǔ)言模型，可以在生成文本的時(shí)候，自動(dòng)地在正確的時(shí)機(jī)調(diào)用正確的外部工具（如搜索引擎、翻譯工具、時(shí)間工具、計(jì)算器等）解決特定的子問(wèn)題。

Collaborating 主要包括：

閉環(huán)交互：比如 Socratic Models [23] 等，通過(guò)大型語(yǔ)言模型、視覺(jué)語(yǔ)言模型、音頻語(yǔ)言模型的閉環(huán)交互，完成特定于視覺(jué)環(huán)境的某些復(fù)雜 QA 任務(wù)。
心智理論 (Theory of Mind): 旨在讓一個(gè)智能體能夠理解并預(yù)測(cè)另一個(gè)智能體的狀態(tài)，以促進(jìn)彼此的高效交互。例如 EMNLP 2021 的 Outstanding Paper, MindCraft [24], 給兩個(gè)不同的語(yǔ)言模型賦予了不同但互補(bǔ)的技能，讓他們?cè)诮涣鞯倪^(guò)程中協(xié)作完成 MineCraft 世界中的特定任務(wù)。著名教授 Graham Neubig 最近也非常關(guān)注這一條研究方向，如 [25].
溝通式代理 (Communicative Agents): 旨在讓多個(gè)智能體能夠進(jìn)行彼此交流協(xié)作。最為典型的例子就是斯坦福大學(xué)最近震驚世界的 Generative Agents [26]：搭建一個(gè)沙盒環(huán)境，讓好多個(gè)由大模型注入 “靈魂” 的智能體在其中自由活動(dòng)，它們竟然可以自發(fā)地呈現(xiàn)一些類(lèi)人的社會(huì)行為，比如聊天打招呼等，頗有一種 “西部世界” 的味道（如下圖）。除此之外，比較出名的工作還有 DeepGCN 作者的新工作 CAMEL [27]，讓兩個(gè)大模型賦能的智能體在彼此溝通的過(guò)程當(dāng)中開(kāi)發(fā)游戲，甚至炒股，而不需要人類(lèi)的過(guò)多干預(yù)。作者在文章中明確提出了 “大模型社會(huì)” (LLM Society) 的概念。

Generative Agents: Interactive Simulacra of Human Behavior, https://arxiv.org/pdf/2304.03442.pdf

與環(huán)境交互

語(yǔ)言模型和環(huán)境屬于兩個(gè)不同的象限：語(yǔ)言模型建立在抽象的文字符號(hào)之上，擅長(zhǎng) high-level 的推理、規(guī)劃、決策等任務(wù)；而環(huán)境建立在具體的感知信號(hào)之上（如視覺(jué)信息、聽(tīng)覺(jué)信息等），模擬或者自然發(fā)生一些 low-level 的任務(wù)，如提供觀察 (observation)、反饋 (feedback)、狀態(tài)更新 (state transition) 等（如：現(xiàn)實(shí)世界中一個(gè)蘋(píng)果落到了地上，模擬引擎中一個(gè) “苦力怕” 出現(xiàn)在了你的面前）。

因此，要讓語(yǔ)言模型能夠有效且高效地與環(huán)境進(jìn)行交互，主要包括了兩個(gè)方面的努力：

Modality Grounding: 讓語(yǔ)言模型可以處理圖像、音頻等多模態(tài)信息；
Affordance Grounding: 讓語(yǔ)言模型在環(huán)境具體場(chǎng)景的尺度下對(duì)可能的、恰當(dāng)?shù)膶?duì)象執(zhí)行可能的、恰當(dāng)?shù)膭?dòng)作。

對(duì)于 Modality Grounding 最為典型的就是視覺(jué) - 語(yǔ)言模型。一般而言可以使用單塔模型如 OFA [28], 雙塔模型如 BridgeTower [29], 或者語(yǔ)言模型與視覺(jué)模型的交互如 BLIP-2 [30] 來(lái)進(jìn)行。這里不再多說(shuō)，讀者可以詳看本論文。

對(duì)于 Affordance Grounding 主要有兩個(gè)考慮，即：如何在給定任務(wù)的條件下進(jìn)行 (1) 場(chǎng)景尺度的感知 (scene-scale perception), 以及 (2) 可能的動(dòng)作 (possible action)。舉個(gè)例子：

比如上圖的場(chǎng)景，給定任務(wù) “請(qǐng)關(guān)閉客廳里面的燈”，“場(chǎng)景尺度的感知” 要求我們找到全部紅色框選的燈，而不要選中不在客廳而在廚房的綠色圈選的燈，“可能的動(dòng)作” 要求我們確定可行的關(guān)燈方式，比如拉線燈需要使用 “拉” 的動(dòng)作，而開(kāi)關(guān)燈需要使用 “撥動(dòng)開(kāi)關(guān)” 的動(dòng)作。

通常而言，Affordance Grounding 可以使用一個(gè)依附于環(huán)境的價(jià)值函數(shù)解決，如 SayCan [31] 等，也可以使用一個(gè)專(zhuān)門(mén)的 grounding model 如 Grounded Decoding [32] 等。甚至也可以通過(guò)與人、與模型、與工具等的交互來(lái)解決（如下圖）。

Inner Monologue [33]

用什么交互：交互接口

在論文 Interaction Interface 章節(jié)，作者們系統(tǒng)地討論了不同交互語(yǔ)言、交互媒介的用法和優(yōu)劣，包括：

自然語(yǔ)言：如 few-shot example, task instruction, role assignment 甚至結(jié)構(gòu)化的自然語(yǔ)言等。主要討論了其在泛化性、表達(dá)性上的特點(diǎn)及作用等。
形式語(yǔ)言：如代碼、語(yǔ)法、數(shù)學(xué)公式等。主要討論了其在可解析性、推理能力上的特點(diǎn)及作用等。
機(jī)器語(yǔ)言：如 soft prompts, 離散化的視覺(jué) token 等。主要討論了其在泛化性、信息瓶頸理論、交互效率上的特點(diǎn)及作用等。
編輯：主要包括了對(duì)文本進(jìn)行的刪除、插入、替換、保留等操作。討論了它的原理、歷史、優(yōu)勢(shì)以及目前存在的局限。
共享記憶：主要包括了 hard memory 和 soft memory. 前者將歷史狀態(tài)記錄在一個(gè) log 里面作為記憶，后者使用一個(gè)可讀可寫(xiě)的記憶外置模塊保存張量。論文討論了兩者的特點(diǎn)、作用以及存在的局限等。

怎么交互：交互方法

論文還全面、詳細(xì)、系統(tǒng)地討論了各種各樣的交互方法，主要包括：

Prompting: 不調(diào)整模型參數(shù)，僅僅通過(guò) prompt engineering 的方式調(diào)用語(yǔ)言模型，涵蓋了上下文學(xué)習(xí)（In-Context Learning）、思維鏈提示 (Chain of Thought)、工具使用提示 (Tool-use)、級(jí)聯(lián)推理鏈 (Prompt Chaining) 等多種方法，詳細(xì)討論了各種 Prompting 技巧的原理、作用、各種 trick 和局限等，比如在可控性和魯棒性上的考慮等。
Fine-Tuning: 進(jìn)行模型參數(shù)的調(diào)整，以讓模型從交互信息中進(jìn)行學(xué)習(xí)更新。本節(jié)涵蓋了監(jiān)督指令精調(diào) (Supervised Instruction Tuning)、參數(shù)高效精調(diào) (Parameter-Efficient Fine-Tuning)、持續(xù)學(xué)習(xí) (Continual Learning)、半監(jiān)督學(xué)習(xí) (Semi-Supervised Fine-Tuning) 等方法。詳細(xì)討論了這些方法的原理、作用、優(yōu)勢(shì)、在具體使用時(shí)的考慮、及其局限。其中還包括了部分 Knowledge Editing 的內(nèi)容（即編輯模型內(nèi)部的知識(shí)）。
Active Learning: 交互式的主動(dòng)學(xué)習(xí)算法框架。
Reinforcement Learning: 交互式的強(qiáng)化學(xué)習(xí)算法框架，討論了在線強(qiáng)化學(xué)習(xí)框架、離線強(qiáng)化學(xué)習(xí)框架、從人類(lèi)反饋中學(xué)習(xí)（RLHF）、從環(huán)境反饋中學(xué)習(xí)（RLEF）、從 AI 反饋中學(xué)習(xí) (RLAIF) 等多種方法。
Imitation Learning: 交互式的模仿學(xué)習(xí)算法框架，討論了在線模仿學(xué)習(xí)、離線模仿學(xué)習(xí)等。
Interaction Message Fusion: 為上述所有交互方法提供了一個(gè)統(tǒng)一的框架，同時(shí)在這個(gè)框架中，向外擴(kuò)展，討論了不同的知識(shí)、信息融合方案，比如跨注意力融合方案 (cross-attention)、約束解碼融合方案 (constrained decoding) 等。

其他討論

囿于篇幅，本文不詳細(xì)介紹其他方面的討論，如評(píng)測(cè)、應(yīng)用、倫理、安全以及未來(lái)發(fā)展方向等。但是這些內(nèi)容在該論文原文中，仍然占據(jù)了 15 頁(yè)的內(nèi)容，因此推薦讀者在原文中查看更多細(xì)節(jié)，以下為這些內(nèi)容的大綱：

對(duì)交互的評(píng)測(cè)

論文中對(duì)評(píng)測(cè)的討論主要涉及以下關(guān)鍵詞：

交互式 NLP 的主要應(yīng)用

可控文本生成 (Controllable Text Generation)
與人交互：RLHF 的思想鋼印現(xiàn)象等
與知識(shí)交互：Knowledge-Aware Fine-Tuning [34] 等
與模型、工具交互：Classifier-Guided CTG 等
與環(huán)境交互：affordance grounding 等

交互式寫(xiě)作助手 (Writing Assistant)
Content Support: 內(nèi)容支持型
Content Checking and Polishing：內(nèi)容檢查、潤(rùn)色型
Content Enrichment：內(nèi)容豐富型
Content Co-creation：內(nèi)容創(chuàng)作型

具身智能（Embodied AI）
Observation and Manipulation: 基礎(chǔ)
Navigation and Exploration: 進(jìn)階 (e.g., long-horizon embodied tasks)
Multi-Role Tasks: 高級(jí)

游戲 (Text Game)
包含文本的交互式游戲平臺(tái)：Interactive Text Game Platforms
交互型語(yǔ)言模型如何玩轉(zhuǎn)僅文本類(lèi)型的游戲：Playing Text-Only Games
交互型語(yǔ)言模型如何賦能包含文本媒介的游戲：Powering Text-Aided Games
其他應(yīng)用
領(lǐng)域、任務(wù)專(zhuān)門(mén)化（Specialization）：比如如何基于交互打造特定于金融領(lǐng)域、醫(yī)學(xué)領(lǐng)域等的語(yǔ)言模型框架。
個(gè)性化與人格化 (Personalization & Personality)：比如如何基于交互打造特定于用戶個(gè)人的、或者帶有特定人格的語(yǔ)言模型。
基于模型的評(píng)測(cè)（Model-based Evaluation）

倫理與安全

討論了交互型語(yǔ)言模型在教育上的影響，還針對(duì)社會(huì)偏見(jiàn)、隱私等倫理安全問(wèn)題進(jìn)行了討論。

未來(lái)發(fā)展方向與挑戰(zhàn)

Alignment：語(yǔ)言模型的對(duì)齊問(wèn)題，如何讓模型的輸出更加無(wú)害、更加符合人類(lèi)價(jià)值觀、更加有理有據(jù)等。
Social Embodiment：語(yǔ)言模型的 Grounding 問(wèn)題，如何進(jìn)一步推動(dòng)語(yǔ)言模型具身化和社會(huì)化。
Plasticity：語(yǔ)言模型的可塑性問(wèn)題，如何保證模型知識(shí)的持續(xù)更新，且不會(huì)在更新的過(guò)程中遺忘先前獲得的知識(shí)。
Speed & Efficiency：語(yǔ)言模型的推理速度、訓(xùn)練效率等問(wèn)題，如何在不影響性能的情況下，加速推理，以及加速訓(xùn)練的效率。
Context Length：語(yǔ)言模型的上下文窗口大小限制。如何擴(kuò)充上下文的窗口大小，使其能夠處理更長(zhǎng)的文本。
Long Text Generation：語(yǔ)言模型的長(zhǎng)文本生成問(wèn)題。如何讓語(yǔ)言模型在極長(zhǎng)文本的生成場(chǎng)景下，也能保持優(yōu)良的性能。
Accessibility：語(yǔ)言模型的可用性問(wèn)題。如何讓語(yǔ)言模型從閉源到開(kāi)源，如何在不過(guò)度損失性能的前提下，讓語(yǔ)言模型能夠部署在邊緣設(shè)備如車(chē)載系統(tǒng)、筆記本上等。
Analysis：語(yǔ)言模型的分析、可解釋性等問(wèn)題。比如如何預(yù)測(cè)模型 scaling up 之后的性能，以指導(dǎo)大模型的研發(fā)，如何解釋大模型內(nèi)部的機(jī)理等。
Creativity：語(yǔ)言模型的創(chuàng)造性問(wèn)題。如何讓語(yǔ)言模型更加具有創(chuàng)造性，能夠更好地使用比喻、隱喻等，能夠創(chuàng)造出新的知識(shí)等。
Evaluation：如何更好地針對(duì)通用大模型進(jìn)行評(píng)測(cè)，如何評(píng)測(cè)語(yǔ)言模型在交互上的特性等。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

語(yǔ)言模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="lui6b"><track id="lui6b"></track></legend>