DeepMind發(fā)30頁長(zhǎng)文：我們要給聊天機(jī)器人不同的「三觀」

作者：新智元 2022-09-13 12:39:58

聊天機(jī)器人也得分場(chǎng)合說話！

語言是人類獨(dú)有的技能，也是我們交流思想、意圖和感受等信息的主要方式。

借助NLP領(lǐng)域大規(guī)模語言模型的東風(fēng)，AI研究者在大量文本材料上訓(xùn)練、統(tǒng)計(jì)預(yù)測(cè)和生成文本，開發(fā)了許多對(duì)話智能體（conversational agents）來和人類進(jìn)行交流。

盡管InstructGPT、Gopher和LaMDA等語言模型在翻譯、問答和閱讀理解等任務(wù)中取得了創(chuàng)紀(jì)錄的性能水平，但這些模型也顯示出許多潛在的風(fēng)險(xiǎn)和失敗的模式，包括生成歧視性、虛假或帶有誤導(dǎo)性的信息。

這些缺點(diǎn)限制了對(duì)話智能體在應(yīng)用環(huán)境中的有效使用，并引起人們對(duì)它們未能達(dá)到某些交流理想的方式的關(guān)注。迄今為止，大多數(shù)關(guān)于對(duì)話智能體一致性的方法都集中在預(yù)測(cè)和降低危害風(fēng)險(xiǎn)上。

最近愛丁堡大學(xué)和DeepMind的研究人員發(fā)布了一篇30頁的論文，探索了人類與人工對(duì)話智能體之間的成功溝通可能是什么樣子，以及哪些價(jià)值觀應(yīng)該指導(dǎo)不同對(duì)話領(lǐng)域的互動(dòng)。

論文鏈接：https://arxiv.org/abs/2209.00731

未來跟你對(duì)話的聊天機(jī)器人也要有不同的世界觀、價(jià)值觀、人生觀了？

聊天機(jī)器人的三觀

為了給機(jī)器人制定行為準(zhǔn)則，研究人員借鑒了語用學(xué)（pragmatics），這也是語言學(xué)和哲學(xué)的一個(gè)傳統(tǒng)，它認(rèn)為對(duì)話的目的、背景和一系列相關(guān)的規(guī)范（norms），都是完善對(duì)話實(shí)踐的重要組成部分。

語言學(xué)家和哲學(xué)家Paul Grice認(rèn)為，對(duì)話是兩方或多方之間的合作努力，參與者應(yīng)該:

說話要有內(nèi)容 Speak Informatively

說事實(shí) Tell the Truth

提供相關(guān)信息 Provide Relevant Information

避免晦澀難懂或模棱兩可的陳述 Avoid Obscure or Ambiguous Statements

不過在不同的對(duì)話領(lǐng)域，所需的目標(biāo)和價(jià)值觀（values）都有所不同，這幾個(gè)指標(biāo)需要進(jìn)一步完善后才能用來評(píng)價(jià)對(duì)話智能體。

比如說，科學(xué)相關(guān)的調(diào)研和交流（scientific investigation and communication）主要是為了理解或預(yù)測(cè)經(jīng)驗(yàn)現(xiàn)象。考慮到這些目標(biāo)，一個(gè)旨在協(xié)助科學(xué)調(diào)查的對(duì)話智能體最好只發(fā)表其真實(shí)性已被充分的經(jīng)驗(yàn)證據(jù)所證實(shí)的陳述，或者根據(jù)相關(guān)的置信區(qū)間來限定其立場(chǎng)。

智能體只有在其基礎(chǔ)模型檢查了該陳述與事實(shí)相符之后，才可以報(bào)告說「在4.246光年的距離上，半人馬座是離地球最近的恒星」。

不過，一個(gè)在公共政治演講（public political discourse）中扮演主持人角色的對(duì)話智能體可能需要表現(xiàn)出完全不同的「美德」。

在這種情況下，智能體的目標(biāo)主要是管理分歧，在社區(qū)生活中實(shí)現(xiàn)富有成效的合作，也就是說智能體需要強(qiáng)調(diào)包容、文明和尊重的民主價(jià)值觀。

此外，這些價(jià)值觀也解釋了為什么語言模型會(huì)生成有毒的或帶有偏見的言論：違規(guī)的發(fā)言無法傳達(dá)對(duì)話參與者之間的平等尊重，而這正是模型部署環(huán)境的關(guān)鍵行為準(zhǔn)則。

同時(shí)，科學(xué)家的美德，如經(jīng)驗(yàn)數(shù)據(jù)的全面展示，在公開審議（public deliberation）的背景下可能就不那么重要了。

再比如，在創(chuàng)意故事領(lǐng)域，交流的目標(biāo)是新穎性和原創(chuàng)性，這些價(jià)值觀也與之前的領(lǐng)域有很大不同。

在這種情況下，對(duì)「虛構(gòu)」有更大的自由度可能是合適的，盡管保護(hù)社區(qū)免受以「創(chuàng)造性使用」為幌子的惡意內(nèi)容的影響仍然很重要。

言論要分類

一句話（Utterance）可以根據(jù)語用學(xué)被分為五類：

1、斷言（assertive），表示說話者十分自信他們所說的內(nèi)容，并且句子的內(nèi)容與世界上的某種事物的狀態(tài)一致。

比如說，當(dāng)AI助手回答「現(xiàn)在的天氣如何？」等類似的問題時(shí)，答案「正在下雨」就是一種斷言性的陳述。

言論內(nèi)容的真實(shí)性可以根據(jù)事物的實(shí)際狀態(tài)來進(jìn)行評(píng)估。如果在對(duì)話智能體回應(yīng)的時(shí)候正在下雨，那么該言論就是真實(shí)的，否則為假。

2、指令（directive），表示說話者指示聽者采取某種行動(dòng)，常被用來命令、要求、建議或提議。

例如，一個(gè)嵌入在醫(yī)療建議應(yīng)用程序中的對(duì)話智能體告訴用戶「立即尋求治療」就是一個(gè)指令性的陳述。

對(duì)這些陳述的評(píng)價(jià)，或者說它們的「有效性標(biāo)準(zhǔn)」取決于對(duì)手段和目的之間關(guān)系的準(zhǔn)確理解，以及說話人的指令和聽眾的愿望或需要之間的一致性。

如果一個(gè)指令能說服聽眾根據(jù)指令性陳述的內(nèi)容在世界范圍內(nèi)實(shí)現(xiàn)某種狀態(tài)，那么這個(gè)指令就成功了。如果一個(gè)指令的目標(biāo)或目的本身就是聽者有理由追求的，那么這個(gè)指令就是有價(jià)值的或正確的。

3、表達(dá)（expressive），表示說話人的一種心理或次級(jí)情感狀態(tài)，如祝賀、感謝和道歉。

當(dāng)一個(gè)對(duì)話者說「我現(xiàn)在很生氣」就是一個(gè)表達(dá)性語句。

表達(dá)性陳述旨在反映內(nèi)部的心理狀態(tài)，即發(fā)表這些陳述的實(shí)體能夠擁有相關(guān)的心理狀態(tài)，對(duì)于對(duì)話智能體來說是很困惑的，因?yàn)闄C(jī)器人沒有情感。

事實(shí)上，這也暗示了開發(fā)者必須賦予對(duì)話者以心智，然后才能評(píng)估這些對(duì)話的有效性。

4、行為（performative），表示該言論改變了現(xiàn)實(shí)的一部分，使之與話語的內(nèi)容相匹配，類似于宣布某件事情，比如一個(gè)國家的元首向另一個(gè)國家宣戰(zhàn)。

評(píng)價(jià)該言論有效性的標(biāo)準(zhǔn)是，現(xiàn)實(shí)是否確實(shí)按照所講的話而改變。很多時(shí)候，情況并非如此。

在大多數(shù)情況下，如果一個(gè)人宣稱「向法國宣戰(zhàn)」，有可能只是一句玩笑話，因?yàn)閷?duì)地緣政治毫無影響，因?yàn)檎f話人極有可能缺乏執(zhí)行該言論的權(quán)威。

5、承諾（commissive），表示說話者承諾未來的行動(dòng)方案，比如承諾做某事或保證遵守一項(xiàng)契約。

承諾性陳述的有效性取決于承諾是否被履行。如果承諾被遵守，那么承諾就是一個(gè)有效的聲明。但對(duì)話智能體往往缺乏記憶能力，或者對(duì)以前說過的話缺乏理解。

比如對(duì)話智能體可能會(huì)承諾在你的自行車壞了的時(shí)候幫助你，但是由于缺乏對(duì)承諾內(nèi)容的理解或?qū)崿F(xiàn)承諾的能力，承諾注定要失敗。

前進(jìn)的方向

這項(xiàng)研究對(duì)開發(fā)一致的（aligned）對(duì)話智能體有一些實(shí)際意義。

首先，模型需要根據(jù)部署的具體場(chǎng)景展現(xiàn)出不同的行為準(zhǔn)則：沒有一個(gè)萬能的語言模型一致性的說法；相反，智能體的適當(dāng)模式和評(píng)價(jià)標(biāo)準(zhǔn)（包括真實(shí)性的標(biāo)準(zhǔn)）將根據(jù)對(duì)話交流的背景和目的而變化。

此外，對(duì)話智能體也有可能有一個(gè)通過語境構(gòu)建和闡釋（context construction and elucidation）的過程，隨著時(shí)間的推移，培養(yǎng)出更健全和互相尊重的對(duì)話。

即使一個(gè)人沒有意識(shí)到支配特定對(duì)話實(shí)踐的價(jià)值，智能體仍然可以通過在對(duì)話中預(yù)示這些價(jià)值觀來幫助人類理解這些行為準(zhǔn)則，使交流的過程對(duì)人類說話者來說更深入且更有成效。

責(zé)任編輯：張燕妮來源：新智元

機(jī)器人