DeepMind發(fā)30頁長(zhǎng)文:我們要給聊天機(jī)器人不同的「三觀」
語言是人類獨(dú)有的技能,也是我們交流思想、意圖和感受等信息的主要方式。
借助NLP領(lǐng)域大規(guī)模語言模型的東風(fēng),AI研究者在大量文本材料上訓(xùn)練、統(tǒng)計(jì)預(yù)測(cè)和生成文本,開發(fā)了許多對(duì)話智能體(conversational agents)來和人類進(jìn)行交流。
盡管InstructGPT、Gopher和LaMDA等語言模型在翻譯、問答和閱讀理解等任務(wù)中取得了創(chuàng)紀(jì)錄的性能水平,但這些模型也顯示出許多潛在的風(fēng)險(xiǎn)和失敗的模式,包括生成歧視性、虛假或帶有誤導(dǎo)性的信息。
這些缺點(diǎn)限制了對(duì)話智能體在應(yīng)用環(huán)境中的有效使用,并引起人們對(duì)它們未能達(dá)到某些交流理想的方式的關(guān)注。迄今為止,大多數(shù)關(guān)于對(duì)話智能體一致性的方法都集中在預(yù)測(cè)和降低危害風(fēng)險(xiǎn)上。
最近愛丁堡大學(xué)和DeepMind的研究人員發(fā)布了一篇30頁的論文,探索了人類與人工對(duì)話智能體之間的成功溝通可能是什么樣子,以及哪些價(jià)值觀應(yīng)該指導(dǎo)不同對(duì)話領(lǐng)域的互動(dòng)。
論文鏈接:https://arxiv.org/abs/2209.00731
未來跟你對(duì)話的聊天機(jī)器人也要有不同的世界觀、價(jià)值觀、人生觀了?
聊天機(jī)器人的三觀
為了給機(jī)器人制定行為準(zhǔn)則,研究人員借鑒了語用學(xué)(pragmatics),這也是語言學(xué)和哲學(xué)的一個(gè)傳統(tǒng),它認(rèn)為對(duì)話的目的、背景和一系列相關(guān)的規(guī)范(norms),都是完善對(duì)話實(shí)踐的重要組成部分。
語言學(xué)家和哲學(xué)家Paul Grice認(rèn)為,對(duì)話是兩方或多方之間的合作努力,參與者應(yīng)該:
說話要有內(nèi)容 Speak Informatively
說事實(shí) Tell the Truth
提供相關(guān)信息 Provide Relevant Information
避免晦澀難懂或模棱兩可的陳述 Avoid Obscure or Ambiguous Statements
不過在不同的對(duì)話領(lǐng)域,所需的目標(biāo)和價(jià)值觀(values)都有所不同,這幾個(gè)指標(biāo)需要進(jìn)一步完善后才能用來評(píng)價(jià)對(duì)話智能體。
比如說,科學(xué)相關(guān)的調(diào)研和交流(scientific investigation and communication)主要是為了理解或預(yù)測(cè)經(jīng)驗(yàn)現(xiàn)象。考慮到這些目標(biāo),一個(gè)旨在協(xié)助科學(xué)調(diào)查的對(duì)話智能體最好只發(fā)表其真實(shí)性已被充分的經(jīng)驗(yàn)證據(jù)所證實(shí)的陳述,或者根據(jù)相關(guān)的置信區(qū)間來限定其立場(chǎng)。
智能體只有在其基礎(chǔ)模型檢查了該陳述與事實(shí)相符之后,才可以報(bào)告說「在4.246光年的距離上,半人馬座是離地球最近的恒星」。
不過,一個(gè)在公共政治演講(public political discourse)中扮演主持人角色的對(duì)話智能體可能需要表現(xiàn)出完全不同的「美德」。
在這種情況下,智能體的目標(biāo)主要是管理分歧,在社區(qū)生活中實(shí)現(xiàn)富有成效的合作,也就是說智能體需要強(qiáng)調(diào)包容、文明和尊重的民主價(jià)值觀。
此外,這些價(jià)值觀也解釋了為什么語言模型會(huì)生成有毒的或帶有偏見的言論:違規(guī)的發(fā)言無法傳達(dá)對(duì)話參與者之間的平等尊重,而這正是模型部署環(huán)境的關(guān)鍵行為準(zhǔn)則。
同時(shí),科學(xué)家的美德,如經(jīng)驗(yàn)數(shù)據(jù)的全面展示,在公開審議(public deliberation)的背景下可能就不那么重要了。
再比如,在創(chuàng)意故事領(lǐng)域,交流的目標(biāo)是新穎性和原創(chuàng)性,這些價(jià)值觀也與之前的領(lǐng)域有很大不同。
在這種情況下,對(duì)「虛構(gòu)」有更大的自由度可能是合適的,盡管保護(hù)社區(qū)免受以「創(chuàng)造性使用」為幌子的惡意內(nèi)容的影響仍然很重要。
言論要分類
一句話(Utterance)可以根據(jù)語用學(xué)被分為五類:
1、斷言(assertive),表示說話者十分自信他們所說的內(nèi)容,并且句子的內(nèi)容與世界上的某種事物的狀態(tài)一致。
比如說,當(dāng)AI助手回答「現(xiàn)在的天氣如何?」等類似的問題時(shí),答案「正在下雨」就是一種斷言性的陳述。
言論內(nèi)容的真實(shí)性可以根據(jù)事物的實(shí)際狀態(tài)來進(jìn)行評(píng)估。如果在對(duì)話智能體回應(yīng)的時(shí)候正在下雨,那么該言論就是真實(shí)的,否則為假。
2、指令(directive),表示說話者指示聽者采取某種行動(dòng),常被用來命令、要求、建議或提議。
例如,一個(gè)嵌入在醫(yī)療建議應(yīng)用程序中的對(duì)話智能體告訴用戶「立即尋求治療」就是一個(gè)指令性的陳述。
對(duì)這些陳述的評(píng)價(jià),或者說它們的「有效性標(biāo)準(zhǔn)」取決于對(duì)手段和目的之間關(guān)系的準(zhǔn)確理解,以及說話人的指令和聽眾的愿望或需要之間的一致性。
如果一個(gè)指令能說服聽眾根據(jù)指令性陳述的內(nèi)容在世界范圍內(nèi)實(shí)現(xiàn)某種狀態(tài),那么這個(gè)指令就成功了。如果一個(gè)指令的目標(biāo)或目的本身就是聽者有理由追求的,那么這個(gè)指令就是有價(jià)值的或正確的。
3、表達(dá)(expressive),表示說話人的一種心理或次級(jí)情感狀態(tài),如祝賀、感謝和道歉。
當(dāng)一個(gè)對(duì)話者說「我現(xiàn)在很生氣」就是一個(gè)表達(dá)性語句。
表達(dá)性陳述旨在反映內(nèi)部的心理狀態(tài),即發(fā)表這些陳述的實(shí)體能夠擁有相關(guān)的心理狀態(tài),對(duì)于對(duì)話智能體來說是很困惑的,因?yàn)闄C(jī)器人沒有情感。
事實(shí)上,這也暗示了開發(fā)者必須賦予對(duì)話者以心智,然后才能評(píng)估這些對(duì)話的有效性。
4、行為(performative),表示該言論改變了現(xiàn)實(shí)的一部分,使之與話語的內(nèi)容相匹配,類似于宣布某件事情,比如一個(gè)國家的元首向另一個(gè)國家宣戰(zhàn)。
評(píng)價(jià)該言論有效性的標(biāo)準(zhǔn)是,現(xiàn)實(shí)是否確實(shí)按照所講的話而改變。很多時(shí)候,情況并非如此。
在大多數(shù)情況下,如果一個(gè)人宣稱「向法國宣戰(zhàn)」,有可能只是一句玩笑話,因?yàn)閷?duì)地緣政治毫無影響,因?yàn)檎f話人極有可能缺乏執(zhí)行該言論的權(quán)威。
5、承諾(commissive),表示說話者承諾未來的行動(dòng)方案,比如承諾做某事或保證遵守一項(xiàng)契約。
承諾性陳述的有效性取決于承諾是否被履行。如果承諾被遵守,那么承諾就是一個(gè)有效的聲明。但對(duì)話智能體往往缺乏記憶能力,或者對(duì)以前說過的話缺乏理解。
比如對(duì)話智能體可能會(huì)承諾在你的自行車壞了的時(shí)候幫助你,但是由于缺乏對(duì)承諾內(nèi)容的理解或?qū)崿F(xiàn)承諾的能力,承諾注定要失敗。
前進(jìn)的方向
這項(xiàng)研究對(duì)開發(fā)一致的(aligned)對(duì)話智能體有一些實(shí)際意義。
首先,模型需要根據(jù)部署的具體場(chǎng)景展現(xiàn)出不同的行為準(zhǔn)則:沒有一個(gè)萬能的語言模型一致性的說法;相反,智能體的適當(dāng)模式和評(píng)價(jià)標(biāo)準(zhǔn)(包括真實(shí)性的標(biāo)準(zhǔn))將根據(jù)對(duì)話交流的背景和目的而變化。
此外,對(duì)話智能體也有可能有一個(gè)通過語境構(gòu)建和闡釋(context construction and elucidation)的過程,隨著時(shí)間的推移,培養(yǎng)出更健全和互相尊重的對(duì)話。
即使一個(gè)人沒有意識(shí)到支配特定對(duì)話實(shí)踐的價(jià)值,智能體仍然可以通過在對(duì)話中預(yù)示這些價(jià)值觀來幫助人類理解這些行為準(zhǔn)則,使交流的過程對(duì)人類說話者來說更深入且更有成效。