爭取盟友、洞察人心,最新的Meta智能體是個談判高手
長期以來,游戲一直是 AI 進(jìn)步的試驗場——從深藍(lán)戰(zhàn)勝國際象棋大師 Garry Kasparov,到 AlphaGo 對圍棋的精通程度超越人類,再到 Pluribus 在撲克比賽中擊敗最厲害的玩家。但真正有用的、全能的智能體不能僅僅只會完棋盤游戲、移動移動棋子。有人不禁會問:我們能否建立一個更有效、更靈活的智能體,使其能夠像人類一樣使用語言進(jìn)行談判、說服并與人合作,以實現(xiàn)戰(zhàn)略目標(biāo)?
在游戲的歷史上,存在一款經(jīng)典的桌面游戲 Diplomacy,很多人在第一次看到該游戲時,都會被它地圖式的棋盤嚇一跳。以為它是一個復(fù)雜的戰(zhàn)爭游戲。其實不然,這是一款需要調(diào)動語言爭取盟友的游戲,遷涉到?jīng)Q策與談判協(xié)商,玩者之間有大量的交流,贏得游戲的關(guān)鍵在人與人之間的互動。
現(xiàn)在 Meta 向這一游戲發(fā)起了挑戰(zhàn),他們構(gòu)建的智能體 CICERO,成為首個在 Diplomacy 中達(dá)到人類水平的 AI。CICERO 通過在在線版本 webDiplomacy.net 上證明了這一點,其中 CICERO 的平均得分是人類玩家的兩倍多,并且在玩過不止一場游戲的參與者中排名前 10%。
- 論文地址:https://www.science.org/doi/10.1126/science.ade9097
- 主頁地址:https://ai.facebook.com/research/cicero/diplomacy/
幾十年來,Diplomacy 一直被視為 AI 領(lǐng)域中不可逾越的巨大挑戰(zhàn),因為這款游戲要求玩家理解他人的動機(jī)和觀點,需要制定復(fù)雜計劃,調(diào)整策略,并在此基礎(chǔ)上使用自然語言與他人達(dá)成協(xié)議,說服別人結(jié)成伙伴關(guān)系和聯(lián)盟等。這些對智能體來說還是比較困難的,而 CICERO 在使用自然語言與 Diplomacy 玩家進(jìn)行談判方面還是非常有效的。
與國際象棋和圍棋不同的是,Diplomacy 是一款關(guān)于人而不是棋子的游戲。如果智能體無法識別對手是在虛張聲勢,還是真正的發(fā)起破壞,它就會很快輸?shù)舯荣悺M瑯?,如果智能體不能像人一樣交流,表現(xiàn)出同理心,與別人建立關(guān)系,對游戲侃侃侃談——它就找不到其他愿意與它合作的玩家。
Meta 的這項研究將戰(zhàn)略推理(如 AlphaGo、Pluribus)與自然語言處理( 例如 GPT-3、 BlenderBot 3、LaMDA、OPT-175B)進(jìn)行了結(jié)合。例如,在游戲后期,CICERO 推斷出它將需要一個特定玩家的支持,然后 CICERO 會制定一個策略來贏得這個人的青睞。
如何構(gòu)建 CICERO
CICERO 的核心是一個可控的對話模型和一個戰(zhàn)略推理引擎。在游戲的每一點,CICERO 都會查看 game board 及其對話歷史,并對其他玩家可能采取的行動進(jìn)行建模。然后制定計劃來控制語言模型,將它的計劃告知其他玩家,并為與他們協(xié)調(diào)良好的其他玩家提出合理的行動建議。
可控對話?
為了構(gòu)建一個可控對話模型,Meta 從一個具有 27 億參數(shù)的類 BART 語言模型開始,并在來自互聯(lián)網(wǎng)的文本上進(jìn)行了預(yù)訓(xùn)練,還在 webDiplomacy.net 上對 40000 多個人類游戲進(jìn)行了微調(diào)。
實現(xiàn)過程主要分為以下幾步:
Step 1:根據(jù) board state 和當(dāng)前對話,CICERO 對每個人將做出什么給出初步預(yù)測。
Step 2:CICERO 迭代地改進(jìn)初步預(yù)測,然后使用改進(jìn)預(yù)測為自己和合作伙伴形成一個意圖。
Step 3:根據(jù) board state、對話和意圖生成多條候選消息。
?
Step 4:過濾候選消息,最大化值,并確保彼此之間的意圖一致。
研究者利用一些過濾機(jī)制進(jìn)一步提高對話質(zhì)量,比如用訓(xùn)練過的分類器來區(qū)分人類和模型生成的文本以確?!獙υ捠呛侠淼模c當(dāng)前游戲狀態(tài)和以前的信息一致,并且在戰(zhàn)略上是合理的。
對話意識戰(zhàn)略和規(guī)劃
在涉及合作的游戲中,智能體需要學(xué)會模擬人類在現(xiàn)實生活中實際會做什么,而不是將人類看作機(jī)器,讓智能體指揮他們應(yīng)該做什么。因此,Meta 希望 CICERO 制定的計劃與其他參與者的對話保持一致。
?
人類建模的經(jīng)典方法是監(jiān)督學(xué)習(xí),即用標(biāo)記的數(shù)據(jù)(如過去游戲中人類玩家的行動數(shù)據(jù)庫)來訓(xùn)練智能體。然而,純粹依靠監(jiān)督學(xué)習(xí)來選擇基于過去對話的行動,會導(dǎo)致智能體相對較弱,而且很容易被利用。例如,一個玩家可以告訴智能體「我很高興我們同意你將把你的部隊從巴黎移走!」由于類似的信息只有在達(dá)成協(xié)議時才會出現(xiàn)在訓(xùn)練數(shù)據(jù)中,因此智能體可能真的會將其部隊調(diào)離巴黎,即使這樣做是一個明顯的戰(zhàn)略失誤。
為了解決這個問題,CICERO 運(yùn)行一個迭代規(guī)劃算法,以平衡對話的一致性和合理性。智能體首先根據(jù)它與其他玩家的對話預(yù)測每個人在當(dāng)前回合的策略,同時也預(yù)測其他玩家認(rèn)為智能體的策略將會是什么。然后,它將運(yùn)行名為「piKL」的規(guī)劃算法,該算法通過嘗試選擇在其他玩家預(yù)測的策略下具有更高期望值的新策略,來迭代改進(jìn)這些預(yù)測,同時也嘗試使新的預(yù)測接近于原始策略預(yù)測。研究者發(fā)現(xiàn),與單純的監(jiān)督學(xué)習(xí)相比,piKL 能更好地模擬人類游戲,并為智能體帶來更好的策略。
??
生成自然的、目的型的對話
在 Diplomacy 中,玩家如何與他人交談甚至比他們?nèi)绾我苿悠遄痈匾ICERO 在與其他玩家制定戰(zhàn)略時,能夠清楚地、有說服力地交流。例如,在一個 demo 中,CICERO 要求一個玩家立即在棋盤的某個部分提供支持,同時向另一個玩家施加壓力讓其在游戲的后期考慮結(jié)盟。
交流中,CICERO 試圖通過向三個不同的玩家提出行動建議來執(zhí)行其戰(zhàn)略。在第二次對話中,智能體能夠告訴其他玩家為什么他們應(yīng)該合作,以及它將如何對雙方有利。在第三次對話中,CICERO 既在征求信息,也在為未來的行動打下基礎(chǔ)。
不足之處
必須承認(rèn),CICERO 有時也會產(chǎn)生不一致的對話,從而破壞其目標(biāo)。在下面的例子中,CICERO 扮演的是奧地利,但智能體要求意大利轉(zhuǎn)移到威尼斯,與它的第一個信息相矛盾。
讓「Diplomacy」推進(jìn)人類與 AI 互動的沙盒
在一個既涉及合作又涉及競爭的游戲中,出現(xiàn)了以目標(biāo)為導(dǎo)向的對話系統(tǒng),對于使 AI 與人類的意圖和目標(biāo)相一致方面,這提出了重要的社會和技術(shù)挑戰(zhàn)。「Diplomacy」為研究這個問題提供了一個特別有趣的環(huán)境,因為玩這個游戲需要與沖突的目標(biāo)搏斗,并將這些復(fù)雜的目標(biāo)轉(zhuǎn)化為自然語言。舉個簡單的例子,玩家可能會選擇在短期利益上做出妥協(xié)來維持和一個盟友的關(guān)系,因為這個盟友有可能在下一回合幫助他們進(jìn)入一個更好的位置。
雖然 Meta 在這項工作中取得了重大進(jìn)展,但將語言模型與具體意圖有力地結(jié)合起來的能力,以及決定這些意圖的技術(shù)(和規(guī)范)挑戰(zhàn)仍然是重要的問題。通過開源 CICERO 代碼,Meta 希望 AI 研究人員能夠以負(fù)責(zé)任的方式繼續(xù)在這一工作基礎(chǔ)上發(fā)展。團(tuán)隊表示:「通過使用對話模型進(jìn)行零樣本分類,我們已經(jīng)在這個新領(lǐng)域中邁出了檢測和刪除有害信息的早期步驟。我們希望「Diplomacy」可以作為一個安全的沙盒來推進(jìn)人與 AI 互動的研究?!?/span>
未來方向
雖然目前 CICERO 只能夠玩 Diplomacy 游戲,但這一成就背后的技術(shù)與許多現(xiàn)實世界的應(yīng)用有關(guān)。例如,通過規(guī)劃和 RL 控制自然語言的生成,可以緩解人類和 AI 驅(qū)動的智能體之間的溝通障礙。
例如,今天的人工智能助手擅長回答簡單的問題,比如告訴你天氣,但如果他們能保持長期的對話,以教你一個新技能為目標(biāo)呢?
另外,想象一個視頻游戲,其中 NPC 可以像人一樣計劃和交談—理解你的動機(jī)并相應(yīng)地調(diào)整對話,幫助你完成攻打城堡的任務(wù)。
這些「夢想」,未來或許都能走進(jìn)現(xiàn)實。