關(guān)于戰(zhàn)略人工智能的深度綜述 原創(chuàng)
本文將全面探索戰(zhàn)略性人工智能的概念、發(fā)展及相關(guān)博弈論理論,并對戰(zhàn)略人工智能的未來發(fā)展方向提出建議。
開場白
1997年5月11日,紐約市。
這是紐約市一個(gè)美麗的春日,天空晴朗,氣溫攀升至20攝氏度。洋基隊(duì)準(zhǔn)備在洋基體育場迎戰(zhàn)堪薩斯城皇家隊(duì),流浪者隊(duì)在麥迪遜廣場花園迎戰(zhàn)魔鬼隊(duì)。
一切似乎都平淡無奇,然而聚集在曼哈頓中城公平中心的人們即將體驗(yàn)到真正獨(dú)特的體驗(yàn)。他們即將見證這一歷史性事件:一臺計(jì)算機(jī)將首次在標(biāo)準(zhǔn)比賽條件下?lián)魯H象棋衛(wèi)冕世界冠軍。
代表人類的是加里·卡斯帕羅夫,他當(dāng)時(shí)被公認(rèn)為世界頂級國際象棋選手。代表機(jī)器的是深藍(lán)——IBM開發(fā)的國際象棋計(jì)算機(jī)。在比賽的最后一局和第六局,兩位選手都獲得了2.5分。今天將決出勝負(fù)。
加里一開始執(zhí)黑棋,但一開始就犯了一個(gè)錯誤,并面臨深藍(lán)的強(qiáng)大而激進(jìn)的攻擊。僅僅19步之后,一切就結(jié)束了??ㄋ古亮_夫感到士氣低落,壓力重重,他認(rèn)為自己的地位無法維持,于是辭職了。這是一個(gè)具有象征意義的時(shí)刻,許多人稱贊這是人與機(jī)器之間最重要的時(shí)刻之一。這一里程碑事件標(biāo)志著人工智能發(fā)展的轉(zhuǎn)折點(diǎn),凸顯了戰(zhàn)略人工智能的潛力和挑戰(zhàn)。
簡介
作者使用Canva Magic Studio生成的圖像
受生成式人工智能最近的進(jìn)步以及我自己對大型語言模型及其戰(zhàn)略能力的實(shí)驗(yàn)的啟發(fā),我越來越多地思考戰(zhàn)略人工智能的問題。過去我們是如何嘗試處理這個(gè)話題的?在我們擁有一個(gè)更多面手的戰(zhàn)略人工智能代理之前,面臨哪些挑戰(zhàn)和需要解決的問題?
作為數(shù)據(jù)科學(xué)家,我們越來越多地為客戶和雇主實(shí)施人工智能解決方案。對于整個(gè)社會來說,與人工智能日益增長的互動使得了解人工智能的發(fā)展,特別是戰(zhàn)略人工智能變得至關(guān)重要。一旦我們擁有能夠在戰(zhàn)略環(huán)境中很好地操縱的自主代理,這將對每個(gè)人都會產(chǎn)生深遠(yuǎn)的影響。
但是,當(dāng)我們提及戰(zhàn)略性人工智能時(shí),我們到底是什么意思呢?從本質(zhì)上講,戰(zhàn)略性人工智能涉及機(jī)器做出決策,這些決策不僅考慮潛在的行動,還預(yù)測和影響他人的反應(yīng)。這是關(guān)于在復(fù)雜、不確定的環(huán)境中最大化預(yù)期結(jié)果。
在本文中,我們將定義戰(zhàn)略性人工智能,探討它是什么,以及自1997年IBM的深藍(lán)擊敗卡斯帕羅夫以來,它是如何發(fā)展的。我們將嘗試了解一些模型的總體架構(gòu),此外還將研究大型語言模型(LLM)如何融入其中。通過了解這些趨勢和發(fā)展,我們可以更好地為自主AI代理融入社會的世界做好必要的準(zhǔn)備。
定義戰(zhàn)略性人工智能
作者使用Canva Magic Studio生成的圖像
圍繞戰(zhàn)略人工智能的更深入討論始于對該主題的明確定義。
當(dāng)我們在商業(yè)環(huán)境中考慮戰(zhàn)略時(shí),我們往往傾向于將其與長期思維、資源分配和優(yōu)化、對組織內(nèi)部相互依賴的全面理解、決策與公司目的和使命的一致性等主題聯(lián)系起來。雖然這些主題很有用,但在處理人工智能和自主代理時(shí),我通常更喜歡對戰(zhàn)略進(jìn)行更具博弈論意義的定義。在這種情況下,我們將戰(zhàn)略性定義為:
“選擇一個(gè)行動方案,不僅要考慮你自己的潛在行動,還要考慮其他人對這些行動的反應(yīng),以及你的決定如何影響環(huán)境的整體動態(tài),從而最大限度地提高你的預(yù)期回報(bào)?!?/span>
這個(gè)定義的關(guān)鍵部分是,戰(zhàn)略選擇不是在真空中發(fā)生的,而是在其他參與者的背景下發(fā)生的,無論是人類、組織還是其他人工智能。這些其他實(shí)體可能有相似或相互沖突的目標(biāo),也可能試圖采取戰(zhàn)略行動來促進(jìn)自己的利益。
此外,戰(zhàn)略選擇總是尋求最大化預(yù)期回報(bào),無論這些回報(bào)是金錢、效用還是其他價(jià)值衡量標(biāo)準(zhǔn)。如果我們想納入與戰(zhàn)略相關(guān)的更傳統(tǒng)的“商業(yè)”主題,我們可以想象,我們希望在10年后使公司的價(jià)值最大化。在這種情況下,為了制定一個(gè)好的戰(zhàn)略,我們需要采取“長期”的眼光,也可能考慮公司的“目的和使命”,以確保與戰(zhàn)略保持一致。然而,追求這些努力僅僅是戰(zhàn)略行動實(shí)際意義的結(jié)果。
戰(zhàn)略的博弈論觀點(diǎn)抓住了戰(zhàn)略決策的本質(zhì),因此讓我們清楚地定義了戰(zhàn)略人工智能的含義。從定義中我們可以看出,如果一個(gè)人工智能系統(tǒng)或代理要采取戰(zhàn)略行動,它需要具備一些核心能力。具體而言,它需要能夠:
- 對其他代理進(jìn)行建模(使用預(yù)測技術(shù)或概率推理;這些代理可以是來自人類、人工智能或組織的任何產(chǎn)品)。
- 根據(jù)預(yù)期效用優(yōu)化操作。
- 在他們收集有關(guān)其他代理策略的新信息時(shí),動態(tài)適應(yīng)。
目前,還沒有一個(gè)眾所周知或公開的系統(tǒng)能夠在現(xiàn)實(shí)世界中以自主的方式執(zhí)行所有這些操作。然而,鑒于人工智能系統(tǒng)的最新進(jìn)展和LLM的迅速崛起,這種情況可能即將改變!
博弈論中的其他重要概念
作者使用Canva Magic Studio生成的圖像
在我們進(jìn)一步討論戰(zhàn)略人工智能之前,回顧博弈論中的一些概念和想法可能是有用的。圍繞戰(zhàn)略人工智能所做的許多工作都以博弈論概念為基礎(chǔ),使用博弈論中的定理可以證明某些屬性的存在,這些屬性使一些博弈和情況比其他博弈和情況更容易處理。它還有助于突出博弈論在現(xiàn)實(shí)世界情況下的一些缺點(diǎn),并突出我們最好從其他方向?qū)ふ异`感的地方。
什么是博弈?
我們將博弈定義為一個(gè)由三個(gè)關(guān)鍵部分組成的數(shù)學(xué)模型:
- 玩家:做出決策的個(gè)人或?qū)嶓w。
- 策略:每個(gè)玩家可以采取的可能行動或計(jì)劃。
- 回報(bào):每個(gè)玩家根據(jù)所選策略獲得的獎勵或結(jié)果。
這種正式結(jié)構(gòu)允許對戰(zhàn)略互動和決策過程進(jìn)行系統(tǒng)研究。
有限與無限博弈
在談?wù)摬┺臅r(shí),首先了解有限博弈和無限博弈之間的區(qū)別也是有意義的。
有限博弈有一組固定的玩家、定義好的規(guī)則和明確的終點(diǎn)。有限博弈的目標(biāo)就是贏,這方面的例子包括國際象棋、圍棋、跳棋和大多數(shù)傳統(tǒng)的棋盤博弈。
另一方面,無限博弈沒有預(yù)先確定的終點(diǎn),規(guī)則可以隨著時(shí)間的推移而演變。無限博弈的目標(biāo)不是贏,而是繼續(xù)比賽。商業(yè)競爭或社會進(jìn)化等現(xiàn)實(shí)世界場景就可以被視為無限的博弈。冷戰(zhàn)可以被視為一個(gè)無限博弈的例子。這是美國及其盟友(西方)和蘇聯(lián)及其盟友(東方)之間長期的地緣政治斗爭。沖突沒有固定的終點(diǎn),策略和規(guī)則隨著時(shí)間的推移而演變。
子博弈
有時(shí),我們可以在更大的博弈環(huán)境中找到更小的博弈。從數(shù)學(xué)上講,子博弈本身就是自包含的博弈,需要滿足一些不同的標(biāo)準(zhǔn):
- 子博弈是從玩家確切知道自己在游戲中的位置開始的。
- 子博弈包括從那時(shí)起可能采取的一切行動和結(jié)果。
- 子博弈涵蓋了與這些行動相關(guān)的所有參與者的知識和不確定性。
如果我們想象一棵代表整個(gè)博弈的大樹,我們就可以形象化一個(gè)子博弈。子博弈就像從某個(gè)點(diǎn)(節(jié)點(diǎn))開始選擇這棵樹的一個(gè)分支,并包括從該點(diǎn)延伸的所有內(nèi)容,同時(shí)確保任何不確定性都在這個(gè)分支中得到充分體現(xiàn)。
子博弈背后的核心思想使其對我們關(guān)于戰(zhàn)略人工智能的討論非常有用。原因主要是,玩家之間的一些無限博弈可能非常復(fù)雜,難以建模,而如果我們選擇在該博弈中查看較小的博弈,我們可以更成功地應(yīng)用博弈論分析。
回到我們的例子,冷戰(zhàn)是一個(gè)無限的博弈,我們可以在這個(gè)背景下識別出幾個(gè)子博弈。下面是一些代表性的例子:
1962年古巴導(dǎo)彈危機(jī):
- 玩家:美國和蘇聯(lián)。
- 戰(zhàn)略:美國考慮了從外交談判到軍事入侵的各種選擇,而蘇聯(lián)則不得不決定是拆除導(dǎo)彈還是升級對抗。
- 回報(bào):避免核戰(zhàn)爭,維護(hù)全球形象和戰(zhàn)略軍事定位。
柏林封鎖和空運(yùn)(1948-1949):
- 玩家:西方盟國和蘇聯(lián)。
- 戰(zhàn)略:蘇聯(lián)封鎖了柏林,將盟軍趕出,而盟軍則不得不在放棄這座城市或通過空中補(bǔ)給之間做出決定。
- 回報(bào):控制柏林,展示政治決心,影響歐洲聯(lián)盟。
當(dāng)然,盡管處理起來非常困難和復(fù)雜,但這兩個(gè)“子博弈”比整個(gè)冷戰(zhàn)更容易分析和制定應(yīng)對措施。他們有一套明確的參與者,一套有限的策略和回報(bào),還有一個(gè)更清晰的時(shí)間框架。這使得它們更適用于博弈論分析。
在戰(zhàn)略人工智能的背景下,分析這些子博弈對于開發(fā)能夠在復(fù)雜動態(tài)環(huán)境中做出最佳決策的智能系統(tǒng)至關(guān)重要。
雙人博弈
雙人博弈只是兩個(gè)玩家之間的博弈。例如,這可能是兩個(gè)棋手之間的博弈,或者回到我們的冷戰(zhàn)例子——西方對東方。游戲中只有兩名玩家的情形簡化了分析,但仍然可捕捉到基本的競爭或合作動態(tài)。博弈論中的許多結(jié)果都是基于兩人博弈。
零和博弈
零和博弈是博弈的一個(gè)子集,其中一個(gè)玩家的收益是另一個(gè)博弈玩家的損失??偸找姹3植蛔儯婕抑g存在直接競爭。
納什均衡與最優(yōu)行為
納什均衡(NE)是一組策略,假設(shè)其他參與者保持不變,任何參與者都不能通過單方面改變自己的策略來獲得額外的利益。在這種狀態(tài)下,每個(gè)玩家的策略都是對其他玩家策略的最佳回應(yīng),從而導(dǎo)致穩(wěn)定的結(jié)果,沒有玩家有偏離的動機(jī)。
例如,在游戲《石頭剪刀》(RPS)中,NE是所有玩家隨機(jī)玩石頭、布和剪刀的狀態(tài),每個(gè)玩家都有相等的概率。如果你作為一名玩家選擇玩NE策略,你可以確保沒有其他玩家可以利用你的游戲,在雙人零和博弈中,可以證明你不會在預(yù)期中失敗,你能做的最糟糕的事情就是收支平衡。
然而,玩NE策略可能并不總是最佳策略,特別是如果你的對手以可預(yù)測的次優(yōu)方式玩??紤]一個(gè)有兩個(gè)玩家A和B的場景。如果玩家B開始玩更多的紙,玩家A可以識別出這一點(diǎn),并增加其玩剪刀的頻率。但是,B可以再次利用與A的這種偏差,從而改變策略并出更多石頭。
關(guān)于戰(zhàn)略性人工智能的關(guān)鍵要點(diǎn)
回顧博弈論概念,子博弈的概念似乎對戰(zhàn)略人工智能特別有用。在更大的背景下找到可能更小、更容易分析的博弈的能力,使應(yīng)用已知的解決方案和求解器變得更加容易。
例如,假設(shè)你正在努力發(fā)展你的職業(yè)生涯,這可以被歸類為一個(gè)無限的博弈,很難“解決”,但突然間你有機(jī)會談判一份新合同。這個(gè)談判過程為你的職業(yè)生涯中的一個(gè)子博弈提供了機(jī)會,對于使用博弈論概念的戰(zhàn)略人工智能來說,這將更容易接近。
事實(shí)上,數(shù)千年來,人類一直在我們的生活中創(chuàng)造子博弈。大約1500年前,在印度,我們創(chuàng)造了現(xiàn)在被稱為國際象棋的起源。國際象棋對人工智能來說是一個(gè)相當(dāng)大的挑戰(zhàn),但也讓我們開始開發(fā)更成熟的工具和技術(shù),可用于更復(fù)雜、更困難的戰(zhàn)略情況。
博弈中的戰(zhàn)略人工智能簡史
作者使用Canva Magic Studio生成的圖像
博弈為開發(fā)戰(zhàn)略性人工智能提供了一個(gè)令人驚嘆的試驗(yàn)場。博弈的封閉性使其比開放式系統(tǒng)更容易訓(xùn)練模型和開發(fā)解決方案技術(shù)。博弈有明確的定義;參與者是眾所周知的,回報(bào)也是如此。最早的里程碑之一是深藍(lán),這臺機(jī)器擊敗了國際象棋世界冠軍。
早期里程碑:深藍(lán)
深藍(lán)是IBM在20世紀(jì)90年代開發(fā)的一臺下棋超級計(jì)算機(jī)。正如本文開始所述,1997年5月,它在六局比賽中擊敗了衛(wèi)冕世界國際象棋冠軍加里·卡斯帕羅夫,創(chuàng)造了歷史。深藍(lán)采用了專門的硬件和算法,每秒能夠評估2億個(gè)國際象棋位置。它將暴力搜索技術(shù)與啟發(fā)式評估函數(shù)相結(jié)合,使其能夠比任何以前的系統(tǒng)更深入地搜索潛在的移動序列。深藍(lán)的特別之處在于它能夠快速處理大量的位置,有效地處理國際象棋的組合復(fù)雜性,并標(biāo)志著人工智能的一個(gè)重要里程碑。
然而,正如加里·卡斯帕羅夫在接受萊克斯·弗里德曼采訪時(shí)所指出的那樣,深藍(lán)比其他任何產(chǎn)品都更像是一臺蠻力機(jī)器,所以可能很難將其定性為任何類型的智能。搜索的核心基本上只是試錯。說到錯誤,它比人類犯的錯誤少得多,據(jù)卡斯帕羅夫說,這是它難以被擊敗的特征之一。
復(fù)雜博弈的進(jìn)步:AlphaGo
在深藍(lán)在國際象棋中獲勝19年后,谷歌DeepMind的一個(gè)團(tuán)隊(duì)開發(fā)了另一個(gè)模型,這將為人工智能歷史上的一個(gè)特殊時(shí)刻做出貢獻(xiàn)。2016年,AlphaGo成為第一個(gè)擊敗世界冠軍圍棋選手李世石的人工智能模型。
圍棋是一種非常古老的棋盤游戲,起源于亞洲,以其高度的復(fù)雜性和大量的可能位置而聞名,遠(yuǎn)遠(yuǎn)超過了國際象棋。AlphaGo將深度神經(jīng)網(wǎng)絡(luò)與蒙特卡洛樹搜索相結(jié)合,使其能夠有效地評估位置和規(guī)劃移動。AlphaGo推理的時(shí)間越長,它的表現(xiàn)就越好。
人工智能在人類專家游戲的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并通過自我游戲進(jìn)一步改進(jìn)。AlphaGo的獨(dú)特之處在于它能夠處理圍棋的復(fù)雜性,利用先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)在以前被認(rèn)為難以掌握人工智能的領(lǐng)域?qū)崿F(xiàn)超人的表現(xiàn)。
有人可能會說,AlphaGo比深藍(lán)表現(xiàn)出更多的智慧,因?yàn)樗哂猩钊朐u估棋盤狀態(tài)和選擇動作的卓越能力。2016年對陣?yán)钍朗谋荣愔械牡?7步就是一個(gè)經(jīng)典的例子。對于那些熟悉圍棋的人來說,這是第五行的肩侵,最初讓包括李世石本人在內(nèi)的評論員感到困惑。但后來很明顯,這一舉動是一場精彩的比賽,展示了AlphaGo將如何探索人類玩家可能忽視和無視的策略。
結(jié)合國際象棋和圍棋:AlphaZero
一年后,谷歌DeepMind再次成為頭條新聞。這一次,他們從AlphaGo學(xué)到了很多知識,并創(chuàng)建了AlphaZero,它更像是一個(gè)掌握國際象棋、圍棋和將棋的通用人工智能系統(tǒng)。研究人員能夠在沒有人類先驗(yàn)知識或數(shù)據(jù)的情況下,僅通過自我游戲和強(qiáng)化學(xué)習(xí)來構(gòu)建人工智能。與依賴于手工制作的評估函數(shù)和廣泛的開放庫的傳統(tǒng)國際象棋引擎不同,AlphaZero使用了深度神經(jīng)網(wǎng)絡(luò)和一種將蒙特卡洛樹搜索與自學(xué)習(xí)相結(jié)合的新算法。
該系統(tǒng)從基本規(guī)則開始,通過與自己玩數(shù)百萬個(gè)游戲來學(xué)習(xí)最佳策略。AlphaZero的獨(dú)特之處在于它能夠發(fā)現(xiàn)創(chuàng)造性和高效的策略,展示了一種利用自我學(xué)習(xí)而非人類工程知識的人工智能新范式。
速度與戰(zhàn)略的融合:《星際爭霸II》
谷歌DeepMind團(tuán)隊(duì)繼續(xù)在人工智能領(lǐng)域占據(jù)主導(dǎo)地位,將重點(diǎn)轉(zhuǎn)向了一款非常受歡迎的電腦游戲《星際爭霸II》。2019年,他們開發(fā)了一種名為AlphaStar(【參考文獻(xiàn)2】)的人工智能,能夠?qū)崿F(xiàn)大師級游戲,在競爭排行榜上的排名高于99.8%的人類玩家。
《星際爭霸II》是一款實(shí)時(shí)戰(zhàn)略游戲,為DeepMind的團(tuán)隊(duì)帶來了幾個(gè)新穎的挑戰(zhàn)。游戲的目標(biāo)是通過收集資源、建造建筑和集結(jié)可以擊敗對手的軍隊(duì)來征服對手。這款游戲的主要挑戰(zhàn)來自需要考慮的巨大動作空間、實(shí)時(shí)決策、戰(zhàn)爭迷霧造成的部分可觀察性以及長期戰(zhàn)略規(guī)劃的需要,因?yàn)橛行┯螒蚩梢猿掷m(xù)數(shù)小時(shí)。
通過構(gòu)建為以前的人工智能開發(fā)的一些技術(shù),比如通過自我游戲和深度神經(jīng)網(wǎng)絡(luò)進(jìn)行強(qiáng)化學(xué)習(xí),該團(tuán)隊(duì)能夠制作出一個(gè)獨(dú)特的游戲引擎。首先,他們使用監(jiān)督學(xué)習(xí)和人類游戲訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)。然后,他們用它來播種另一種算法,該算法可以在多智能體游戲框架中與自己對抗。DeepMind團(tuán)隊(duì)創(chuàng)建了一個(gè)虛擬聯(lián)盟,在這個(gè)聯(lián)盟中,智能體可以探索彼此對抗的策略,并對占主導(dǎo)地位的策略進(jìn)行獎勵。最終,他們將聯(lián)盟的策略組合成一個(gè)超級策略,可以有效地對抗許多不同的對手和策略。用他們自己的話說(【參考文獻(xiàn)3】):
“最終的AlphaStar代理由聯(lián)盟納什分布的組件組成;換句話說,是已經(jīng)發(fā)現(xiàn)的最有效的策略組合,在單個(gè)桌面GPU上運(yùn)行?!?/span>
深入了解Pluribus和撲克
我喜歡玩撲克,當(dāng)我在特隆赫姆生活和學(xué)習(xí)時(shí),我們每周都會有一場游戲,相當(dāng)激烈!最后一個(gè)被戰(zhàn)略性人工智能超越的里程碑是撲克游戲。具體來說,是撲克游戲中最受歡迎的形式之一,6人無限注德州撲克。在這個(gè)游戲中,我們使用一副有52張牌的普通牌,游戲結(jié)構(gòu)如下:
- 翻牌前:所有玩家都會得到2張牌(底牌),只有他們自己知道牌值。
- 翻牌:抽出3張牌并面朝上放置,以便所有玩家都能看到它們。
- 轉(zhuǎn)牌:抽出另一張牌并面朝上放置。
- 河牌:抽出最后一張第五張牌并面朝上放置。
玩家可以使用桌上的牌和手中的兩張牌來組成一手5張牌的撲克牌。在游戲的每一輪中,玩家輪流下注,如果一名玩家下注而其他人都不愿意跟注,游戲可以在任何一輪結(jié)束。
雖然學(xué)習(xí)起來相當(dāng)簡單,但人們只需要知道各種玩家的層次結(jié)構(gòu),盡管幾十年來一直在努力,但事實(shí)證明,這個(gè)游戲很難用人工智能來解決。
有多個(gè)因素導(dǎo)致了解決撲克牌的難度。首先,我們有一個(gè)隱藏信息的問題,因?yàn)槟悴恢榔渌婕矣心男┡啤F浯?,我們有一個(gè)多人游戲設(shè)置,有很多玩家,每個(gè)額外的玩家都會成倍增加可能的互動和策略的數(shù)量。第三,我們有無限制的下注規(guī)則,這允許一個(gè)復(fù)雜的下注結(jié)構(gòu),一個(gè)玩家可以突然決定下注他的全部籌碼。第四,由于底牌、公共牌和下注序列的組合,我們的游戲樹復(fù)雜性非常大。此外,由于牌的隨機(jī)性、虛張聲勢的可能性和對手建模,我們的復(fù)雜性也很高!
直到2019年,Noam Brown和Tuomas Sandholm這兩位研究人員才最終破解了密碼。在《科學(xué)》雜志發(fā)表的一篇論文中,他們描述了一種新型的撲克人工智能——Pluribus——在6層無限制德州撲克中擊敗了世界上最好的玩家(【參考文獻(xiàn)4】)。他們進(jìn)行了兩個(gè)不同的實(shí)驗(yàn),每個(gè)實(shí)驗(yàn)由10000個(gè)撲克手組成,這兩個(gè)實(shí)驗(yàn)都清楚地表明了Pluribus的主導(dǎo)地位。
在第一個(gè)實(shí)驗(yàn)中,Pluribus與5名人類對手比賽,平均獲勝率為4800mbb/場,標(biāo)準(zhǔn)差為2500mbb/局。(mbb/game代表每場比賽中的每場百萬大盲注,即每1000場比賽中贏得多少個(gè)大盲注。)4800mbb/場被認(rèn)為是一個(gè)非常高的獲勝率,尤其是在精英撲克玩家中,這意味著Pluribus比人類對手更強(qiáng)。
在第二個(gè)實(shí)驗(yàn)中,研究人員讓5個(gè)版本的Pluribus對戰(zhàn)1個(gè)人。他們設(shè)置了這個(gè)實(shí)驗(yàn),讓兩個(gè)不同的人分別與5臺機(jī)器玩5000手牌。Pluribus最終以平均3200mbb/場的成績擊敗了人類,標(biāo)準(zhǔn)誤差為1500mbb/局,再次顯示了其戰(zhàn)略優(yōu)勢。
Pluribus的統(tǒng)治地位非常驚人,特別是考慮到研究人員必須克服的所有復(fù)雜性。Brown和Sandholm提出了幾個(gè)聰明的策略,幫助Pluribus成為超人,在計(jì)算上比以前的頂級撲克AI更高效。他們的一些技術(shù)包括:
- 使用兩種不同的算法來評估移動。他們將首先使用所謂的“藍(lán)圖策略”,該策略是通過使用蒙特卡洛反事實(shí)后悔最小化方法讓程序自我對抗而創(chuàng)建的。這種藍(lán)圖策略將在第一輪投注中使用,但在隨后的投注輪中,Pluribus會進(jìn)行實(shí)時(shí)搜索,以找到更好、更精細(xì)的策略。
- 為了使其實(shí)時(shí)搜索算法在計(jì)算上更高效,他們將使用深度限制搜索,并評估對手可能選擇的4種不同策略。首先,他們將評估每種策略的未來兩步。此外,他們只會為對手評估四種不同的策略,包括原始藍(lán)圖策略、偏向折疊的藍(lán)圖策略、傾向召喚的藍(lán)圖策略和偏向提高的最終藍(lán)圖策略。
- 他們還使用了各種抽象技術(shù)來減少可能的游戲狀態(tài)的數(shù)量。例如,由于9高順子與8高順子基本相似,因此可以以類似的方式觀察它們。
- Pluribus將連續(xù)投注空間離散化為一組有限的桶,從而更容易考慮和評估各種投注規(guī)模。
- 此外,Pluribus還平衡了其策略,即對于它正在玩的任何給定手牌,它也會考慮在這種情況下可能擁有的其他手牌,并評估它將如何玩這些手牌,以便最終的游戲是平衡的,從而更難對抗。
從Pluribus中可以得出很多有趣的觀察結(jié)果,但也許最有趣的是,它并沒有改變對不同對手的打法,而是開發(fā)了一種強(qiáng)大的策略,對各種各樣的玩家都有效。由于許多撲克玩家認(rèn)為他們必須根據(jù)不同的情況和人調(diào)整自己的游戲,Pluribus向我們表明,考慮到它如何擊敗所有與之對抗的人,這是不必要的,甚至可能不是最佳的。
在我們對博弈論的短暫探索中,我們注意到,如果你在雙人零和博弈中玩NE策略,你保證不會在預(yù)期中失敗。然而,對于像6人撲克這樣的多人游戲,沒有這樣的保證。諾姆·布朗推測,也許是撲克這種游戲的對抗性仍然適合嘗試用NE策略來接近它。相反,在像Risk這樣的游戲中,玩家可以更多地合作,追求NE策略并不能保證奏效,因?yàn)槿绻愫?個(gè)人玩一個(gè)風(fēng)險(xiǎn)游戲,如果你的5個(gè)對手決定聯(lián)合起來殺死你,你什么也做不了。
評估戰(zhàn)略人工智能的發(fā)展趨勢
總結(jié)博弈中戰(zhàn)略人工智能的歷史,我們看到一個(gè)明顯的趨勢正在出現(xiàn)。這些博弈正在慢慢但肯定地變得更接近人類每天所處的現(xiàn)實(shí)世界戰(zhàn)略環(huán)境。
首先,我們正在從雙人模式轉(zhuǎn)向多人模式。從雙人博弈的最初成功到6人撲克等多人博弈,都可以看出這一點(diǎn)。其次,我們看到對隱藏信息博弈的掌握有所增加。第三,我們還看到,對具有更多隨機(jī)元素的博弈的掌握程度有所提高。
隱藏信息、多人博弈設(shè)置和隨機(jī)事件是人類之間戰(zhàn)略互動的常態(tài),而不是例外,因此掌握這些復(fù)雜性是實(shí)現(xiàn)能夠在現(xiàn)實(shí)世界中導(dǎo)航的更通用的超人戰(zhàn)略人工智能的關(guān)鍵。
大型語言模型與戰(zhàn)略性人工智能
作者使用Canva Magic Studio生成的圖像
我最近做了一個(gè)實(shí)驗(yàn),讓大型語言模型(LLM)互相玩棋盤游戲《風(fēng)險(xiǎn)》。我做這個(gè)實(shí)驗(yàn)的目的是衡量LLM在戰(zhàn)略環(huán)境中的表現(xiàn),更多的是開箱即用。向代理人提供了相當(dāng)多的詳細(xì)提示,以提供正確的背景,然而,也許并不奇怪,LLM的表現(xiàn)相當(dāng)平庸。
你可以在??鏈接??處找到一篇關(guān)于這個(gè)實(shí)驗(yàn)的文章《在風(fēng)險(xiǎn)博弈環(huán)境中探索LLM的戰(zhàn)略能力》(在模擬的風(fēng)險(xiǎn)環(huán)境中,Anthropic、OpenAI和Meta的大型語言模型展示了不同的戰(zhàn)略……)
總結(jié)一下實(shí)驗(yàn)中的一些關(guān)鍵發(fā)現(xiàn),當(dāng)前這一代的LLM在防御和識別獲勝動作等基本戰(zhàn)略概念上遇到了困難。它們也未能消除其他參與者,而這樣做在戰(zhàn)略上對它們有利。
上述實(shí)驗(yàn)表明,盡管我們已經(jīng)看到LLM的快速改進(jìn),但它們?nèi)匀蝗狈?zhàn)略推理的復(fù)雜性。鑒于它們非常通用的訓(xùn)練數(shù)據(jù)以及它們是如何構(gòu)建的,這不應(yīng)該令人驚訝。
那么,它們?nèi)绾稳谌雵@戰(zhàn)略人工智能的討論呢?要理解這一點(diǎn),我們需要了解LLM真正擅長的是什么。也許LLM最有希望的特點(diǎn)是它們能夠消化和生成大量文本。現(xiàn)在有了多模式模型,視頻和音頻也是如此。換句話說,LLM非常適合在人類和其他環(huán)境中與現(xiàn)實(shí)世界互動。最近,Meta的一個(gè)人工智能團(tuán)隊(duì)能夠?qū)⒄Z言模型的通用語言能力與戰(zhàn)略引擎的戰(zhàn)略洞察力相結(jié)合。
案例研究:《西塞羅》與《外交》游戲
《外交》游戲是一個(gè)2到7人的策略游戲,Meta將其描述為風(fēng)險(xiǎn)、撲克和電視節(jié)目《幸存者》的混合體。玩家從1900年左右的歐洲地圖開始,目標(biāo)是控制大多數(shù)供應(yīng)中心。具體來說,玩家的目標(biāo)是控制34個(gè)供應(yīng)中心中的18個(gè),以取得勝利。通過這樣做,玩家可以有效地控制地圖,代表了他們的國家在第一次世界大戰(zhàn)前對歐洲的優(yōu)勢。
《外交》游戲與我們迄今為止討論的許多其他游戲的不同之處在于它依賴于玩家之間的談判。這是一種比撲克更需要合作的游戲形式。每個(gè)玩家在每次回合之前都會使用自然語言與其他玩家交流,并制定彼此結(jié)盟的計(jì)劃。當(dāng)準(zhǔn)備工作完成時(shí),所有玩家同時(shí)透露他們的計(jì)劃,然后執(zhí)行回合。這種類型的游戲顯然比大多數(shù)其他棋盤游戲更接近實(shí)際的外交和現(xiàn)實(shí)生活中的談判,但由于自然語言成分,人工智能很難掌握。
這種情況在2022年發(fā)生了變化,當(dāng)時(shí)Meta的人工智能團(tuán)隊(duì)開發(fā)了西塞羅(Cicero)。Cicero利用語言建模的最新進(jìn)展,結(jié)合戰(zhàn)略模塊,是一個(gè)游戲引擎,能夠?qū)崿F(xiàn)“人類玩家平均得分的兩倍以上,并在玩過多個(gè)游戲的參與者中排名前10%”。正如Meta所描述的那樣,他們的模型能夠產(chǎn)生基于戰(zhàn)略的對話,并生成一個(gè)具有對話意識的策略。
《西塞羅》與其他戰(zhàn)略AI模型的差異
《外交》游戲和其他一些我們最近在人工智能方面取得戰(zhàn)略進(jìn)步的游戲之間有一些關(guān)鍵區(qū)別。最值得注意的是游戲的合作性質(zhì)——與其他游戲的對抗性質(zhì)相比——以及它使用的開放式自然語言格式。我認(rèn)為這些差異使游戲更像真實(shí)的人際互動,但也限制了研究人員如何訓(xùn)練為西塞羅提供動力的算法。
與Pluribus和AlphaZero不同,西塞羅主要不是通過自我游戲和強(qiáng)化學(xué)習(xí)來訓(xùn)練的。相反,Meta團(tuán)隊(duì)使用了一個(gè)包含125000多個(gè)游戲和40000000條消息的數(shù)據(jù)集來幫助訓(xùn)練算法。他們認(rèn)為,考慮到游戲的談判、說服和建立信任方面,如果他們讓人工智能通過自我游戲與自己談判,他們可能會看到奇怪的行為,而且它可能無法捕捉到人類互動的本質(zhì)。引用他們的研究文章:
“…我們發(fā)現(xiàn),在2p0s版本的游戲中實(shí)現(xiàn)超人性能的自玩算法在有多個(gè)人類玩家的游戲中表現(xiàn)不佳,因?yàn)閷W(xué)習(xí)的策略與潛在人類盟友的規(guī)范和期望不一致。”
然而,強(qiáng)化學(xué)習(xí)被用來訓(xùn)練策略引擎的一部分,特別是用來訓(xùn)練西塞羅的價(jià)值函數(shù)——它需要預(yù)測其行為的效用。研究人員使用了行為克隆的改進(jìn)版本piKL,該版本旨在最大限度地提高動作的預(yù)期效用,同時(shí)盡量減少與人類行為的差異。簡而言之,他們希望該模型能夠找到具有戰(zhàn)略意義的合理動作,同時(shí)保持與人類動作的接近。
外交的上述特征突出了與創(chuàng)建可以在現(xiàn)實(shí)世界的人類環(huán)境中運(yùn)行的戰(zhàn)略人工智能相關(guān)的一些重要問題,在我們評估戰(zhàn)略人工智能將如何發(fā)展時(shí)需要考慮這些問題。
戰(zhàn)略人工智能的未來
作者使用Canva Magic Studio生成的圖像
預(yù)測未來總是很棘手;然而,一種方法可以是利用當(dāng)前的趨勢并推斷出未來的情景。下面,我們調(diào)查了一些與我們之前的討論密切相關(guān)的話題,并評估了它們?nèi)绾斡绊憫?zhàn)略人工智能的未來。
通用符號策略引擎與專用模塊
如果我們研究迄今為止戰(zhàn)略AI引擎的發(fā)展軌跡,我們會發(fā)現(xiàn)每個(gè)游戲引擎的專業(yè)性都令人印象深刻。盡管架構(gòu)可能相似(例如AlphaZero學(xué)習(xí)如何玩多種不同的游戲),但AI仍然會針對每款特定游戲與自己進(jìn)行數(shù)百萬次游戲。對于國際象棋,AlphaZero玩了4400萬場,而對于圍棋,玩了1.3億場?。ā緟⒖嘉墨I(xiàn)7】)一個(gè)自然而然的問題是,我們是否應(yīng)該嘗試構(gòu)建更通用的策略引擎,還是繼續(xù)專注于特定任務(wù)的專用模塊?
通用策略引擎旨在理解和應(yīng)用不同情況下的廣泛戰(zhàn)略原則。也許通過創(chuàng)建能夠捕捉人類戰(zhàn)略互動許多方面的游戲,AI可以通過與自己對弈來學(xué)習(xí)并制定適用于現(xiàn)實(shí)世界場景的策略。這種方法可以幫助AI概括其學(xué)習(xí),使其在各種情況下都很有用。
另一方面,專用模塊是為特定場景或任務(wù)設(shè)計(jì)的人工智能系統(tǒng)。我們可以設(shè)想,通過結(jié)合多個(gè)專業(yè)代理,我們可以創(chuàng)建一個(gè)通用的戰(zhàn)略人工智能。人工智能代理經(jīng)過訓(xùn)練,可以在每個(gè)特定領(lǐng)域都表現(xiàn)出色,在最需要的地方提供深厚的專業(yè)知識。雖然這種方法可能會限制人工智能的泛化能力,但它可以確保特定領(lǐng)域的高性能,從而更快地實(shí)現(xiàn)實(shí)際應(yīng)用。
考慮到在合作環(huán)境中使用AI進(jìn)行自我游戲的問題(正如我們在外交中觀察到的那樣),以及目前的趨勢似乎傾向于針對不同戰(zhàn)略情況使用專用模塊,在不久的將來,我們可能會為不同的環(huán)境提供專用戰(zhàn)略模塊。然而,我們也可以設(shè)想一個(gè)混合系統(tǒng),在這個(gè)系統(tǒng)中,我們使用通用戰(zhàn)略引擎來提供對更廣泛主題的洞察,而專用模塊則處理復(fù)雜、具體的挑戰(zhàn)。這種平衡可以讓AI系統(tǒng)應(yīng)用一般戰(zhàn)略洞察,同時(shí)適應(yīng)特定情況的細(xì)節(jié)。
LLMs彌合戰(zhàn)略模塊和現(xiàn)實(shí)世界應(yīng)用之間的差距
大型語言模型改變了人工智能與人類語言的交互方式,提供了一種將戰(zhàn)略人工智能模塊與現(xiàn)實(shí)世界用例連接起來的強(qiáng)大方式。LLM擅長理解和生成類人文本,使其成為理想的中介,可以將現(xiàn)實(shí)世界的情況轉(zhuǎn)化為戰(zhàn)略引擎可以處理的結(jié)構(gòu)化數(shù)據(jù)。正如Meta的《西塞羅》游戲所示,將LLM與戰(zhàn)略推理相結(jié)合,使人工智能能夠理解人類在協(xié)作環(huán)境中的溝通、協(xié)商和計(jì)劃行動。
鑒于當(dāng)前多模態(tài)模型的趨勢,LLM不僅能夠?qū)⑽谋?,而且能夠?qū)⑷魏维F(xiàn)實(shí)世界的上下文翻譯成機(jī)器可讀的語法。這使得模型作為中介更有用。
如果我們以《西塞羅》游戲的想法為基礎(chǔ),我們還可以設(shè)想為特定任務(wù)(如外交溝通)微調(diào)不同的語言模型,也許是通過微調(diào)歷史外交信函的模型,然后訓(xùn)練單獨(dú)的戰(zhàn)略引擎來提出最佳行動。
人類與人工智能的協(xié)作:Centaur模型
戰(zhàn)略人工智能的未來不僅僅是機(jī)器接管決策;在過渡時(shí)期,這也是人類和人工智能有效合作的問題。這種合作關(guān)系通常被稱為“半人馬模型”,將人類直覺與人工智能的計(jì)算能力相結(jié)合。在這個(gè)模型中,人類帶來了創(chuàng)造力、道德判斷和靈活性,而人工智能系統(tǒng)提供了強(qiáng)大的數(shù)據(jù)處理和戰(zhàn)略原則的一致應(yīng)用。
這種模型的現(xiàn)實(shí)世界例子包括人類人工智能團(tuán)隊(duì)超越人類或單獨(dú)工作的機(jī)器的領(lǐng)域。例如,在國際象棋中,加里·卡斯帕羅夫提出了與人工智能合作的想法,將人類的戰(zhàn)略洞察力與人工智能的精確計(jì)算相結(jié)合。半人馬模型似乎在國際象棋中運(yùn)行良好,直到程序開始變得非常好。在那一點(diǎn)上,人類的貢獻(xiàn)毫無價(jià)值,在最壞的情況下是有害的。
然而,在比國際象棋更開放、更像現(xiàn)實(shí)世界的其他領(lǐng)域,半人馬模型可能是一個(gè)不錯的選擇。簡單地考慮一下,人類與現(xiàn)代LLM的合作如何有可能大大提高生產(chǎn)力。
這種協(xié)作方法通過將人類判斷與人工智能分析相結(jié)合來改善決策,可能會帶來更明智和平衡的結(jié)果。它允許快速適應(yīng)新的和意外的情況,因?yàn)槿祟惪梢栽谌斯ぶ悄艿闹С窒聦?shí)時(shí)調(diào)整策略。
游戲之外的現(xiàn)實(shí)世界應(yīng)用
游戲一直是開發(fā)戰(zhàn)略性人工智能的絕佳試驗(yàn)場,但真正的影響來自將這些進(jìn)步應(yīng)用于現(xiàn)實(shí)世界的挑戰(zhàn)。下面我們重點(diǎn)介紹幾個(gè)例子。
在過去幾年中,自動駕駛汽車領(lǐng)域取得了巨大的發(fā)展,以及它們?nèi)绾卫脩?zhàn)略性人工智能安全地駕駛道路。他們必須預(yù)測并響應(yīng)其他司機(jī)、行人和騎自行車的人的行為。例如,自動駕駛汽車需要預(yù)測行人是否即將過馬路,或者另一名駕駛員是否即將意外變道。
就在今年,Waymo——一家開發(fā)自動駕駛汽車和叫車服務(wù)的公司——開始在美國三個(gè)城市使用完全自動駕駛的出租車:亞利桑那州的鳳凰城,以及加利福尼亞州的洛杉磯和舊金山。在未來幾年,由于戰(zhàn)略人工智能的改進(jìn),我們可能會看到全自動駕駛汽車的大幅增長。
在金融市場中,人工智能驅(qū)動的交易系統(tǒng)分析大量數(shù)據(jù)以做出投資決策。這些系統(tǒng)考慮了其他市場參與者(如交易員和機(jī)構(gòu))的可能行為,以預(yù)測市場走勢。他們使用戰(zhàn)略推理來執(zhí)行交易,以最大限度地提高回報(bào),同時(shí)最大限度地降低風(fēng)險(xiǎn),通常是在高度動蕩的環(huán)境中。
人工智能系統(tǒng)還通過考慮供應(yīng)商、競爭對手和客戶的行為來優(yōu)化供應(yīng)鏈。他們可以根據(jù)預(yù)期的需求和競爭對手的行為,戰(zhàn)略性地調(diào)整生產(chǎn)計(jì)劃、庫存水平和物流。例如,如果競爭對手預(yù)計(jì)將推出新產(chǎn)品,人工智能可以建議增加庫存水平以滿足潛在的需求增長。
戰(zhàn)略人工智能也被用于高效管理能源分配。智能電網(wǎng)利用人工智能來預(yù)測消費(fèi)模式并相應(yīng)地調(diào)整供應(yīng)。他們考慮消費(fèi)者如何根據(jù)定價(jià)信號或環(huán)境因素改變使用方式。人工智能戰(zhàn)略性地分配資源以平衡負(fù)載、防止中斷和整合可再生能源。
上面的例子清楚地表明了戰(zhàn)略性人工智能是如何被整合到各個(gè)行業(yè)和領(lǐng)域的。通過考慮他人的行為,這些人工智能系統(tǒng)可以做出明智的決策,優(yōu)化結(jié)果,提高效率,并經(jīng)常提供競爭優(yōu)勢。隨著戰(zhàn)略性人工智能的不斷改進(jìn),這些系統(tǒng)也將不斷改進(jìn),我們可能會看到它們在許多其他領(lǐng)域的出現(xiàn)。
結(jié)論
作者使用Canva Magic Studio生成的圖像
自從深藍(lán)戰(zhàn)勝加里·卡斯帕羅夫以來,戰(zhàn)略人工智能已經(jīng)取得了長足的進(jìn)步。從掌握復(fù)雜的棋盤游戲到參與類似人類的談判,人工智能系統(tǒng)越來越多地表現(xiàn)出戰(zhàn)略推理能力。
在本文中,我們研究了戰(zhàn)略人工智能的基本概念,強(qiáng)調(diào)了博弈論的重要性以及該領(lǐng)域的一些概念如何應(yīng)用于戰(zhàn)略人工智能。我們還研究了專門的人工智能系統(tǒng)如何通過專注于狹窄的領(lǐng)域和廣泛的自我游戲,在特定的游戲中取得超人的表現(xiàn)。這就提出了一個(gè)問題,即戰(zhàn)略人工智能的未來是開發(fā)能夠更廣泛應(yīng)用的通用符號戰(zhàn)略引擎,還是繼續(xù)開發(fā)針對特定任務(wù)量身定制的專用模塊。
正如我們在《西塞羅》游戲身上看到的那樣,語言模型在戰(zhàn)略人工智能領(lǐng)域也可能有未來。OpenAI、Anthropic和Meta等提供商的新模型使將這些工具集成到自主代理中比以往任何時(shí)候都更容易,這些代理可以使用它們將現(xiàn)實(shí)世界轉(zhuǎn)換為人工智能系統(tǒng)可以處理的結(jié)構(gòu)化數(shù)據(jù)。
然而,通往能夠駕馭現(xiàn)實(shí)世界復(fù)雜性的通用戰(zhàn)略人工智能的旅程才剛剛開始。在開發(fā)能夠跨領(lǐng)域推廣、適應(yīng)不可預(yù)見的情況并將倫理考慮納入決策過程的系統(tǒng)方面仍然存在挑戰(zhàn)。
參考文獻(xiàn)
1. Lex Fridman(2019年10月27日)。《Garry Kasparov: Chess, Deep Blue, AI, and Putin | Lex Fridman Podcast #46 [Video File]》。Youtube:?https://youtu.be/8RVa0THWUWw?si=1ErCnwlAn4myoK9W??。
2. Vinyals, O., Babuschkin, I., Czarnecki, W.M.等人。《Grandmaster level in StarCraft II using multi-agent reinforcement learning》。《自然》雜志,2019年,第575,350–354頁。網(wǎng)址:??https://doi.org/10.1038/s41586-019-1724-z?
4. Brown等人,(2019年8月30日)。《Superhuman AI for multiplayer poker》,《科學(xué)》雜志,2019年,第365,885–890頁。網(wǎng)址?https://www.science.org/doi/epdf/10.1126/science.aay2400??。
5. Lex Fridman(2019年12月6日)。《Noam Brown: AI vs Humans in Poker and Games of Strategic Negotiation | Lex Fridman Podcast #344 [Video File]》。Youtube:??https://youtu.be/2oHH4aClJQs?si=AvE_Esb42GNGIPRG??。
6. Meta Fundamental AI Research Diplomacy Team (FAIR)?等,《Human-level play in the game of Diplomacy by combining language models with strategic reasoning》,《科學(xué)》雜志,2022年,第378,1067–1074頁。DOI:10.1126/science.ade9097,??https://noambrown.github.io/papers/22-Science-Diplomacy-TR.pdf??。
7. David Silver等人,《A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play》?!?/span>科學(xué)》雜志,2018年,第362,1140–1144頁。DOI:10.1126/science.aar6404,網(wǎng)址:?https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphazero-shedding-new-light-on-chess-shogi-and-go/alphazero_preprint.pdf??。
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。
原文標(biāo)題:??When Machines Think Ahead: The Rise of Strategic AI??,作者:Hans Christian Ekne
