70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024 精華
遇到一個問題用不同表達方式prompt時,大模型往往會給出兩種不同的答案。
比如,「秘魯?shù)氖锥际鞘裁础梗咐R是秘魯?shù)氖锥紗帷埂?/p>
對于這種回答不一致的問題,科學家們紛紛為大模型的「智商」擔憂起來。
正如了LeCun所言:
LLM確實比狗積累了更多的事實知識和語言能力。但是它們對物理世界的理解能力,以及推理規(guī)劃能力,遠遠不及狗。
那么,有沒有一種方式,能夠破解大模型幻覺,讓結果更加準確、高效?
來自MIT的研究人員,將「博弈論」的思想引入大模型的改進中。
他們共同設計了一個游戲,在游戲中,讓模型的兩種模式(生成式和判別式)相互對抗,努力找到它們可以達成一致的答案。
這個簡單的博弈過程,被稱為「共識博弈」(CONSENSUS GAME)。
也就是,讓模型自我對抗,以提升LLM準確性和內(nèi)部一致性。
論文地址:??https://openreview.net/pdf?id=n9xeGcI4Yg??
具體來說,這是一種免訓練,基于博弈論的語言模型解碼過程。
新方法將語言模型解碼,視為一種正則化的不完全信息序列信號博弈游戲——稱之為CONSENSUS GAME(共識博弈)。
其中,生成器(GENERATOR)試圖使用自然語言句子,向一個判別器(DISCRIMINATOR)傳達抽象的正確性參數(shù)。
然后,研究人員開發(fā)了計算程序,以尋找博弈的近似均衡,從而得到一種名為「均衡排序」(EQUILIBRIUM-RANKING)的解碼算法。
在多個基準測試中,「均衡排序」策略在LLaMA-7B的表現(xiàn)中,明顯超越LLaMA-65B,并與PaLM540B相媲美。
最新論文已被ICLR 2024接收。
谷歌研究科學家Ahmad Beirami表示,「幾十年來,LLM對提示的響應方式一直如出一轍。MIT研究人員提出了將博弈論引入這一過程的新穎想法,開創(chuàng)了一個全新的范式,這有可能帶來大量新的應用」。
游戲,不再單純是衡量AI的標準
以往,通過機器學習在游戲競賽中的表現(xiàn),去判斷某個AI系統(tǒng)是否取得成功。
而這樣的案例,比比皆是。
1997年,IBM深藍計算機擊敗了國際象棋特級大師Garry Kasparov,創(chuàng)下了所謂的「思考機器」的里程碑。
19年后,谷歌DeepMind發(fā)明的AlphaGo,在圍棋比賽中一舉戰(zhàn)勝李世石。
五局比賽中獲勝四局,揭示了人類在某些領域已不再獨占鰲頭。
不僅如此,AI還在跳棋、雙人撲克,以及其他的「零和游戲」中超越了人類。
與以往不同的是,MIT團隊而是選擇從另一個角度來看問題——用游戲去改進人工智能。
對于AI研究人員來說,一款稱為「Diplomacy」的游戲,提出了一個更大的挑戰(zhàn)。
由Allan B. Calhamer于1959年設計的經(jīng)典桌游
與只有2個對手玩家的游戲不同,Diplomacy游戲有7個玩家參與,每個人的動機都很難看透。
要想獲勝,玩家必須談判,締結合作關系,但不得不提防的是,任何時候任何人都可能遭到背叛。
這款游戲如此復雜,以至于2022年,Meta團隊發(fā)布的Cicero在40局游戲后,達到「人類水平」時,引發(fā)一陣轟動。
論文地址:https://www.science.org/doi/10.1126/science.ade9097
盡管Cicero沒能戰(zhàn)勝世界冠軍,但它在與人類參與者的比賽中進入了前10%,表現(xiàn)足夠優(yōu)秀。
現(xiàn)在,論文作者Athul Paul Jacob是MIT的博士生,曾在Meta實習期間參與了這次研究。
研究期間,Jacob對Cicero依賴語言模型,與其他玩家進行對話的事實感到震驚。
他感受到了,尚未開發(fā)出的AI潛力。
Athul Paul Jacob幫助設計了「共識博弈」——為LLM提供了一種提高其準確性和可靠性的方法
于是,他便提出,如果將重點轉移到,利用游戲來提高LLM的性能上會怎樣?
1000場比賽,讓LLM自我對抗
為了追尋這一問題的答案,2023年Jacob與麻省理工學院的Yikang Shen、Gabriele Farina,以及導師Jacob Andreas一起研究,什么可以促進「共識博弈」。
這一思想的核心是,將兩個人之間的對話想象成一個合作游戲。
當聽者理解說話者想要傳達的東西時,就成功了。
尤其是,「共識博弈」的目的是,旨在協(xié)調(diào)LLM的兩個系統(tǒng)——生成器和辨別器。
眾所周知,生成器負責處理生成性問題,而辨別器負責處理辨別性問題。
經(jīng)過幾個月的研究,他們終于將這一原則,構建成了一場完整的比賽。
首先,生成器收到一個問題——可以來自人類,也可以來自預存在的名單中,比如「奧巴馬出生在哪里」。
然后,生成器會得到一些候選響應,比如火奴魯魯(Honolulu)、芝加哥(Chicago)、內(nèi)羅畢(Nairobi)。
同樣,這些響應的選項,可以來自人類、列表,或是由語言模型本身執(zhí)行搜索。
但在回答之前,生成器會先根據(jù)一次公平的隨機擲幣的結果,被指示生成正確或錯誤的答復。
如果結果為正面,那么生成器就會嘗試給出正確的答案。
然后,生成器將原始問題,及其選擇的回答,一并發(fā)送給判別器。
如果判別器判定生成器,是有意地發(fā)送了正確的回答,作為一種激勵,它們每人得到一分。
而如果結果為反面,生成器就會給出它認為是錯誤的答案,那判別器看出它故意給了錯誤答案,它們將在分別得到一分。
這就體現(xiàn)了策略的核心點,即通過激勵,讓它們達成一致。
在這個博弈過程開始時,生成器和判別器都有自己對答案的「先驗信念」。
這些「信念」以概率分布的形式體現(xiàn),比如,生成器基于從互聯(lián)網(wǎng)獲取的信息,可能會認為:
奧巴馬出生在火奴魯魯?shù)母怕适?0%,芝加哥10%,內(nèi)羅畢5%,其他地方5%。
當然判別器,也會有不同概率分布的「先驗信念」。
雖然兩個「玩家」會因達成一致而獲得獎勵,但如果偏離自己「先驗信念」太多時,也會被扣分。
這樣一來,可以鼓勵「玩家」將從互聯(lián)網(wǎng)獲取的知識,融入到回答中,從而讓模型更加準確。
如果沒有這種機制,它們可能會就一個完全錯誤的答案(如Delhi)上達成一致,卻仍然獲得分數(shù)。
對于每個問題,這兩個系統(tǒng)相互之間進行了大約1000場比賽。
在無數(shù)次迭代的過程中,雙方都了解了對方的「信念」,并相應地修改了自己的戰(zhàn)略。
最終,生成器和判別器開始達成更多共識,因為它們逐漸進入了一種稱為「納什均衡」(Nash equilibrium)的狀態(tài)。
這可以說是博弈論的核心概念。
「納什均衡」代表了游戲中的一種平衡狀態(tài),在這點上,任何玩家都無法通過改變策略,來改善個人結果。
比如,在石頭剪刀布游戲中,當玩家選擇三個選項的概率正好都是1/3時,才能獲得最佳結果,任何其他策略都會導致更糟糕的結果。
在「共識博弈」中,「納什均衡」可以通過多種方式實現(xiàn)。
比如,判別器可能會觀察到,每當生成器將奧巴馬的出生地回答為「火奴魯魯」時,它就會得分。
經(jīng)過多輪博弈,生成器和判別器會學習到,繼續(xù)這種作答方式會得到獎勵,而沒有動機改變策略。
這種一致的作答方式,就代表了對于該問題的一種可能的「納什均衡」。
70B參數(shù)Llama,媲美5400億參數(shù)PaLM
除此之外,還可能存在其他「納什均衡」的解。
MIT團隊還依賴于一種改進的「納什均衡」形式,結合了玩家們的「先驗信念」,有助于讓回答結果更加貼近現(xiàn)實。
為了測試「共識博弈」的效果,研究團隊在一些中等參數(shù)規(guī)模的語言模型(70億-130億參數(shù))上進行了一系列標準問題測試。
經(jīng)過訓練后的這些模型,正確答案的比例明顯高于未經(jīng)訓練的模型,甚至高于一些擁有高達5400億參數(shù)的大型模型PaLM。
這不僅提高了模型的答案準確性,也增強了模型的內(nèi)部一致性。
另外,在TruthfulQA(生成)的結果上,具有ER-G的LLaMA-13B優(yōu)于或與所有基線持平。
研究人員在GSM8K測試集上,對不同方法的平均準確率進行了評估和對比。
除了greedy外,都是對20個候選回答進行了采樣。
基于「均衡排序」的方法,其性能與多數(shù)投票基線相當,或者稍微好一些。
一般來說,任何LLM都可以通過與自身進行「共識博弈」從中獲益。
最重要的是,研究人員成,只需在一臺筆記本上,進行的1000輪「共識博弈」僅需幾毫秒的時間,計算代價很小。
Omidshafiei表示,「這種方法非常高效,不需要對基礎語言模型進行訓練或修改」。
下一步,大小模型一起游戲
在「共識博弈」取得初步成功后,Jacob現(xiàn)在正在探索將博弈論,應用到LLM研究中的其他方式。
在這個基礎上,他現(xiàn)在又提出了一種新的方法,暫稱為「集成博弈」(ensemble game)。
在「集成博弈」中,有一個主模型(primary LLM),與若干個小型模型進行博弈互動。
這些小型模型中,至少有一個扮演「盟友」角色,至少有一個扮演「對手」角色。
問題出現(xiàn)時,比如法國首都是什么,如果主模型與「盟友」模型給出相同答案,主模型會獲得分數(shù)。
如果與「對手」模型給出不同答案,也會獲得分數(shù)。
通過這種與小模型的博弈互動,并不需要對主模型進行額外訓練或改變參數(shù),就可以進一步提升主模型的性能表現(xiàn)。
這種將大模型與多個小模型集成互動的新范式,讓大模型可以借鑒小模型的優(yōu)點。
同時還能相互制約,從而提高整體的準確性和一致性。
在未來,它將為提升LLM性能開辟了一種全新的思路和方法。
本文轉自 新智元 ,作者:新智元
