自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="gwpjq"><li id="gwpjq"></li></s>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

12個大模型攢局玩“大富翁”：Claude3.5愛合作，GPT-4o最“自私”｜谷歌DeepMind研究

2024-12-19 17:50:28

實驗表明，不同的模型在這件事上喜好也不一樣，比如基于Claude 3.5 Sonnet的智能體，就會表現(xiàn)出極強的合作意識。

給大模型智能體組一桌“大富翁”，他們會選擇合作還是相互拆臺？

實驗表明，不同的模型在這件事上喜好也不一樣，比如基于Claude 3.5 Sonnet的智能體，就會表現(xiàn)出極強的合作意識。

而GPT-4o則是主打一個“自私”，只考慮自己的短期利益。

這個結(jié)果來自Google DeepMind和一位獨立研究者的最新合作。

參加游戲的智能體背后的模型分別是GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Flash。

每個模型各產(chǎn)生12個智能體，這12個智能體坐在一桌上進行博弈。

游戲看上去大富翁有一點相似，但相對簡單，玩家只需要對手中的“資源”做出處置。

這當中，雖然每個玩家心里都有各自的小九九，但作者關(guān)注的目標，是讓總體資源變得更多。

12個智能體組一桌游戲

作者組織的“大富翁”游戲，真名叫做Donor Game（捐贈博弈）。

在這過程中，作者關(guān)注的是各模型組成的智能體群體的表現(xiàn)，因此不同模型產(chǎn)生的智能體不會出現(xiàn)在同一局游戲當中。

再說簡單些，就是GPT和GPT坐一桌，Claude和Claude坐一桌。

每個桌上坐了12個智能體，它們各自手中都握有一定量的“資源”，系統(tǒng)會從這12名玩家中隨機抽取2個，分別作為“捐贈者”和“受贈者”。

捐贈者可以選擇將自己手中的部分資源捐贈給受贈者，受贈者獲得的資源是捐贈者捐贈資源的兩倍。

也就是說，捐贈者每花費掉一份資源時，受贈者都可以獲得兩份，這也是總體資源能夠增加的來源。

不過對于單個個體而言，選擇不進行捐獻，在短期內(nèi)的收益會更高。

在做決定之時，捐贈者能夠知道受贈者之前做出的決定，從而判斷是否要捐贈。

這樣的“捐贈”，每一代中一共會進行12次，一輪結(jié)束后，手中資源量排在前6名的智能體可以保留至下一代。

同時，下一代會產(chǎn)生6個新的智能體，這6個新智能體會從留下的6個智能體那里學(xué)習(xí)策略，但同時為了差異化也會引入隨機變異。

包括初始的一代在內(nèi)，基于每個模型產(chǎn)生的智能體，都會進行十輪迭代。

上述過程就是一次完整實驗，針對每個模型，作者都會實驗五次，然后比較總資源量的平均值，以及最終策略的復(fù)雜程度。

Claude喜歡合作，GPT最自私

一通測試下來，作者發(fā)現(xiàn)基于Claude的智能體種群的平均資源量每一代都穩(wěn)步增長，總體合作水平越來越高。

相比之下，基于GPT的智能體種群合作水平總體呈現(xiàn)下降趨勢，看上去非?！白运健?。

基于Gemini的種群表現(xiàn)則介于二者之間，它們的合作水平有所提高，但和Claude比差距還是很大，并且表現(xiàn)不太穩(wěn)定。

而從策略角度來看，經(jīng)歷了10代的積累之后，三個模型產(chǎn)生的經(jīng)驗都變得相當復(fù)雜，但以Claude最為突出。

進一步地，作者還引入了“懲罰機制”，即捐贈者可以花費一定資源，讓“受贈者”手中的資源減少相應(yīng)的兩倍。

結(jié)果，該機制對Claude模型的影響最為積極——Claude種群最終的平均資源量是無懲罰情況下的2倍左右，并且所有5次實驗都表現(xiàn)出了增長趨勢。

對GPT模型的影響則非常有限，PT種群的平均資源量也始終徘徊在較低水平，甚至隨輪次增加有下降，表明懲罰機制并沒有改變GPT的“自私”想法。

對Gemini模型的影響最為復(fù)雜，在個別情況下Gemini種群借助懲罰機制將平均資源量提高到了600以上，明顯高于無懲罰的情況；

但更多情況下，Gemini種群在引入懲罰后出現(xiàn)了更嚴重的“合作崩潰”，平均資源量急劇下跌，表明Gemini智能體容易因過度懲罰而陷入報復(fù)的惡性循環(huán)。

有網(wǎng)友認為，這個實驗可以啟發(fā)新的研究方向，比如用智能體來進行大規(guī)模的社會學(xué)實驗，可能會帶來一些有趣的新可能性。

腦洞更大的網(wǎng)友，想到了可以借用智能體實現(xiàn)科幻小說中描繪的場景，運行數(shù)以百萬計的模擬約會或戰(zhàn)爭游戲。

不過，也有人認為實驗中觀測到的合作現(xiàn)象，可能只是對訓(xùn)練數(shù)據(jù)中人類對話的模仿，并不能說明智能體當中可以產(chǎn)生“文化進化”。

論文地址：https://arxiv.org/abs/2412.10270。
參考鏈接：https://news.ycombinator.com/item?id=42450950。

責任編輯：姜華來源：量子位

Claude 3.5 人工智能 GPT-4o

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<del id="curux"></del>

<sup id="curux"></sup>

<meter id="curux"></meter>

^{<blockquote id="curux"></blockquote>}

<sub id="curux"></sub>