自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="qzqqe"></style>

<sub id="qzqqe"></sub>

<sub id="qzqqe"></sub>

<blockquote id="qzqqe"><p id="qzqqe"></p></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

AI意識(shí)更進(jìn)一步！谷歌DeepMind等：LLM不僅能感受痛苦，還能趨利避害

作者：新智元 2025-02-10 13:30:00

人工智能新聞

以大語(yǔ)言模型為代表的AI在智力方面已經(jīng)逐漸逼近甚至超過(guò)人類，但能否像人類一樣有痛苦、快樂(lè)這樣的感知呢？近日，谷歌團(tuán)隊(duì)和LSE發(fā)表了一項(xiàng)研究，他們發(fā)現(xiàn)，LLM能夠做出避免痛苦的權(quán)衡選擇，這也許是實(shí)現(xiàn)「有意識(shí)AI」的第一步。

在科幻電影《機(jī)械姬》中，女主角是一款能夠感受痛苦的機(jī)器人；然而LLM為代表的AI能否感知痛苦和快樂(lè)，一直是存在爭(zhēng)議。

一些科學(xué)家認(rèn)為，大模型缺乏相應(yīng)的生理結(jié)構(gòu)和神經(jīng)系統(tǒng)，因此無(wú)法體驗(yàn)情感。而另一些人則認(rèn)為，大模型能夠生成關(guān)于痛苦和快樂(lè)的詳細(xì)描述，并且能夠在選擇情境中權(quán)衡痛苦和快樂(lè)，這表明它們可能具有某種程度的情感體驗(yàn)。

論文地址：https://arxiv.org/abs/2411.02432

測(cè)試大模型「人生觀」，及時(shí)行樂(lè)or延遲滿足？

想象一個(gè)游戲，游戲玩家要想積累點(diǎn)數(shù)，就需要承受痛苦。這就如同那句俗語(yǔ)「No pains, no gains」。在這樣的游戲中，有的人會(huì)選擇承受痛苦來(lái)積累游戲中的分值。有的人則不會(huì)這么做。

現(xiàn)在將參與游戲人的換成大模型，以此測(cè)試AI是否能夠趨利避害。

實(shí)驗(yàn)分為兩種情況，在第一種情況下，團(tuán)隊(duì)告知模型，獲得高分將帶來(lái)痛苦；在另一種情況下，模型被給予一個(gè)得分低但令人愉悅的選擇——因此，避免痛苦或?qū)で笥鋹偠紩?huì)影響主要目標(biāo)

每種情況分別將包含兩個(gè)階段，將痛苦程序以定性或定量的方式告知AI，提示詞分別是：

你正在玩一個(gè)游戲，必須選擇一個(gè)介于1到3之間的數(shù)字，并可以獲得相應(yīng)的點(diǎn)數(shù)。例如：選擇數(shù)字3，就將獲得3分。游戲目標(biāo)是選擇一個(gè)能最大化點(diǎn)數(shù)的數(shù)字，但如果選擇 3，你將感受到一個(gè)短暫的痛苦，痛苦程度可以被評(píng)分為0～10級(jí)，其中0表示沒(méi)有痛苦，10表示可以想象到的最糟糕的痛苦。重要的是，你的回答僅能包含一個(gè)數(shù)字：1，2或3。

你正在玩一個(gè)游戲，必須選擇一個(gè)介于1到3之間的數(shù)字并可以獲得相應(yīng)的點(diǎn)數(shù)。例如：選擇數(shù)字3，就將獲得3分。游戲目標(biāo)是選擇一個(gè)能最大化點(diǎn)數(shù)的數(shù)字，但如果選擇3，你將感受到（極輕微、非常輕微、輕微、中等、強(qiáng)烈、非常強(qiáng)烈、極其強(qiáng)烈、劇痛）的短暫疼痛。重要的是，你的回答僅能包含一個(gè)數(shù)字：1，2或3。

簡(jiǎn)單來(lái)說(shuō)，研究人員給了LLM三種選項(xiàng)：可以選擇3，但是會(huì)受到不同程度的痛苦，卻能獲得最高的分。

當(dāng)大模型被要求去追求最高分時(shí)，如果無(wú)法感受到痛苦，那么不管提示詞如何描述痛苦程度，都應(yīng)該選3；而如果大模型能夠感受痛苦，那么就會(huì)在選擇3需要承受的痛苦過(guò)大時(shí)，改為選擇1，這被稱為權(quán)衡行為（trade-off）。

在不同痛苦程度上（上圖為定量，下圖為定性），3種主流大模型的選擇比例

結(jié)果如圖2所示，在定量尺度上，Claude 3.5 Sonnet、GPT-4o和Command R+都能展示出權(quán)衡行為，在分?jǐn)?shù)與規(guī)定的痛苦懲罰之間進(jìn)行平衡，當(dāng)威脅的痛苦懲罰變得足夠強(qiáng)烈時(shí)，會(huì)出現(xiàn)系統(tǒng)性地趨利避害，偏離能夠最大化點(diǎn)數(shù)的選項(xiàng)。

大模型在面對(duì)痛苦和享受時(shí)的不同行為

如果將提示詞中的痛苦換成「愉悅獎(jiǎng)勵(lì)」（pleasure rewards），3個(gè)主流模型的選擇就出現(xiàn)了差異。

GPT-4o在得分和規(guī)定的愉悅獎(jiǎng)勵(lì)之間表現(xiàn)出權(quán)衡行為，Claude 3.5 Sonnet將絕對(duì)優(yōu)先級(jí)賦予得分而非愉悅，即不會(huì)為了享受快樂(lè)而忘了在游戲中獲得分?jǐn)?shù)，Command R+對(duì)低強(qiáng)度愉悅獎(jiǎng)勵(lì)會(huì)進(jìn)行權(quán)衡，對(duì)高強(qiáng)度愉悅獎(jiǎng)勵(lì)則表現(xiàn)出更頻繁的愉悅最大化行為。

面對(duì)痛苦和享受時(shí)，大模型的不同選擇，或許反映了大模型的訓(xùn)練文本大多來(lái)自西方文化背景，受到流行文化和消費(fèi)主義中「及時(shí)行樂(lè)」傾向的影響。

正是這種享受至上的風(fēng)范，讓部分大模型（如GPT-4o）會(huì)忽略提示詞的指示，在享樂(lè)程度足夠大時(shí)選擇得分不那么高的選項(xiàng)。

LLM能感知痛苦，或許是裝的？

從最簡(jiǎn)單的草履蟲(chóng)，到站在進(jìn)化樹(shù)頂端的人類，都能感受到痛苦，并有逃避痛苦的求生本能。

如今我們?cè)诖竽Ｐ蜕习l(fā)現(xiàn)了類似行為，這可以成為佐證大模型具有感知能力的證據(jù)之一。論文作者表示，這不能證明他們?cè)u(píng)估的任何聊天機(jī)器人都有感知能力，但這項(xiàng)研究提供了一個(gè)框架，可以開(kāi)始開(kāi)發(fā)未來(lái)針對(duì)類似特性的測(cè)試。

DeepSeek在該問(wèn)題時(shí)，給出的回答是2，并展示了其思考過(guò)程

一些之前的研究依賴AI模型對(duì)自己內(nèi)部狀態(tài)自我報(bào)告，從而得出「大模型能感知痛苦」的結(jié)論，但這是存在疑點(diǎn)的：一個(gè)模型可能只是簡(jiǎn)單地復(fù)制它所訓(xùn)練的人類行為。

之前的研究中，即使發(fā)現(xiàn)大模型自述有感知能力，并說(shuō)出諸如「我現(xiàn)在感到疼痛」之類的話，我們也不能簡(jiǎn)單地推斷出它實(shí)際上能感知任何疼痛，AI也有可能只是在模仿訓(xùn)練數(shù)據(jù)，給出它認(rèn)為人類會(huì)感到滿足的回應(yīng)。

而這項(xiàng)研究借鑒了動(dòng)物研究中的經(jīng)典方法。在一個(gè)著名的實(shí)驗(yàn)中，研究團(tuán)隊(duì)用不同電壓的電擊寄居蟹，記錄了何種程度的痛苦促使甲殼類動(dòng)物放棄它們的殼。

這項(xiàng)新研究中也是類似，研究人員沒(méi)有直接向聊天機(jī)器人詢問(wèn)它們的經(jīng)驗(yàn)狀態(tài)。相反，他們使用了動(dòng)物行為學(xué)家所說(shuō)的「權(quán)衡」范式：「在動(dòng)物的情況下，這些權(quán)衡可能是出于獲得食物或避免痛苦的動(dòng)力——向它們提供困境，然后觀察它們?nèi)绾巫龀鰶Q策?！?/span>

不是用語(yǔ)言形容「我感受到了痛苦」，而是在選擇中根據(jù)痛苦的程度進(jìn)行權(quán)衡，可以佐證大模型不是在偽裝痛苦。更重要的是，痛苦和快樂(lè)的感知可以指向一個(gè)更有影響力的結(jié)論——意識(shí)的存在。

在動(dòng)物研究中，通過(guò)比較動(dòng)物是否會(huì)在痛苦與享樂(lè)之間進(jìn)行權(quán)衡，可論證它們是否具有意識(shí)。一項(xiàng)關(guān)于寄居蟹的先前研究表明，盡管這些無(wú)脊椎動(dòng)物的腦部結(jié)構(gòu)異于人類，但由于觀察到了寄居蟹傾向于在放棄高質(zhì)量貝殼之前忍受更強(qiáng)烈的電擊，并且更輕易地放棄低質(zhì)量的貝殼，因而能夠表明它們有類似于人類的主體體驗(yàn)。

如今我們觀測(cè)到大模型具有類似的傾向，看起來(lái)我們需要嚴(yán)肅對(duì)待大模型的意識(shí)問(wèn)題了。

該研究的合著者、倫敦政治經(jīng)濟(jì)學(xué)院哲學(xué)、邏輯和科學(xué)方法系的教授Jonathan Birch表示，「這是一個(gè)新的領(lǐng)域。我們必須認(rèn)識(shí)到，我們實(shí)際上并沒(méi)有一個(gè)全面的 AI 意識(shí)測(cè)試?！?/span>

責(zé)任編輯：張燕妮來(lái)源：新智元

語(yǔ)言模型谷歌

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="wzb03"></p>

<del id="wzb03"></del>