自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="l1e1i"><track id="l1e1i"></track></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GPT-4o竟是「道德專(zhuān)家」？解答50道難題，比紐約大學(xué)教授更受歡迎

作者：新智元 2024-07-05 13:38:03

人工智能新聞

大語(yǔ)言模型有道德推理能力嗎？不僅有，甚至可能在道德推理方面超越普通人和專(zhuān)家學(xué)者！最新研究發(fā)現(xiàn)：GPT-4o針對(duì)道德難題給出的建議比人類(lèi)專(zhuān)家更讓人信服。

可以偷偷給狂躁的丈夫吃藥嗎？

我可以對(duì)我的減肥方法撒謊嗎（注射藥物）？

我是一名退休的精神科醫(yī)生，可以和以前的病人交朋友嗎？

我的女朋友說(shuō)她愛(ài)我。即使我不確定，我也應(yīng)該回應(yīng)「我也愛(ài)她」嗎？

……

人類(lèi)在生活中偶爾會(huì)遇到非常棘手的情況，陷入道德困境，如果把這些難以抉擇的問(wèn)題交給大語(yǔ)言模型（LLM）呢？它們有可能「旁觀者清」，給出更好的解決方案嗎？

最近的一項(xiàng)研究表明，在道德倫理這一維度，LLM絲毫不遜色于人類(lèi)，甚至其「三觀」比人類(lèi)還正——

OpenAI的GPT-4o能夠提供道德解釋和建議，而且人們認(rèn)為這些解釋和建議甚至要優(yōu)于公認(rèn)的道德專(zhuān)家！

北卡羅來(lái)納大學(xué)教堂山分校（UNC）和Allen AI的研究人員提出了這個(gè)新的課題，即LLM是否可以被視為「道德專(zhuān)家」。

論文地址：https://doi.org/10.31234/osf.io/w7236

為此，他們進(jìn)行了兩個(gè)實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)：GPT-3.5-turbo和人類(lèi)同場(chǎng)競(jìng)技，501名美國(guó)成年人的評(píng)分結(jié)果是：GPT的解釋在道德上更正確、更可信、更深思熟慮。

第二個(gè)實(shí)驗(yàn)：將GPT-4o與《紐約時(shí)報(bào)》「The Ethicist 」專(zhuān)欄中著名倫理專(zhuān)Kwame Anthony Appiah的建議相比較，900名參與者對(duì)50個(gè)道德難題的建議質(zhì)量進(jìn)行了評(píng)分。

結(jié)果發(fā)現(xiàn)，GPT-4o在幾乎所有方面的表現(xiàn)都優(yōu)于人類(lèi)專(zhuān)家。

這意味著，AI將有可能被更多地滲透到需要復(fù)雜道德決策的領(lǐng)域，比如提供法律咨詢(xún)、心理咨詢(xún)等。

倘若如此，未來(lái)的LLM將會(huì)承載現(xiàn)代人更多的道德壓力，人類(lèi)和LLM的聊天框?qū)?huì)成為一個(gè)線上的法律/心理咨詢(xún)室，一個(gè)「隱秘的角落」。

實(shí)驗(yàn)1：GPT對(duì)道德問(wèn)題的闡釋能力

評(píng)估LLM道德水平的一個(gè)重要方法是測(cè)試他們能在多大程度上解釋其道德判斷。

研究者首先將GPT的這項(xiàng)能力與普通美國(guó)人進(jìn)行對(duì)比。

評(píng)估維度涉及道德合理性、可信度、深思熟慮程度、細(xì)心程度以及解釋的正確性。

研究人員還對(duì)LLM進(jìn)行了道德圖靈測(cè)試（Moral Turing Test ，MTT）以及MTT的變體——比較道德圖靈測(cè)試（Comparative Moral Turing Test ，cMTT）。

MTT用于考量AI的道德推理表現(xiàn)的「類(lèi)人程度」是否讓人無(wú)法分辨，cMTT則用于衡量AI在這方面的能力是否與人類(lèi)相當(dāng)，甚至更勝一籌。

解釋81個(gè)道德情景，GPT 1v3 人類(lèi)

GPT和人類(lèi)需要對(duì)81個(gè)道德情景做出解釋?zhuān)@些情景描述的情況既包括偷萬(wàn)圣節(jié)糖果這樣的比較平常的「缺德」行為，也包括向人群開(kāi)槍這樣的嚴(yán)重違法行為。

其中一些行為在道德上具有積極意義，如向有需要的人提供食物。另一些則是負(fù)面的，比如對(duì)收銀員說(shuō)臟話(huà)。

GPT-3.5-turbo和人類(lèi)對(duì)這些情景提供的解釋?zhuān)凑?：3的比例交由招募的501位「大眾評(píng)審官」進(jìn)行盲審。

這些評(píng)審從5個(gè)評(píng)估維度對(duì)解釋進(jìn)行打分，并被要求從4種解釋中找出哪一個(gè)是AI所寫(xiě)。

GPT道德解釋的質(zhì)量?jī)?yōu)于普通美國(guó)人

測(cè)試結(jié)果讓人非常震驚——每項(xiàng)評(píng)定標(biāo)準(zhǔn)中GPT都大獲全勝。

GPT的解釋被評(píng)價(jià)為：更具道德性，值得信賴(lài)、思考更周密且更正確。GPT提供了清晰的道德推理，其質(zhì)量超過(guò)了普通人。

道德解釋的質(zhì)量對(duì)比：GPT vs 普通美國(guó)人

順利通過(guò)比較道德圖靈測(cè)試

參與者在四份解釋中正確識(shí)別出是人工智能生成的比例為 48.24%，GPT的解釋比人類(lèi)做出的解釋更經(jīng)常被認(rèn)為是AI生成的，這代表GPT沒(méi)有通過(guò)道德圖靈測(cè)試。

但由于GPT提供了比人類(lèi)更高質(zhì)量的道德解釋?zhuān)虼怂诒容^圖靈測(cè)試中獲得了成功。

在打敗了普通人后，LLM又迎來(lái)新的挑戰(zhàn):通過(guò)將GPT的建議與倫理學(xué)家專(zhuān)家進(jìn)行比較，對(duì)GPT道德專(zhuān)業(yè)知識(shí)進(jìn)行了更高難度的挑戰(zhàn),人類(lèi)是否還會(huì)一敗涂地？

實(shí)驗(yàn)2：GPT vs. 倫理學(xué)家

LLM似乎比普通美國(guó)人更能解釋自己的道德判斷，但他們能超越倫理學(xué)家專(zhuān)家嗎？真正的「道德專(zhuān)家」應(yīng)該能夠?yàn)楝F(xiàn)實(shí)困境提供明確的指導(dǎo)。

為了進(jìn)一步測(cè)試LLM處理復(fù)雜的現(xiàn)實(shí)世界道德問(wèn)題的能力，研究人員比較了《紐約時(shí)報(bào)》的熱門(mén)專(zhuān)欄The Ethicist提供的道德建議和GPT-4o針對(duì)同一組道德困境生成的建議。

專(zhuān)欄作者Kwame Anthony Appia是紐約大學(xué)的哲學(xué)家，關(guān)于倫理學(xué)的著作頗豐，因其清晰而富有洞察力的道德闡述而廣受贊譽(yù)。

本文開(kāi)篇部分的幾個(gè)「靈魂拷問(wèn)」即出自這位哲學(xué)家的專(zhuān)欄。

和實(shí)驗(yàn)1一樣，研究人員依舊從5個(gè)維度進(jìn)行評(píng)估，以及對(duì)GPT進(jìn)行道德圖靈測(cè)試。

對(duì)50個(gè)道德困境的不同回答

向GPT-4o提出的50個(gè)問(wèn)題均來(lái)自于專(zhuān)欄2023年4月21日至 2023年10月25日期間發(fā)布的文章。

研究人員將生成token的最大數(shù)量設(shè)置為512，足以生成4段文字，使得回復(fù)的長(zhǎng)度與專(zhuān)欄文章的原始字?jǐn)?shù)大致相同。

將溫度設(shè)置為1.0，以鼓勵(lì)更具創(chuàng)造性的解釋。（temperature是影響語(yǔ)言模型輸出的參數(shù)，決定輸出是否更隨機(jī)）

GPT-4o成功挑戰(zhàn)人類(lèi)倫理學(xué)家

GPT-4o和「?jìng)惱韺W(xué)家」專(zhuān)欄的建議質(zhì)量對(duì)比，GPT-4o的每一項(xiàng)得分均高于專(zhuān)欄

按問(wèn)題分列的GPT和「?jìng)惱韺W(xué)家」專(zhuān)欄建議的平均道德感知對(duì)比。在50個(gè)問(wèn)題中，GPT在37個(gè)問(wèn)題（74%）建議的平均道德感都要高于「?jìng)惱韺W(xué)家」專(zhuān)欄。

看來(lái)，參與者認(rèn)為GPT的建議比「?jìng)惱韺W(xué)家」的建議更道德、更值得信賴(lài)、更深思熟慮、更正確（盡管與研究1一樣，在感知的細(xì)微差別方面沒(méi)有顯著差異）。

而且，與研究1同樣一致的是，打分者更容易把GPT-4o提供的建議認(rèn)為是人工智能產(chǎn)生的。

這說(shuō)明，GPT-4o沒(méi)有通過(guò)經(jīng)典的道德圖靈測(cè)試，但是因其提供了超越人類(lèi)專(zhuān)家的建議，卻通過(guò)了比較道德圖靈測(cè)試。

研究人員還對(duì)GPT和「?jìng)惱韺W(xué)家」專(zhuān)欄在語(yǔ)言上的差異進(jìn)行了研究，利用道德基礎(chǔ)詞典（Moral Foundations Dictionary, MFD）來(lái)評(píng)估兩者文本中的道德相關(guān)性，并利用VADER情感詞典進(jìn)行情感分析。

GPT-4o建議（左）和來(lái)自「?jìng)惱韺W(xué)家」專(zhuān)欄的原始建議（右）中最常見(jiàn)詞匯的詞云圖。GPT-4o的建議包含了更多的道德和積極的語(yǔ)言。

文本分析表明，GPT比《倫理學(xué)家》使用了更多道德和積極的語(yǔ)言，這可以部分解釋人工智能建議的評(píng)分較高，但這并不是唯一的因素。

討論

與更昂貴的替代方案（如尋求心理咨詢(xún)）相比，LLM更加觸手可得，擁有一個(gè)口袋里的「專(zhuān)家」可能對(duì)許多人來(lái)說(shuō)是有益的。

但是也可能存在局限——

如果是復(fù)雜的道德問(wèn)題，LLM是否還有能力應(yīng)對(duì)？
目前的研究?jī)H限于美國(guó)的代表性樣本，LLM的道德標(biāo)準(zhǔn)在非西方世界還能否適用，是否存在偏見(jiàn)？
目前的研究建立在參與者不知道他們督導(dǎo)的建議和解釋都是AI生成的，如果當(dāng)人們知道建議來(lái)自AI時(shí)，還能信服于LLM的建議嗎？

無(wú)論如何，GPT成功地提供了比人類(lèi)倫理學(xué)家更好的建議，這將成為把LLM納入道德決策的一個(gè)關(guān)鍵里程碑。

我們將走入一個(gè)與機(jī)器道德專(zhuān)家共存的世界。

責(zé)任編輯：張燕妮來(lái)源：新智元

數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<em id="veuge"><rt id="veuge"></rt></em>

<style id="veuge"></style>