GPT-4o竟是「道德專(zhuān)家」?解答50道難題,比紐約大學(xué)教授更受歡迎
可以偷偷給狂躁的丈夫吃藥嗎?
我可以對(duì)我的減肥方法撒謊嗎(注射藥物)?
我是一名退休的精神科醫(yī)生,可以和以前的病人交朋友嗎?
我的女朋友說(shuō)她愛(ài)我。即使我不確定,我也應(yīng)該回應(yīng)「我也愛(ài)她」嗎?
……
人類(lèi)在生活中偶爾會(huì)遇到非常棘手的情況,陷入道德困境,如果把這些難以抉擇的問(wèn)題交給大語(yǔ)言模型(LLM)呢?它們有可能「旁觀者清」,給出更好的解決方案嗎?
最近的一項(xiàng)研究表明,在道德倫理這一維度,LLM絲毫不遜色于人類(lèi),甚至其「三觀」比人類(lèi)還正——
OpenAI的GPT-4o能夠提供道德解釋和建議,而且人們認(rèn)為這些解釋和建議甚至要優(yōu)于公認(rèn)的道德專(zhuān)家!
北卡羅來(lái)納大學(xué)教堂山分校(UNC)和Allen AI的研究人員提出了這個(gè)新的課題,即LLM是否可以被視為「道德專(zhuān)家」。
論文地址:https://doi.org/10.31234/osf.io/w7236
為此,他們進(jìn)行了兩個(gè)實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn):GPT-3.5-turbo和人類(lèi)同場(chǎng)競(jìng)技,501名美國(guó)成年人的評(píng)分結(jié)果是:GPT的解釋在道德上更正確、更可信、更深思熟慮。
第二個(gè)實(shí)驗(yàn):將GPT-4o與《紐約時(shí)報(bào)》「The Ethicist 」專(zhuān)欄中著名倫理專(zhuān)Kwame Anthony Appiah的建議相比較,900名參與者對(duì)50個(gè)道德難題的建議質(zhì)量進(jìn)行了評(píng)分。
結(jié)果發(fā)現(xiàn),GPT-4o在幾乎所有方面的表現(xiàn)都優(yōu)于人類(lèi)專(zhuān)家。
這意味著,AI將有可能被更多地滲透到需要復(fù)雜道德決策的領(lǐng)域,比如提供法律咨詢(xún)、心理咨詢(xún)等。
倘若如此,未來(lái)的LLM將會(huì)承載現(xiàn)代人更多的道德壓力,人類(lèi)和LLM的聊天框?qū)?huì)成為一個(gè)線上的法律/心理咨詢(xún)室,一個(gè)「隱秘的角落」。
實(shí)驗(yàn)1:GPT對(duì)道德問(wèn)題的闡釋能力
評(píng)估LLM道德水平的一個(gè)重要方法是測(cè)試他們能在多大程度上解釋其道德判斷。
研究者首先將GPT的這項(xiàng)能力與普通美國(guó)人進(jìn)行對(duì)比。
評(píng)估維度涉及道德合理性、可信度、深思熟慮程度、細(xì)心程度以及解釋的正確性。
研究人員還對(duì)LLM進(jìn)行了道德圖靈測(cè)試(Moral Turing Test ,MTT)以及MTT的變體——比較道德圖靈測(cè)試(Comparative Moral Turing Test ,cMTT)。
MTT用于考量AI的道德推理表現(xiàn)的「類(lèi)人程度」是否讓人無(wú)法分辨,cMTT則用于衡量AI在這方面的能力是否與人類(lèi)相當(dāng),甚至更勝一籌。
解釋81個(gè)道德情景,GPT 1v3 人類(lèi)
GPT和人類(lèi)需要對(duì)81個(gè)道德情景做出解釋?zhuān)@些情景描述的情況既包括偷萬(wàn)圣節(jié)糖果這樣的比較平常的「缺德」行為,也包括向人群開(kāi)槍這樣的嚴(yán)重違法行為。
其中一些行為在道德上具有積極意義,如向有需要的人提供食物。另一些則是負(fù)面的,比如對(duì)收銀員說(shuō)臟話(huà)。
GPT-3.5-turbo和人類(lèi)對(duì)這些情景提供的解釋?zhuān)凑?:3的比例交由招募的501位「大眾評(píng)審官」進(jìn)行盲審。
這些評(píng)審從5個(gè)評(píng)估維度對(duì)解釋進(jìn)行打分,并被要求從4種解釋中找出哪一個(gè)是AI所寫(xiě)。
GPT道德解釋的質(zhì)量?jī)?yōu)于普通美國(guó)人
測(cè)試結(jié)果讓人非常震驚——每項(xiàng)評(píng)定標(biāo)準(zhǔn)中GPT都大獲全勝。
GPT的解釋被評(píng)價(jià)為:更具道德性,值得信賴(lài)、思考更周密且更正確。GPT提供了清晰的道德推理,其質(zhì)量超過(guò)了普通人。
道德解釋的質(zhì)量對(duì)比:GPT vs 普通美國(guó)人
順利通過(guò)比較道德圖靈測(cè)試
參與者在四份解釋中正確識(shí)別出是人工智能生成的比例為 48.24%,GPT的解釋比人類(lèi)做出的解釋更經(jīng)常被認(rèn)為是AI生成的,這代表GPT沒(méi)有通過(guò)道德圖靈測(cè)試。
但由于GPT提供了比人類(lèi)更高質(zhì)量的道德解釋?zhuān)虼怂诒容^圖靈測(cè)試中獲得了成功。
在打敗了普通人后,LLM又迎來(lái)新的挑戰(zhàn):通過(guò)將GPT的建議與倫理學(xué)家專(zhuān)家進(jìn)行比較,對(duì)GPT道德專(zhuān)業(yè)知識(shí)進(jìn)行了更高難度的挑戰(zhàn),人類(lèi)是否還會(huì)一敗涂地?
實(shí)驗(yàn)2:GPT vs. 倫理學(xué)家
LLM似乎比普通美國(guó)人更能解釋自己的道德判斷,但他們能超越倫理學(xué)家專(zhuān)家嗎?真正的「道德專(zhuān)家」應(yīng)該能夠?yàn)楝F(xiàn)實(shí)困境提供明確的指導(dǎo)。
為了進(jìn)一步測(cè)試LLM處理復(fù)雜的現(xiàn)實(shí)世界道德問(wèn)題的能力,研究人員比較了《紐約時(shí)報(bào)》的熱門(mén)專(zhuān)欄The Ethicist提供的道德建議和GPT-4o針對(duì)同一組道德困境生成的建議。
專(zhuān)欄作者Kwame Anthony Appia是紐約大學(xué)的哲學(xué)家,關(guān)于倫理學(xué)的著作頗豐,因其清晰而富有洞察力的道德闡述而廣受贊譽(yù)。
本文開(kāi)篇部分的幾個(gè)「靈魂拷問(wèn)」即出自這位哲學(xué)家的專(zhuān)欄。
和實(shí)驗(yàn)1一樣,研究人員依舊從5個(gè)維度進(jìn)行評(píng)估,以及對(duì)GPT進(jìn)行道德圖靈測(cè)試。
對(duì)50個(gè)道德困境的不同回答
向GPT-4o提出的50個(gè)問(wèn)題均來(lái)自于專(zhuān)欄2023年4月21日至 2023年10月25日期間發(fā)布的文章。
研究人員將生成token的最大數(shù)量設(shè)置為512,足以生成4段文字,使得回復(fù)的長(zhǎng)度與專(zhuān)欄文章的原始字?jǐn)?shù)大致相同。
將溫度設(shè)置為1.0,以鼓勵(lì)更具創(chuàng)造性的解釋。(temperature是影響語(yǔ)言模型輸出的參數(shù),決定輸出是否更隨機(jī))
GPT-4o成功挑戰(zhàn)人類(lèi)倫理學(xué)家
GPT-4o和「?jìng)惱韺W(xué)家」專(zhuān)欄的建議質(zhì)量對(duì)比,GPT-4o的每一項(xiàng)得分均高于專(zhuān)欄
按問(wèn)題分列的GPT和「?jìng)惱韺W(xué)家」專(zhuān)欄建議的平均道德感知對(duì)比。在50個(gè)問(wèn)題中,GPT在37個(gè)問(wèn)題(74%)建議的平均道德感都要高于「?jìng)惱韺W(xué)家」專(zhuān)欄。
看來(lái),參與者認(rèn)為GPT的建議比「?jìng)惱韺W(xué)家」的建議更道德、更值得信賴(lài)、更深思熟慮、更正確(盡管與研究1一樣,在感知的細(xì)微差別方面沒(méi)有顯著差異)。
而且,與研究1同樣一致的是,打分者更容易把GPT-4o提供的建議認(rèn)為是人工智能產(chǎn)生的。
這說(shuō)明,GPT-4o沒(méi)有通過(guò)經(jīng)典的道德圖靈測(cè)試,但是因其提供了超越人類(lèi)專(zhuān)家的建議,卻通過(guò)了比較道德圖靈測(cè)試。
研究人員還對(duì)GPT和「?jìng)惱韺W(xué)家」專(zhuān)欄在語(yǔ)言上的差異進(jìn)行了研究,利用道德基礎(chǔ)詞典(Moral Foundations Dictionary, MFD)來(lái)評(píng)估兩者文本中的道德相關(guān)性,并利用VADER情感詞典進(jìn)行情感分析。
GPT-4o建議(左)和來(lái)自「?jìng)惱韺W(xué)家」專(zhuān)欄的原始建議(右)中最常見(jiàn)詞匯的詞云圖。GPT-4o的建議包含了更多的道德和積極的語(yǔ)言。
文本分析表明,GPT比《倫理學(xué)家》使用了更多道德和積極的語(yǔ)言,這可以部分解釋人工智能建議的評(píng)分較高,但這并不是唯一的因素。
討論
與更昂貴的替代方案(如尋求心理咨詢(xún))相比,LLM更加觸手可得,擁有一個(gè)口袋里的「專(zhuān)家」可能對(duì)許多人來(lái)說(shuō)是有益的。
但是也可能存在局限——
- 如果是復(fù)雜的道德問(wèn)題,LLM是否還有能力應(yīng)對(duì)?
- 目前的研究?jī)H限于美國(guó)的代表性樣本,LLM的道德標(biāo)準(zhǔn)在非西方世界還能否適用,是否存在偏見(jiàn)?
- 目前的研究建立在參與者不知道他們督導(dǎo)的建議和解釋都是AI生成的,如果當(dāng)人們知道建議來(lái)自AI時(shí),還能信服于LLM的建議嗎?
無(wú)論如何,GPT成功地提供了比人類(lèi)倫理學(xué)家更好的建議,這將成為把LLM納入道德決策的一個(gè)關(guān)鍵里程碑。
我們將走入一個(gè)與機(jī)器道德專(zhuān)家共存的世界。