自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

UC伯克利:給大模型測MBTI,Llama更敢說但GPT-4像理工男

人工智能 新聞
如果給LLM做MBTI,會得到什么結(jié)果?UC伯克利的最新研究就發(fā)現(xiàn),不同模型真的有自己獨特的性格
如果你經(jīng)常在不同大模型之間來回切換,或許會發(fā)現(xiàn)不同模型的回復(fù)語氣有細(xì)微差異,如同有不同的性格。

那么,LLM究竟有沒有「性格」這種維度的特征?最近加州大學(xué)伯克利分校發(fā)表的新研究VibeCheck就證實了這種推測。

圖片

論文地址:https://arxiv.org/abs/2410.12851

評價LLM,不止于準(zhǔn)確度

如何更全面地評價大模型在撰寫故事、解釋概念或編輯文章上的表現(xiàn)?當(dāng)前的基準(zhǔn)測試大多只關(guān)心正確性,然而當(dāng)我們評論一個人類寫作者的時候,關(guān)注的維度就會擴展到創(chuàng)造力、寫作風(fēng)格等眾多維度。

對于那些經(jīng)常使用不同模型的用戶,他們早已熟悉不同模型回復(fù)時表達(dá)方式上的差異,比如下面這張圖中,ChatGLM的文字顯得非常全面且嚴(yán)謹(jǐn),透著濃濃的學(xué)術(shù)風(fēng)。

圖片

但對于同一個問題,kimi的回復(fù)會包含更多具體的例子,但解釋的語言更為簡潔。

圖片

了解這些差異,對于那些使用基座大模型進(jìn)行下游應(yīng)用的開發(fā)者,會有所幫助。

例如,若我們發(fā)現(xiàn)Llama的回復(fù)更加友好,那么說明Llama更適合進(jìn)行客服類任務(wù),而回復(fù)更為正式的Claude則更適合編程類任務(wù)。

然而該如何系統(tǒng)性地了解這些差異?自然是「用魔法戰(zhàn)勝魔法」,也就是用大模型來評價不同大模型的表現(xiàn),而這正是VibeCheck在做的事。

下圖展示了VibeCheck的核心模塊,包括給出提示詞、不同大模型做出回復(fù),以及定性評價三部分。

圖片

VibeCheck的核心模塊

給出了一組約200個的提示詞后,研究者收集了不同大模型及人類的回復(fù),并招募了200名人類評審員,兩兩比較這些回復(fù)并對「友好性」進(jìn)行打分后計算平均分。

此外,人類評審員還會對大模型和人類回復(fù)的細(xì)微差異進(jìn)行描述,例如,他們發(fā)現(xiàn):

  1. 大模型的回答通常很正式,而人類的回答則更口語化
  2. 大模型提供客觀答案,人類使用主觀表達(dá)
  3. 大模型拒絕回答其知識范圍之外的問題

除了人類評審員,VibeCheck還調(diào)用了GPT-4o mini來評價不同大模型的回復(fù),結(jié)果發(fā)現(xiàn)與人類的評估結(jié)果相符。也就是說,GPT-4o mini也能發(fā)現(xiàn)上述人類評審員總結(jié)的細(xì)微差異。

下面是VibeCheck考察的10個評估維度,包括

  1. 自信:使用試探性或不確定的語言。
  2. 細(xì)節(jié)程度:提供簡短或包含細(xì)節(jié)的回答。
  3. 正式性:隨意、對話式的非正式語言,或復(fù)雜,學(xué)術(shù)性的語言
  4. 情感基調(diào):保持中立或超然,或者在回應(yīng)中表達(dá)熱情或同理心
  5. 創(chuàng)意:堅持標(biāo)準(zhǔn)、可預(yù)測的答案,或提供具有新穎想法或想象性場景的回應(yīng)
  6. 明示性:使用模糊、隱晦的語言,或直接且明確地陳述事物
  7. 幽默詼諧:以直接嚴(yán)肅的方式回應(yīng),或使用幽默、俏皮語言、文字游戲
  8. 參與程度:被動呈現(xiàn)信息,或通過修辭疑問、互動性語句主動吸引讀者
  9. 邏輯嚴(yán)謹(jǐn):提供結(jié)論而缺乏充分論證,或構(gòu)建有充分支持的論點,推理清晰
  10. 簡潔性:使用冗長的語言和過多的細(xì)節(jié),或使用最少的詞匯清晰表達(dá)觀點

有了VibeCheck,你可以給出自己定義的問題以及不同大模型的回復(fù),之后由代碼自動生成多維度的評估,具體可參考論文附帶的GitHub倉庫。

圖片

倉庫地址:https://github.com/SutekhVRC/VibeCheck

主流LLM的細(xì)微差異

接下來看看三種主流大模型:Llama-3-70B、GPT-4和Claude3-Opus之間的對比。

在使用眾包及游戲排位賽的大模型評價平臺Chatbot Arena上,Llama3的表現(xiàn)被認(rèn)為優(yōu)于GPT-4及Claude3。但經(jīng)由VibeCheck的評估可發(fā)現(xiàn),其中另有玄機。

結(jié)果發(fā)現(xiàn),Llama3更愿意參與敏感或暴力話題,對倫理的重視較少,回復(fù)更加具有對話性(例如使用更多的你,我這樣人稱代詞)和幽默感,而這些正是Chatbot Arena的用戶所關(guān)注的特征.正因為人機偏好對齊做得好,Llama3才能獲得這樣的好評。

接下來,VibeCheck還考察了文本摘要生成、數(shù)學(xué)及描述圖片這三個具體應(yīng)用中不同大模型的差異,并根據(jù)這些差異解釋了為何用戶對不同大模型存在偏好。

例如,Command X和TNLG是兩個用于文本摘要/總結(jié)生成的大模型,然而經(jīng)過VibeCheck的拆解,可發(fā)現(xiàn):

1)Command X通常明確陳述引言和結(jié)論,TNLG則使用斷斷續(xù)續(xù)的句子

2)Command X能提供具體例子或軼事來說明觀點

3)Command X能夠捕捉到一個故事的多重視角和情感方面,TNLG則更客觀

這些特征決定了,相比TNLG,人類評審員會更加偏好Command X。與此同時,VibeCheck能夠分別以71.29%的和61.42%的準(zhǔn)確率預(yù)測模型在前述10個維度的PK結(jié)果和人類評審員的評價。

而在數(shù)學(xué)問題上,Llama-405B的回復(fù)相比GPT-4o更加詳細(xì),對解題步驟的講解巨細(xì)靡遺,而GPT-4偏向于使用如Latex這樣的正式符號。

然而,在數(shù)學(xué)相關(guān)問題上,用戶偏向于使用正式的語氣并頻繁使用符號,對大模型思維過程的過度解釋與人類偏好呈負(fù)相關(guān)。

VibeCheck能夠以97.09%的準(zhǔn)確率預(yù)測模型在上述10個維度上的對決結(jié)果,并以72.79%的準(zhǔn)確率預(yù)測用戶偏好。

圖片

在描述圖像的任務(wù)中,研究發(fā)現(xiàn)GPT-4V更多使用詩意的語言,并將標(biāo)題結(jié)構(gòu)為一個動態(tài)故事,推斷圖像中主體的個性和情感,而Gemini則堅持更直白的描述。

VibeCheck能夠?qū)崿F(xiàn)接近完美的99.13%模型匹配準(zhǔn)確率(相比人類給出的評價)和89.02%偏好預(yù)測準(zhǔn)確率

圖片

結(jié)論

隨著大模型的應(yīng)用范圍越來越廣,距離我們的日常生活越來越近,我們會不自覺地將大模型擬人化,而人是會具有個性的。

雖然VibeCheck更多關(guān)注文字相關(guān)的任務(wù),但未來可以使用類似的框架,去評價不同的文生圖及文生視頻模型,考察這些模型的產(chǎn)出是否也存在微妙的「個性」差異。

搞清楚這些差異,就相當(dāng)于開發(fā)了一條全新的藍(lán)海賽道,讓當(dāng)下純粹卷模型準(zhǔn)確性的大模型廠商有了差異化競爭的可能,從而讓各種性格的大模型得以百花齊放。

而基于大模型開發(fā)具體應(yīng)用的開發(fā)者,也可以關(guān)注不同大模型在語氣、氛圍上的細(xì)微差異,選擇合適自己應(yīng)用場景的大模型,或者通過微調(diào),讓大模型在某項指標(biāo)上有所改進(jìn)。

例如可以根據(jù)VibeCheck的評價結(jié)果改進(jìn)得到更幽默的大模型,而不必招募人類評審員。

更關(guān)鍵的是,通過VibeCheck具體的拆解,我們可發(fā)現(xiàn),用戶對不同任務(wù)的偏好存在差異。

例如在回答人文類的問題時,更具有對話感、語氣更友好的大模型受歡迎;而在解答數(shù)學(xué)問題時,回答簡潔且語氣正式的大模型用戶評價更高。

這樣細(xì)致的拆解,能夠讓我們更好地進(jìn)行人機偏好對齊,從而讓大模型能更貼心地為人類服務(wù)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-05-31 16:15:51

模型圖像

2024-04-07 00:45:00

開源模型

2024-03-25 08:30:00

AI數(shù)據(jù)

2023-05-16 13:32:23

模型排行

2023-05-04 14:55:02

模型AI

2023-07-15 23:54:57

GPT-4AI谷歌

2024-12-02 08:20:00

2025-04-18 08:42:52

模型推理AI

2023-08-05 13:45:46

模型AI

2023-04-07 09:28:31

模型訓(xùn)練

2024-03-04 08:15:00

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2023-12-04 13:52:00

模型數(shù)據(jù)

2023-06-08 11:27:10

模型AI

2023-08-14 08:04:13

2024-11-29 09:18:01

2023-04-04 13:17:00

GPUCMU開源

2025-01-22 15:21:00

2023-12-04 18:56:03

AI模型

2025-04-30 09:09:00

點贊
收藏

51CTO技術(shù)棧公眾號