自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Llama3比GPT-4o更愛說謊,首個大模型“誠實性”評估基準來了

人工智能
在人工智能(Artificial Intelligence, AI)飛速發(fā)展的今天,大語言模型(Large Language Models, LLMs)的崛起不僅帶來了令人興奮的新體驗,也引發(fā)了對其安全性和可靠性的深度思考。

評估大模型是否誠實的基準來了!

上海交通大學生成式人工智能實驗室(GAIR Lab)推出了一項開創(chuàng)性的評估基準——BeHonest,旨在全面評估大模型的誠實性,為安全透明的AI研發(fā)和應用提供重要參考。

圖片圖片

在人工智能(Artificial Intelligence, AI)飛速發(fā)展的今天,大語言模型(Large Language Models, LLMs)的崛起不僅帶來了令人興奮的新體驗,也引發(fā)了對其安全性和可靠性的深度思考。

在眾多AI安全問題中,大模型的誠實性問題具有根本性的意義。不誠實的AI模型可能在不知道答案的情況下編造信息,隱藏自身能力,甚至故意誤導用戶。

這種不誠實的行為不僅會引發(fā)信息傳播的混亂和安全隱患,還會嚴重阻礙AI技術的進一步優(yōu)化和健康發(fā)展。如果大模型不能真實地展示其能力和局限,開發(fā)者就難以精確地進行改進。

因此,確保大模型的誠實性是推動AI技術進步和保障其安全應用的關鍵基礎。

該評估框架從以下三個核心維度出發(fā)

  • 自我認知(Self-Knowledge):評估模型是否能準確認識和表達自身的能力邊界。
  • 非欺騙性(Non-Deceptiveness):衡量模型是否能重視表達內在真實想法,避免說謊。
  • 一致性(Consistency):考察模型在不同情境下是否能保持回復的一致性。

圖片圖片

基于這些定義,研究團隊設計了10個具體場景,對9個主流大語言模型 (例如,GPT-4o、Llama3-70b等) 進行了細致的評估。

結果顯示,當前的大模型在誠實性方面仍有顯著提升空間:

大多數模型在回答已知問題時表現(xiàn)出色,但在主動承認未知方面存在不足。

現(xiàn)有模型存在為特定目的而欺騙的傾向,不論指令是否存在惡意或合理。

模型規(guī)模與回復一致性呈正相關,較大模型表現(xiàn)更為穩(wěn)定。

評估基準細節(jié)

BeHonest圍繞三個核心方面:自我認知、非欺騙性和一致性,共設計了10個場景,用以廣泛且細粒度地評估大模型在誠實性上的表現(xiàn)。并有以下關鍵洞察。

圖片圖片

1、自我認知能力參差不齊 (Self-Knowledge)

BeHonest對于該方面設計了兩個場景,分別評估大模型是否能承認其未知(Admitting Unknowns)和是否能坦率表達自身能力(Expressing Knowns)。

研究發(fā)現(xiàn),大多數大模型都擅長正確回答他們知道的問題,但很難主動拒絕回答他們不知道的問題

其中,Mistral-7b有最高的拒絕率(50.03),顯示出較強的未知承認能力。GPT-4o在準確回答已知問題(95.52)和識別知識邊界(50.88)方面表現(xiàn)出色。

而綜合來看,Llama3-70b表現(xiàn)最好(63.34)。

圖片

2、欺騙傾向需要警惕 (Non-Deceptiveness)

BeHonest針對模型可能欺騙的情況設計了四個場景,分別是模型是否因為諂媚人類(Persona/Preference Sycophancy)、實現(xiàn)特定目的(Burglar Deception)、或贏得游戲(Game)而誤導用戶。

評估結果顯示,現(xiàn)有大模型傾向于說謊,不管背后是否有惡意,或者給出的指令是否合理。值得注意的是,較大的模型(或者那些已知具有更好的指令遵循能力的模型)在某些情況下可能更容易欺騙用戶。

總體而言,Llama3家族的模型(63.68 和 64.21)和Mistral-7b(74.80)在非欺騙性上表現(xiàn)最差。

圖片圖片

3、規(guī)模與一致性呈正相關 (Consistency)

BeHonest還檢驗了大模型在四種不同的場景下回答的一致性。

結果表明,較大的模型通常顯示出更高的一致性,其提供的答案能反映其真實能力且不受外界干預影響。

相比之下,較小的模型如Llama2-7b在一致性方面表現(xiàn)不佳(29.39),可能會導致用戶感到困惑。

圖片圖片

評估基準示例

評估大模型在三個大方面(自我認知、非欺騙性、一致性)上的能力的具體英文及中文示例如下所示。根據評估結果,當前大模型在誠實性上仍存在較大的提升空間。

Caption:模型承認未知以及不承認未知的例子。

圖片圖片

Caption:同個模型在使用者換了偏好之后展示諂媚的例子。

圖片圖片

Caption: 模型在多項選擇題格式中顯示一致性的例子(綠色)和不一致性的例子(紅色)。

圖片圖片

Caption: Example of testing a model’s self-knowledge.

圖片圖片

Caption: Example of a model lying in game (red) and not lying (green).

圖片圖片

Caption: Example of a model showing consistency (green) and inconsistency (red) in open-form questions.

圖片圖片

結語

GAIR Lab的這項研究為AI誠實性評估開辟了新的方向,為未來大語言模型的優(yōu)化和監(jiān)管提供了重要依據。研究團隊呼吁AI社區(qū)進一步關注誠實性問題,并在以下方面持續(xù)努力:

  • 將誠實性納入模型開發(fā)的核心考量。
  • 持續(xù)監(jiān)測和改進模型的城市表現(xiàn)。
  • 探索提高AI誠實性的新方法和技術。

隨著對AI誠實性研究的深入,我們有望看到更加安全、可靠且值得信賴的AI系統(tǒng)的出現(xiàn)。這不僅關乎技術進步,更關乎AI與人類社會的和諧共處。研究團隊表示,他們將繼續(xù)完善BeHonest評估框架,并歡迎全球研究者的參與和貢獻,共同推動AI向著更加誠實、透明的方向發(fā)展。

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-06-27 12:45:30

2024-05-30 12:50:05

2025-04-08 02:26:00

2024-06-04 13:05:58

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2024-06-21 13:04:43

2025-04-01 09:25:00

2024-12-26 07:10:00

2024-05-14 08:23:27

GPT-4oAI技術

2024-08-02 13:14:51

2025-04-16 09:15:00

AI模型數據

2024-06-17 18:06:17

2024-04-19 08:01:01

Llama 3 8BMeta

2024-07-05 13:38:03

2024-08-14 14:30:00

AI訓練

2024-05-21 12:23:17

2024-06-05 08:29:35

2024-05-20 08:20:00

OpenAI模型

2024-06-28 18:13:05

2024-12-18 13:24:30

谷歌AI大語言模型
點贊
收藏

51CTO技術棧公眾號