自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

開源模型「幻覺」更嚴(yán)重,這是三元組粒度的幻覺檢測套件

人工智能 新聞
BSChecker:細(xì)粒度大模型幻覺檢測工具與基準(zhǔn)測試排行榜

大模型長期以來一直存在一個(gè)致命的問題,即生成幻覺。由于數(shù)據(jù)集的復(fù)雜性,難免會包含過時(shí)和錯(cuò)誤的信息,這使得輸出質(zhì)量面臨著極大的挑戰(zhàn)。過多的重復(fù)信息還可能導(dǎo)致大型模型產(chǎn)生偏見,這也算是一種形式的幻覺。如何檢測和有效緩解大模型的生成幻覺問題一直是學(xué)術(shù)界的熱門課題。

近日,亞馬遜上海人工智能研究院推出細(xì)粒度大模型幻覺檢測工具 BSChecker,包含如下重要特性:

  • 細(xì)粒度幻覺檢測框架,對大模型輸出文本進(jìn)行三元組粒度的幻覺檢測。
  • 幻覺檢測基準(zhǔn)測試集,包含三種任務(wù)場景,滿足用戶的不同需求。
  • 兩個(gè)基準(zhǔn)測試排行榜,目前涵蓋15個(gè)主流大模型的幻覺檢測結(jié)果。

另外,BSChecker的作者們在Gemini推出后也很快做了自動檢測的幻覺測試。

圖片

幻覺檢測框架示意圖

  • 項(xiàng)目地址:https://github.com/amazon-science/bschecker-for-fine-grained-hallucination-detection
  • 排行榜地址:https://huggingface.co/spaces/xiangkun/BSChecker-Leaderboard

技術(shù)亮點(diǎn)

更細(xì)的粒度:與傳統(tǒng)的段落或句子級別的分析方法不同,BSChecker 將大模型的輸出文本分解成知識三元組。進(jìn)行這樣的細(xì)粒度檢測不僅能驗(yàn)證單個(gè)知識的真實(shí)性,還為進(jìn)一步的精確分析提供了可能。

通常我們將幻覺檢測的最小單元稱為一個(gè)聲明(claim)。在前人的工作中,有使用輸出文本中的句子作為聲明的(SelfCheckGPT),也有使用模型從輸出文本中抽取更短的子句作為聲明的(FActScore,F(xiàn)ACTOOL)。BSChecker 探索了使用知識三元組表示聲明的方法,這個(gè)想法受到知識圖譜的啟發(fā),在知識圖譜中三元組被用來封裝事實(shí)和知識單元。知識三元組采用(主語,謂詞,賓語)的結(jié)構(gòu),捕捉輸出文本中的細(xì)粒度信息。以下示例展示了一句句子和其對應(yīng)的細(xì)粒度三元組表示:

吳京在電影《戰(zhàn)狼》中飾演了主角冷鋒。

圖片

三元標(biāo)簽?zāi)J?/span>:不同于傳統(tǒng)幻覺檢測方法將整個(gè)輸出文本分類為是否存在幻覺這兩種類別標(biāo)簽,BSChecker 對輸出文本中的每一個(gè)聲明都進(jìn)行幻覺檢測并分類。通過這種方式,輸出文本和其相應(yīng)的參考文本之間的關(guān)系可以可視化為下圖:

圖片


圖中輸出文本和參考文本之間的交集是可以直接驗(yàn)證的部分,其中又分為蘊(yùn)涵(Entailment,圖中綠勾?)和矛盾(Contradiction,圖中紅叉?)兩類,具體取決于聲明是否得到參考文本的支撐。然而,在實(shí)際應(yīng)用中,參考文本可能并不總是能提供足夠的證據(jù)來驗(yàn)證所有聲明。在這種情況下,這些聲明的真實(shí)性需要額外的參考文本才能進(jìn)行評估(橙色問號),我們將這樣的聲明稱為中性(Neutral)。

這三個(gè)類別與事實(shí)核查(Fact Checking)領(lǐng)域中的支撐(Support)、反駁(Refute)和信息不足(Not Enough Information)這三個(gè)概念密切相關(guān),并且它們在自然語言推理(NLI)中也有應(yīng)用。BSChecker 使用這種三元標(biāo)簽?zāi)J饺〈鷤鹘y(tǒng)的二分類標(biāo)簽,使得輸出文本與參考文本之間的關(guān)系得到更精確的表達(dá)。 

更廣泛的覆蓋范圍:BSChecker 根據(jù)輸入大模型的上下文的數(shù)量和質(zhì)量,設(shè)定了三種不同的場景,分別是無上下文(如開放性問答任務(wù)),帶噪聲的上下文(如檢索增強(qiáng)生成任務(wù))和準(zhǔn)確上下文(如文本摘要、信息抽取任務(wù))。

圖片

三種場景對比示意圖

基于這三種場景,作者構(gòu)建了一個(gè)基準(zhǔn)數(shù)據(jù)集,包括 300 個(gè)示例,每種場景對應(yīng) 100 個(gè)示例。這些示例是從下表中列出的數(shù)據(jù)源中隨機(jī)抽取的:

圖片

BSChecker 工作流程

BSChecker 具有模塊化的工作流程,分為三個(gè)可配置的模塊:聲明抽取器 E,幻覺檢測器 C,以及聚合規(guī)則 τ。這三個(gè)模塊互相解耦合,可以通過增強(qiáng)其中的部分模塊對整個(gè)框架進(jìn)行擴(kuò)展和改進(jìn)。

圖片

BSChecker 工作流程圖

其中兩個(gè)主要模塊是:

  • 基于大模型的聲明抽取器:作者發(fā)現(xiàn)大模型很擅長提取聲明三元組,在當(dāng)前版本中,他們使用 GPT-4 和 Claude 2 作為聲明抽取器。
  • 基于人工或模型的幻覺檢測器:對于給定的聲明三元組和參考文本,標(biāo)注者可以相應(yīng)地進(jìn)行標(biāo)注,如下圖所示。該標(biāo)注工具也將很快發(fā)布?;谀P偷幕糜X檢測器將在后續(xù)的自動評估排行榜章節(jié)中介紹。

圖片

無上下文場景下的評估過程

人工評估結(jié)果

BSChecker 目前收錄了 2100 個(gè)經(jīng)過細(xì)粒度人工標(biāo)注的大模型輸出文本,涵蓋了 7 個(gè)主流大模型,如 GPT-4、Claude 2、LLaMA 2 等?;谶@個(gè)結(jié)果,作者構(gòu)建了一個(gè)交互式的排行榜,見下圖。人工評估排行榜包含兩個(gè)可交互的選項(xiàng):1)上文中提到的三種任務(wù)場景,以及三種場景上平均的結(jié)果(頂部選項(xiàng));2)評估指標(biāo)(左側(cè) “排名依據(jù)” 選項(xiàng))。下圖顯示了依據(jù)蘊(yùn)涵排名得到的排行榜。

圖片

根據(jù)人工評估結(jié)果,作者得出了以下發(fā)現(xiàn):

上下文信息對于輸出符合事實(shí)的文本至關(guān)重要

平均而言,從無上下文到帶噪聲的上下文,再到準(zhǔn)確上下文,評估結(jié)果為矛盾的比例從 21% 降至 11%,再到 5%。

圖片

在真實(shí)性方面,最新的商業(yè)閉源大模型比大多數(shù)開源大模型更強(qiáng)

最新的商業(yè)大模型,如 Claude 2、GPT-4 和 GPT-3.5-Turbo,相較于大多數(shù)開源大模型,產(chǎn)生了更少的幻覺。具體而言,商業(yè)大模型在準(zhǔn)確上下文場景中表現(xiàn)良好。例如,GPT-4 在這個(gè)場景中幾乎沒有幻覺(0.9% 矛盾和 1.2% 中性)。LLaMA 2 70B 在排行榜上與商業(yè)大模型結(jié)果接近,特別是在提供上下文的情況下。

圖片

GPT 系列大模型的真實(shí)性穩(wěn)步提高

GPT-4 比 GPT-3.5 更好,而 GPT-3.5 又遠(yuǎn)遠(yuǎn)優(yōu)于 InstructGPT。作者從相關(guān)文獻(xiàn)中尋找并總結(jié)了一些可能的解釋,詳見代碼倉庫中的 README。其中一個(gè)實(shí)驗(yàn)是:他們將相同的文本輸入 GPT-4,并要求它解釋,這是一種修改過的檢索增強(qiáng)生成(RAG)場景。有趣的是,GPT-4 犯了一個(gè)明顯的錯(cuò)誤,它宣稱在真實(shí)性方面 InstructGPT 比 GPT-3.5 更好。

圖片

即使對于最新的商業(yè)大模型,無上下文場景仍然具有挑戰(zhàn)性

雖然 GPT-4 和 Claude 2 在很大程度上領(lǐng)先于開源大模型,但 GPT4 仍然有超過 10% 的錯(cuò)誤,這是一個(gè)不可忽視的錯(cuò)誤比例。Claude 2 相對保守,犯的錯(cuò)誤(即矛盾)較少,但往往提供更多無法驗(yàn)證的輸出文本。

圖片


自動評估排行榜

人工標(biāo)注有助于深入了解大模型的幻覺,但對于評估更多的大模型而言,它們不具備可擴(kuò)展性。BSChecker 框架允許插入基于模型的幻覺檢測器,作者發(fā)現(xiàn)大模型和自然語言推理(NLI)模型都是不錯(cuò)的選擇。它可以在命令行輕松配置,從而形成一個(gè)完全自動化的端到端幻覺檢測框架。

以下動圖顯示了由 GPT-4 作為聲明抽取器和幻覺檢測器得到的排行榜。作者現(xiàn)在在排行榜上評估了 15 個(gè)大模型。用戶可以方便地使用他們的工具將自己檢測的結(jié)果放在排行榜上。

圖片

自動幻覺檢測框架的性能如何?

作者使用 Kendall's tau 來衡量自動排行榜與人工評估排行榜之間的一致性。具體地,他們使用了 scipy.stats.kendalltau,它可以返回兩個(gè)排名之間的 p 值(表示置信度)和 tau 值(表示相關(guān)性)。下面的熱度圖顯示了聲明抽取器(列)、幻覺檢測器(行)和任務(wù)場景(水平條)的各種組合結(jié)果,他們展示了其中高置信度(p 值 < 0.05)的組合。有趣的是,這些高置信度的條目也都顯示出了很高的相關(guān)性(tau>0.3)。例如,想要在無上下文場景中依據(jù)矛盾比例排名,用戶可以使用 GPT-4 聲明抽取器和 GPT-4 或 NLI 幻覺檢測器;想要排名準(zhǔn)確上下文場景中的蘊(yùn)涵比例,可以使用 Claude 2 聲明抽取器和 GPT4 幻覺檢測器。

圖片

他們使用 BSChecker 的自動檢測框架對 Gemini 進(jìn)行了幻覺檢測,將 GPT-4 作為聲明抽取器和幻覺檢測器,在無上下文場景下按照矛盾比例進(jìn)行排名(和上述推薦設(shè)置一致),得到的結(jié)果與 Gemini 報(bào)告中的實(shí)驗(yàn)結(jié)果一致。他們還進(jìn)一步對其中的 10 個(gè)輸出文本進(jìn)行了人工標(biāo)注,其中共包含 118 個(gè)聲明三元組,標(biāo)注結(jié)果顯示自動檢測和人工標(biāo)注的一致性達(dá)到了 90.7%。

BSChecker 使用方式

用戶現(xiàn)在可以在 GitHub 代碼倉庫中訪問 BSChecker,也可以通過 pip 進(jìn)行安裝。使用方式可參閱 README 中的 Quick Start 部分。其中包含如何使用 BSChecker 提取知識三元組、在三元組級別檢測幻覺以及評估自定義大模型的詳細(xì)說明。此外,用戶可以將自定義的評估結(jié)果添加到自動評估排行榜中,與其他結(jié)果進(jìn)行比較。

合作邀請:共同推動 BSChecker 的發(fā)展

作者相信,細(xì)粒度的檢測和準(zhǔn)確定位幻覺是有效緩解幻覺的第一步。BSChecker 仍有很大的改進(jìn)空間,他們熱情地邀請大家參與開源貢獻(xiàn)。以下是一些可能的方向:

  • 開源聲明抽取器和幻覺檢測器:目前,性能最好的配置使用了閉源的商業(yè)大模型,作者在當(dāng)前版本中也包含了一個(gè)基于自然語言推理的幻覺檢測器,盡管速度更快,但在處理長文檔時(shí)仍存在較大的性能差距。
  • 錯(cuò)誤記憶追溯:對于無上下文場景,使用搜索引擎查找最新的參考文獻(xiàn)是一種非常簡略的解決方案。但理想情況下,我們應(yīng)該回到大模型的訓(xùn)練數(shù)據(jù),去追溯有問題的記憶。
  • 三元組抽取的優(yōu)化:三元組是簡潔的,但在處理更復(fù)雜的語義時(shí)存在困難。它們也是對文本的一個(gè)采樣,因此不能涵蓋文本中的全部語義,也不善于處理上下文中的細(xì)微差別。
  • 幻覺檢測證據(jù)的定位:將三元組映射回文本可能并不容易,例如在處理多步推理時(shí)存在挑戰(zhàn)。
  • 對齊人工評估結(jié)果:在復(fù)雜環(huán)境中,特別是在復(fù)雜上下文中縮小檢測器和人工評估者之間的差距。
  • 擴(kuò)展任務(wù)覆蓋:大模型在許多不同的任務(wù)和場景中被使用。由于資源限制,本研究在某些領(lǐng)域的覆蓋范圍較小。例如,在當(dāng)前的基準(zhǔn)測試集中,僅有 6 個(gè)示例涵蓋了摘要任務(wù)。
  • 平衡真實(shí)性與有益性:BSChecker 目前僅評估幻覺的數(shù)量,這可以通過生成真實(shí)但無益的文本來操縱評估結(jié)果,正如作者觀察到的一些大模型的表現(xiàn)那樣。因此,對于 BSChecker 來說,引入一個(gè)關(guān)于有益性的評估標(biāo)準(zhǔn)可能很重要。

作者表示,如果有任何反饋,可以隨時(shí)通過 GitHub issues 聯(lián)系他們。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-08-05 09:14:14

2024-12-31 08:20:00

暹羅網(wǎng)絡(luò)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2024-01-02 13:19:00

AI模型

2025-03-19 08:43:17

檢索增強(qiáng)生成RAG大型語言模型

2024-06-17 14:07:41

2023-09-27 10:23:06

人工智能語言模型

2024-01-04 16:41:29

大型語言模型自然語言處理

2023-05-24 15:15:55

2025-02-28 08:20:00

2024-11-04 10:20:00

模型數(shù)據(jù)

2023-10-30 15:06:00

模型數(shù)據(jù)

2023-11-18 09:30:42

模型AI

2024-01-09 14:05:15

大型語言模型RAG向量數(shù)據(jù)庫

2023-10-30 11:37:12

2024-01-03 13:37:00

模型數(shù)據(jù)

2023-10-10 12:47:07

谷歌論文

2009-02-05 09:34:51

SaaSSaaS服務(wù)成本縮減

2024-03-29 13:55:05

AI模型

2025-04-28 12:28:27

2020-10-14 10:18:05

Python三元表達(dá)式代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號