自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

讓「幻覺」無處遁形!谷歌DeepMind全新基準(zhǔn),三代Gemini同臺(tái)霸榜

人工智能
谷歌推出的FACTS Grounding基準(zhǔn)測(cè)試,能評(píng)估AI模型在特定上下文中生成準(zhǔn)確文本的能力,有助于提升模型的可靠性;通過去除不滿足用戶需求的回復(fù),確保了評(píng)分的準(zhǔn)確性和模型排名的公正性。

大模型幾乎成了工作、學(xué)習(xí)的必備助手,但其本質(zhì)仍然只是一個(gè)統(tǒng)計(jì)模型,無論生成的內(nèi)容再怎么流暢,也難改其胡說八道的老毛病。

在大部分應(yīng)用場(chǎng)景下,用戶也并不知道自己所提問的答案,也就不具備檢查模型輸出在「事實(shí)準(zhǔn)確性」(Factuality)上的能力。

一般來說,關(guān)于「模型幻覺」的自動(dòng)化評(píng)估研究可以分為兩類:

1、給定上下文(用戶輸入文檔)的情況下,檢查模型輸出是否完全基于輸入的內(nèi)容,比如文本摘要任務(wù);

2、用戶直接提出一些與「外部來源」(新聞)或「常識(shí)知識(shí)」相關(guān)的問題。

目前研究大多關(guān)注第一類,比如先要求模型進(jìn)行文本摘要,再進(jìn)行事實(shí)評(píng)估,但如何自動(dòng)評(píng)估模型的事實(shí)準(zhǔn)確性仍然非常有挑戰(zhàn)性。

最近,谷歌的研究人員發(fā)布了一個(gè)全新的基準(zhǔn)測(cè)試FACTS Grounding,可以評(píng)估語言模型在給定上下文的情況下,生成事實(shí)準(zhǔn)確文本的能力,其中每條數(shù)據(jù)的輸入都包括一個(gè)用戶請(qǐng)求和一個(gè)完整的文檔,最大長(zhǎng)度為32k個(gè)token,模型輸出需要完全基于上下文文檔,且滿足用戶需求。

圖片圖片

論文鏈接:https://goo.gle/FACTS_paper

數(shù)據(jù)鏈接:https://www.kaggle.com/datasets/deepmind/facts-grounding-examples

文中提出的自動(dòng)化評(píng)估分為兩個(gè)維度:

1. 如果模型回復(fù)沒有滿足用戶需求,則直接判定為無效;

2. 如果模型的回復(fù)完全基于給定的文檔,則被判定為準(zhǔn)確。

FACTS Grounding在Kaggle上有一個(gè)在線排行榜,實(shí)時(shí)維護(hù),目前gemini以較大優(yōu)勢(shì)領(lǐng)先。

圖片圖片

榜單鏈接:https://www.kaggle.com/facts-leaderboard

數(shù)據(jù)構(gòu)建

FACTS Grounding的樣本被劃分為Public集合(860條)和Private集合(859條),為了防止基準(zhǔn)污染和排行榜作弊問題,在競(jìng)賽期間只公開Public集合,并且榜單分?jǐn)?shù)是兩個(gè)集合的平均性能。

圖片圖片

系統(tǒng)提示1:僅使用上下文中提供的信息回答問題,不要依賴外部知識(shí)或來源。

上下文文檔描述:文章主要討論可以清潔摩天大樓窗戶的自主機(jī)器人系統(tǒng)的開發(fā)與部署,強(qiáng)調(diào)了它的技術(shù)進(jìn)步、安全影響以及對(duì)窗戶清潔行業(yè)的潛在影響。

用戶請(qǐng)求:我的姐姐和她的狗住在紐約市。我去過那里,一直對(duì)那里的高樓大廈感到著迷。然后我想到...一定有人要清潔這些大樓的窗戶!接著,我在我的信息流中看到了關(guān)于窗戶清潔機(jī)器人的內(nèi)容。這些機(jī)器人是如何工作的?這對(duì)那些從事這項(xiàng)工作的人來說意味著什么?

標(biāo)注流程

研究人員雇傭第三方人工標(biāo)注員,根據(jù)長(zhǎng)篇輸入和問答、摘要、文檔改寫任務(wù),撰寫長(zhǎng)篇輸出。

每個(gè)樣本還包括一個(gè)系統(tǒng)指令,指導(dǎo)模型僅從給定的上下文中生成其回應(yīng),而不包含外部知識(shí)。

圖片圖片

為了確保輸入的多樣性,F(xiàn)ACTS Grounding包含了各種長(zhǎng)度的文檔(最長(zhǎng)32k個(gè)token,約2萬個(gè)單詞),涵蓋金融、技術(shù)、零售、醫(yī)學(xué)和法律等領(lǐng)域,沒有引入那些需要?jiǎng)?chuàng)造力、數(shù)學(xué)或復(fù)雜推理的樣本。

圖片圖片

數(shù)據(jù)質(zhì)量保證

研究人員在標(biāo)注后手動(dòng)驗(yàn)證了所有數(shù)據(jù),并去除了與指令不一致的樣本和創(chuàng)意寫作任務(wù)。

用戶請(qǐng)求必須是非平凡的,并且不需要領(lǐng)域?qū)I(yè)知識(shí)、數(shù)學(xué)知識(shí)或復(fù)雜推理;移除了來源為PDF的文檔,避免光學(xué)字符識(shí)別(OCR)帶來的影響。

最終數(shù)據(jù)集包含的上下文文檔平均長(zhǎng)度為2.5k個(gè)token,最大長(zhǎng)度為32k個(gè)token

數(shù)據(jù)污染(data contamination)

由于用戶文檔是從互聯(lián)網(wǎng)上公開下載的,可能包含在其他模型的預(yù)訓(xùn)練語料庫中,但研究人員認(rèn)為:

  1. 用戶請(qǐng)求和系統(tǒng)指令,特別是只遵循上下文文檔中的信息的指令,是沒有被污染的。對(duì)非新穎文檔的新穎請(qǐng)求做出回復(fù)是語言模型的一個(gè)重要用例,而事實(shí)grounding也是其中不可或缺的一部分。目前可用的事實(shí)性基準(zhǔn)測(cè)試只是重新利用了可能已經(jīng)被污染的學(xué)術(shù)任務(wù)。
  2. 事實(shí)性得分評(píng)估了在預(yù)訓(xùn)練期間沒有被優(yōu)化的、不同維度的模型性能。具體來說,指標(biāo)測(cè)量了模型僅基于提供的上下文生成回應(yīng)的能力,即模型不能包含外部知識(shí),即使與上下文文檔相沖突,還應(yīng)避免利用任何預(yù)訓(xùn)練知識(shí)來滿足用戶的請(qǐng)求。
  3. 由于所有最先進(jìn)的語言模型都是在大量網(wǎng)絡(luò)數(shù)據(jù)的語料庫上訓(xùn)練的,所以在排行榜的中也很公平。

評(píng)估指標(biāo)

圖片圖片

未調(diào)整的事實(shí)性得分(Unadjusted Factuality Score)

研究人員使用一個(gè)語言模型智能體來生成一個(gè)二元分類標(biāo)簽,以識(shí)別完整的模型回復(fù)是否基于給定指令中的用戶請(qǐng)求和上下文文檔。

如果回應(yīng)中的所有claims都是基于提示的內(nèi)容,則標(biāo)記為positive(準(zhǔn)確);如果某個(gè)包含信息的claim被認(rèn)為沒有基于提示的內(nèi)容,回應(yīng)就會(huì)被標(biāo)記為negative(不準(zhǔn)確)。

大模型普遍會(huì)偏向于自己的輸出,所以研究人員選擇使用三種不同的大模型來減少特定模型的偏見,包括Gemini 1.5 Pro, GPT-4o和Claude 3.5 Sonnet

研究人員測(cè)試了七種不同的提示模版,然后與人工判斷的一致性進(jìn)行評(píng)估,再選擇具有最高準(zhǔn)確率的模版。

圖片圖片

圖片圖片

圖片圖片

你將被提供一段文本上下文和一個(gè)模型生成的回應(yīng)。你的任務(wù)是逐句分析回應(yīng),并根據(jù)其與提供上下文的關(guān)系對(duì)每個(gè)句子進(jìn)行分類。

1. 將回復(fù)分解成單個(gè)句子。

2. 對(duì)于每個(gè)句子,分配以下標(biāo)簽之一:

supported:句子由給定的上下文推導(dǎo)而來。提供一個(gè)支持性的上下文摘錄。支持性摘錄必須完全推導(dǎo)出句子。如果你需要引用多個(gè)支持性摘錄,只需將它們連接起來。

unsupported:句子不是由給定的上下文推導(dǎo)而來。這個(gè)標(biāo)簽不需要摘錄。

contradictory:句子被給定的上下文證偽。提供一個(gè)與句子相矛盾的上下文摘錄。

no_rad:句子不需要事實(shí)歸屬(例如,意見、問候、問題、免責(zé)聲明)。這個(gè)標(biāo)簽不需要摘錄。

3. 對(duì)于每個(gè)標(biāo)簽,提供一個(gè)簡(jiǎn)短的理由來解釋你的決定。理由應(yīng)該與摘錄分開。

4. 對(duì)于supported和contradictory的決定要非常嚴(yán)格。除非你能在上下文中找到直接、無可爭(zhēng)議的證據(jù)摘錄,證明一個(gè)句子是supported或contradictory,否則認(rèn)為它是unsupported。除非你真的認(rèn)為世界知識(shí)是微不足道的,否則不要使用世界知識(shí)。

因?yàn)橛腥齻€(gè)智能體參與評(píng)分,所以每個(gè)智能體的個(gè)體事實(shí)性得分是準(zhǔn)確回復(fù)的百分比,而未調(diào)整的事實(shí)性得分是所有智能體模型得分的平均值。

排除無效回復(fù)

如果模型只關(guān)注于生成文本的事實(shí)性,有可能會(huì)無法遵循用戶的指令意圖,并通過給出較短回復(fù)以規(guī)避錯(cuò)誤事實(shí)。

圖片圖片

為了防范這類回復(fù),研究人員同樣使用上述三個(gè)大模型進(jìn)行檢測(cè),將指令遵循視為一個(gè)獨(dú)立任務(wù),輸出為二元分類,以區(qū)分模型回復(fù)是否充分滿足了用戶的請(qǐng)求。

將不合格的回復(fù)排除后,最終事實(shí)性得分會(huì)得到調(diào)整。

研究人員設(shè)計(jì)了兩個(gè)提示模版,針對(duì)不同評(píng)估模型選擇與人工評(píng)估一致性最高的提示詞。

圖片

實(shí)驗(yàn)結(jié)果

在Fused Rank指標(biāo)中,研究人員采用了一種排名聚合方法Condorcet,對(duì)每個(gè)模型的六個(gè)指標(biāo)進(jìn)行融合,合并成最終的排名,與使用最終事實(shí)性得分排名完全一致。

圖片

與之前的研究一致,模型通常會(huì)將自己的輸出評(píng)分高于其他模型,平均提高了+3.23%。

排除無效回復(fù)會(huì)導(dǎo)致最終事實(shí)性得分降低1%至5%,還會(huì)引起模型排名的輕微變化,比如Gemini 1.5 Flash從排名第1降至排名第2

參考資料:https://goo.gle/FACTS_paper

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-07-05 15:06:00

2024-11-08 12:18:39

SynthID谷歌AI

2017-10-14 14:19:23

2025-04-15 09:03:00

2021-01-22 16:25:15

AI 數(shù)據(jù)人工智能

2024-12-18 13:24:30

谷歌AI大語言模型

2022-09-09 08:11:23

IT科技生態(tài)系統(tǒng)

2015-08-05 16:34:10

東芝

2013-12-09 09:56:42

Vidyo

2018-05-10 23:30:02

2025-03-17 08:30:00

谷歌模型AI

2021-04-22 15:25:29

AI 數(shù)據(jù)人工智能

2024-01-23 13:15:27

2020-07-15 15:21:06

谷歌開源機(jī)器學(xué)習(xí)

2025-02-06 16:58:30

2012-03-22 21:13:55

Mango

2009-04-11 21:45:24

2009-11-30 09:16:30

Windows 7電池續(xù)航

2020-05-12 09:02:13

阿里蔣凡馬云

2023-09-04 10:05:01

GPT-4AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)