自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌發(fā)布 FACTS Grounding 基準(zhǔn):Gemini、GPT-4o、Claude 當(dāng)評委,成 AI 大語言模型“幻覺照妖鏡”

人工智能
谷歌 DeepMind 團(tuán)隊(duì)于 12 月 17 日發(fā)布博文,宣布推出 FACTS Grounding 基準(zhǔn)測試,評估大型語言模型(LLMs)根據(jù)給定材料是否準(zhǔn)確作答,并避免“幻覺”(即捏造信息)的能力,從而提升 LLMs 的事實(shí)準(zhǔn)確性,增強(qiáng)用戶信任度,并拓展其應(yīng)用范圍。

12 月 18 日消息,谷歌 DeepMind 團(tuán)隊(duì)于 12 月 17 日發(fā)布博文,宣布推出 FACTS Grounding 基準(zhǔn)測試,評估大型語言模型(LLMs)根據(jù)給定材料是否準(zhǔn)確作答,并避免“幻覺”(即捏造信息)的能力,從而提升 LLMs 的事實(shí)準(zhǔn)確性,增強(qiáng)用戶信任度,并拓展其應(yīng)用范圍。

數(shù)據(jù)集

在數(shù)據(jù)集方面,ACTS Grounding 數(shù)據(jù)集包含 1719 個示例,涵蓋金融、科技、零售、醫(yī)療和法律等多個領(lǐng)域,每個示例包含一篇文檔、一條要求 LLM 基于文檔的系統(tǒng)指令和隨附的提示詞。

示例文檔長度不一,最長可達(dá) 32000 個 token(約 20000 字)。用戶請求涵蓋摘要、問答生成和改寫等任務(wù),但不包含需要創(chuàng)造力、數(shù)學(xué)或復(fù)雜推理的任務(wù)。IT之家附上演示圖片如下:

數(shù)據(jù)集分為 860 個“公共”示例和 859 個“私有”示例,目前已發(fā)布公共數(shù)據(jù)集供評估使用,私有數(shù)據(jù)集用于排行榜評分,以防止基準(zhǔn)污染和排行榜作弊。

評估方案

在評估方案上,F(xiàn)ACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作為評委,評估答案的充分性、事實(shí)準(zhǔn)確性和文檔支持性。

評估分為兩個階段:首先評估響應(yīng)是否符合資格,即是否充分回答了用戶請求;然后評估響應(yīng)的事實(shí)準(zhǔn)確性,即是否完全基于所提供的文檔,有沒有出現(xiàn)“幻覺”,然后基于該模型在所有示例上的平均得分,最終計(jì)算得出。

在 FACTS Grounding Benchmark 中,谷歌的 Gemini 模型在事實(shí)準(zhǔn)確的文本生成方面取得了最高分。

IT之家附上參考地址

責(zé)任編輯:龐桂玉 來源: IT之家
相關(guān)推薦

2024-05-20 08:20:00

OpenAI模型

2024-06-21 09:51:17

2025-01-06 13:15:02

2025-01-22 16:57:32

字節(jié)跳動豆包大模型

2024-05-14 11:29:15

2024-06-28 18:13:05

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達(dá)

2025-04-08 02:26:00

2024-11-04 08:40:00

2024-06-27 12:45:30

2024-08-02 13:14:51

2024-08-02 14:58:00

2024-11-22 12:39:56

2024-12-19 17:50:28

2024-05-15 09:58:06

谷歌大模型

2025-03-04 08:40:00

AI游戲訓(xùn)練

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)

2024-06-05 13:09:26

2023-07-12 16:10:48

人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號