自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

維基百科+大模型打敗幻覺!斯坦福WikiChat性能碾壓GPT-4,準(zhǔn)確率高達(dá)97.3%

人工智能 新聞
大模型固有的幻覺問題嚴(yán)重影響了LLM的表現(xiàn)。斯坦福最新研究利用維基百科數(shù)據(jù)訓(xùn)練大模型,得到的WikiChat成為首個(gè)幾乎不產(chǎn)生幻覺的聊天機(jī)器人。

大語(yǔ)言模型的幻覺問題被解決了!

近日,來(lái)自斯坦福的研究人員發(fā)布了WikiChat——被稱為首個(gè)幾乎不產(chǎn)生幻覺的聊天機(jī)器人!

論文發(fā)表在EMNLP 2023,并且在Github上開源了代碼:

論文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf

項(xiàng)目代碼:https://github.com/stanford-oval/WikiChat

作者表示自己的最佳模型在新的基準(zhǔn)測(cè)試中獲得了97.3%的事實(shí)準(zhǔn)確性,而相比之下,GPT-4的得分僅為66.1%。

在「recent」和「tail」兩個(gè)知識(shí)子集中,這個(gè)差距甚至更大。

另外,作者還發(fā)現(xiàn)了檢索增強(qiáng)生成(RAG)的幾個(gè)缺點(diǎn),并添加了幾個(gè)重要步驟,以進(jìn)一步減輕幻覺,并改進(jìn)「對(duì)話性」指標(biāo)。

通過這些優(yōu)化,WikiChat在事實(shí)性方面比微調(diào)后的SOTA RAG模型Atlas高出8.5%,

在相關(guān)性、信息性、自然性、非重復(fù)性和時(shí)間正確性方面也大大領(lǐng)先。

最后,作者將基于GPT-4的WikiChat提煉成7B參數(shù)的LLaMA,這個(gè)模型在事實(shí)準(zhǔn)確性方面仍然能拿到91.1%的高分,

并且運(yùn)行速度提高了6.5倍,能效更好,可以本地部署。

大模型+維基百科,一起擊敗幻覺

眾所周知,LLM的幻覺問題由來(lái)已久、根深蒂固,

而且曾給各家的大語(yǔ)言模型都造成過不同程度的影響。

基于LLM使用概率來(lái)推斷輸出的原理,幻覺這個(gè)問題很難徹底解決,

研究人員們?yōu)榇送度氪罅康男难?,小編也是很期待這個(gè)WikiChat的表現(xiàn)!

WikiChat,顧名思義,就是基于維基百科的知識(shí)進(jìn)行訓(xùn)練,聽起來(lái)還挺靠譜的。

除了論文和代碼,研究團(tuán)隊(duì)還部署了可以直接對(duì)話的demo供大家測(cè)試,好文明!

圖片

Demo地址:https://wikichat.genie.stanford.edu/

于是小編迫不及待地要試一試WikiChat的實(shí)力。

WikiChat首先進(jìn)行了自我介紹,表示自己會(huì)記錄對(duì)話用于研究,

另外,WikiChat有以下三種模式:

圖片

默認(rèn)狀態(tài)是平衡輸出速度和準(zhǔn)確性,我們可以在右邊的設(shè)置中調(diào)節(jié)。

WikiChat還額外添加了TTS功能,輸出是個(gè)溫柔的女聲。

好了,讓我們趕緊「Ask her about anything on Wikipedia」!

——開個(gè)玩笑,既然你不會(huì)中文,那小編這點(diǎn)英文水平,只能獻(xiàn)丑了......

(注意上面的這句中文不要點(diǎn)擊語(yǔ)音輸出,有可能導(dǎo)致整個(gè)聊天卡住無(wú)法恢復(fù))

下面,我們首先問一個(gè)常識(shí)性問題:Sam Altman是OpenAI的CEO嗎?

其實(shí)小編想測(cè)試她知不知道Altman被開除,然后又王者歸來(lái)這件事,

不過這一句「在2020年離開YC,全職加入OpenAI」,貌似就有事實(shí)性的錯(cuò)誤。

小編接下來(lái)使用游戲信息進(jìn)行測(cè)試:介紹一下「原神」中的「宵宮」。

這個(gè)回答確實(shí)沒什么問題,卡池時(shí)間和配音演員也正確,

既然提到了配音演員,那順便問一下中文CV是誰(shuí):

這......不知道她為什么產(chǎn)生了這樣的幻覺?實(shí)際上維基百科中是有相關(guān)信息的:

那我們提醒她反思一下:

好家伙,給出了另一個(gè)錯(cuò)誤答案,小編想了一下,應(yīng)該說(shuō)的是游戲中另一位角色的CV(負(fù)責(zé)《神女劈觀》中的戲腔部分,知名度較高)。

那么測(cè)試一下,知名度比較高的角色。

小編選擇了在維基百科上有單獨(dú)條目的雷電將軍:

這下連卡池時(shí)間都有事實(shí)性錯(cuò)誤,——而維基百科中的相關(guān)描述是沒有問題的。

WikiChat對(duì)于自己一直心心念念的配音演員,倒是沒有回答錯(cuò)誤。

小編于是不死心地又測(cè)試了一遍之前的問題:

WikiChat也是不死心地給出了和之前同樣的回答,并且在要求反思之后,變成了「道歉機(jī)器人」。

把模式調(diào)整到事實(shí)性優(yōu)先:

WikiChat給出回答的速度要慢了很多,但還是只能道歉。

小編于是換了另一位有單獨(dú)百科條目的角色:

除了第一句,后面就開始滿嘴跑火車了。

最后,來(lái)問一下配音演員的問題(維基百科的單獨(dú)條目中包含此信息):

......你這個(gè)聊天機(jī)器人是什么情況,認(rèn)準(zhǔn)了Juhuahua了是嗎?

測(cè)試到此結(jié)束,小編不知如何總結(jié),有可能是我的問題有問題吧。

比如我問題的相關(guān)信息,在英語(yǔ)維基百科的語(yǔ)料中重要性很小。

不論如何,WikiChat在一些問題上的表現(xiàn)確實(shí)還不錯(cuò),比如宵宮那個(gè)問題,換成ChatGPT,就幾乎沒有任何沾邊的事實(shí)。

這說(shuō)明研究人員確實(shí)采取了一些有效的優(yōu)化方法,來(lái)解決LLM的幻覺問題。

WikiChat架構(gòu)

這項(xiàng)工作的事實(shí)性基礎(chǔ)是信息檢索(IR),它基于聊天機(jī)器人的響應(yīng)、以及從可信語(yǔ)料庫(kù)中檢索到的信息,然后生成方法利用檢索到的數(shù)據(jù)生成響應(yīng)。

上圖展示了WikiChat的組件,以及一段示例對(duì)話(關(guān)于即將上映的電影)。

生成響應(yīng)所采取的步驟包括:

1. 生成從維基百科檢索的查詢,

2. 總結(jié)和過濾檢索到的段落,

3. 從LLM生成響應(yīng),

4. 從LLM響應(yīng)中提取聲明,

5. 使用檢索到的證據(jù)對(duì)LLM響應(yīng)中的聲明進(jìn)行事實(shí)核查,

6. 起草響應(yīng),

7. 完善響應(yīng)。

研究人員使用用戶話語(yǔ)來(lái)檢索LLM可能不知道的信息,要求LLM做出回應(yīng),并對(duì)其進(jìn)行事實(shí)檢查。

阻止LLM產(chǎn)生幻覺并不容易。一般情況下,當(dāng)IR沒有檢索到任何相關(guān)信息,或知識(shí)語(yǔ)料庫(kù)中沒有相關(guān)信息時(shí),LLM會(huì)產(chǎn)生幻覺來(lái)彌補(bǔ)不足。

因此,WikiChat會(huì)匯總和過濾檢索到的信息,而不是直接生成響應(yīng)。

這里分別對(duì)LLM生成的每個(gè)聲明進(jìn)行事實(shí)核查,并在必要時(shí)教系統(tǒng)說(shuō)「我不知道」。

教LLM理解時(shí)間背景:例如,文章中的將來(lái)時(shí)態(tài)可能是指對(duì)話時(shí)的過去事件。

最重要的是,不能通過放棄這些必要的步驟來(lái)過早地優(yōu)化速度,而是依靠模型蒸餾來(lái)減少延遲,直到達(dá)到高質(zhì)量。

上圖中管道的每個(gè)階段都是使用上下文學(xué)習(xí)實(shí)現(xiàn)的。

生成的管道不特定于任何語(yǔ)料庫(kù)。雖然本文將管道應(yīng)用于維基百科以創(chuàng)建WikiChat,但它適用于任何自由文本語(yǔ)料庫(kù),包括個(gè)人和公司機(jī)密信息。

該管道也不特定于任何LLM,作者在本文中將其應(yīng)用于三個(gè)不同的LLM。

策劃正確且與對(duì)話上下文相關(guān)的信息

LLM能夠解釋用戶話語(yǔ),制定檢索范圍之外的響應(yīng),或者需要聚合來(lái)自多個(gè)來(lái)源的信息或得出結(jié)論,比如:

用戶:你認(rèn)為蘋果會(huì)繼續(xù)成為科技行業(yè)的重要參與者嗎?

GPT-4:是的,......蘋果擁有良好的創(chuàng)新記錄、忠實(shí)的客戶群和穩(wěn)健的財(cái)務(wù)狀況。全球市值最高的公司,市值超過2萬(wàn)億美元。繼續(xù)探索增強(qiáng)現(xiàn)實(shí)、人工智能、自動(dòng)駕駛汽車等新技術(shù)。這將幫助他們?cè)诟?jìng)爭(zhēng)中保持領(lǐng)先地位。

但我們不能完全相信LLM,而是需要對(duì)它們的輸出進(jìn)行事實(shí)檢查。此外,LLM不知道最近發(fā)生的事件。

在與用戶的對(duì)話中,WikiChat會(huì)識(shí)別何時(shí)需要訪問外部信息。這可能是因?yàn)樽詈笠粋€(gè)用戶話語(yǔ)包含直接問題(例如「斯蒂芬·庫(kù)里是誰(shuí)?」),或者需要其他信息才能做出全面的回答(例如「我真的很喜歡斯蒂芬·庫(kù)里」)。

第1階段,WikiChat生成一個(gè)搜索查詢,該查詢通過提示捕獲用戶的興趣(如下圖所示)。作者發(fā)現(xiàn),現(xiàn)有的系統(tǒng)尤其難以適應(yīng)時(shí)間環(huán)境。

WikiChat在查詢旁邊生成用戶需求的推斷時(shí)間。查詢時(shí)間可以是最近、year=yyyy或none之一,分別表示檢索到的信息應(yīng)盡可能近、特定年份或時(shí)間不重要。

將查詢發(fā)送到信息檢索系統(tǒng),從語(yǔ)料庫(kù)中獲取相關(guān)段落,并根據(jù)時(shí)態(tài)信息對(duì)排名靠前的結(jié)果進(jìn)行重新排序,得到Npassages。

第2階段,由于這些段落可能包含相關(guān)和不相關(guān)部分的混合,WikiChat會(huì)提取檢索到的段落的相關(guān)部分,并將它們總結(jié)為要點(diǎn),同時(shí)過濾掉不相關(guān)的部分(如下圖所示)。

第3階段,提示LLM生成對(duì)對(duì)話歷史記錄的響應(yīng)。這種回應(yīng)通常包含有趣且相關(guān)的知識(shí),但本質(zhì)上是不可靠的。

第4階段,LLM響應(yīng)被分解為多種聲明(如下圖),此階段解析共同引用以減少歧義,并解析相對(duì)時(shí)間信息(如「當(dāng)前」和「去年」),以使所有聲明自包含。

然后使用IR從知識(shí)語(yǔ)料庫(kù)中檢索Nevidence段落,以便每個(gè)聲明作為證據(jù),并使用基于時(shí)間的重新排名來(lái)更好地處理時(shí)間敏感的主題。

第5階段,驗(yàn)證提示(如下圖)使用思維鏈提示,將每個(gè)聲明分配給以下三類之一:檢索到的證據(jù)是否支持該聲明、反駁該聲明,或者證據(jù)中是否沒有足夠的信息來(lái)做出此決定。只有有證據(jù)支持的主張才會(huì)被保留。

使用收集到的信息來(lái)形成響應(yīng)

實(shí)驗(yàn)表明,在滿足所有會(huì)話標(biāo)準(zhǔn)的情況下一次性編寫最終響應(yīng),對(duì)于上下文學(xué)習(xí)具有挑戰(zhàn)性,尤其是有限的上下文長(zhǎng)度,使得很難提供足夠的多輪對(duì)話,作為少量示例來(lái)涵蓋所有必要的方面。因此,這里采用兩步法:

第6階段,WikiChat根據(jù)給定的要點(diǎn)列表和對(duì)話歷史記錄生成響應(yīng)草稿。

第7階段,生成反饋并進(jìn)行優(yōu)化——基于相關(guān)性、自然性、非重復(fù)性和時(shí)間正確性的響應(yīng)。

反饋包含模型對(duì)每個(gè)標(biāo)準(zhǔn)的推理,以及每個(gè)標(biāo)準(zhǔn)的分?jǐn)?shù)介于0到100之間,細(xì)化以此反饋為條件。

改進(jìn)是以這種反饋和分?jǐn)?shù)為條件的,作為一個(gè)思維鏈。

最后,我們來(lái)看一下WikiChat的效果:

上表展示了WikiChat的評(píng)估結(jié)果和模擬對(duì)話的基線。事實(shí)和時(shí)間準(zhǔn)確性是百分比,其他指標(biāo)是介于1和5之間的整數(shù)的平均值。

事實(shí)準(zhǔn)確性來(lái)自人類評(píng)估,其他指標(biāo)來(lái)自小樣本GPT-4。所有指標(biāo)都是越高越好。


責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-11-15 09:23:00

模型AI

2024-01-29 12:49:00

AI模型

2023-10-14 13:09:53

谷歌模型

2023-10-14 17:24:49

2023-03-15 10:35:16

GPTAI

2024-11-26 08:42:14

2025-03-12 10:38:05

2023-11-20 21:56:04

AI推理

2023-06-05 15:44:15

GPT-4AI

2023-10-12 14:18:06

2024-01-15 06:27:00

AI工具

2023-09-19 14:56:00

模型訓(xùn)練

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2023-09-21 12:31:54

AI數(shù)據(jù)

2013-10-30 16:54:46

維基百科維基百科的衰落

2024-04-07 13:40:20

2023-09-19 09:20:16

2024-09-02 09:25:00

AI研究

2024-05-27 13:42:00

2024-04-09 15:16:58

AI論文
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)