自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

和谷歌搜索搶活,F(xiàn)RESHLLM「緊跟時(shí)事」,幻覺更少,信息更準(zhǔn)

人工智能 新聞
在一篇最新的論文中,來自谷歌、馬薩諸塞大學(xué)阿默斯特分校、OpenAI 的研究者發(fā)現(xiàn),Perplexity 和 GPT-4 w/prompting 的性能優(yōu)于谷歌搜索。

大型語言模型的能力有目共睹,如 BARD 和 CHATGPT/GPT-4,被設(shè)計(jì)成多功能開放域聊天機(jī)器人,可以就不同主題進(jìn)行多輪對話。它們能夠幫助人們完成諸多任務(wù),但這并不代表它們是萬能的。

「幻覺」與過時(shí)的信息降低了這些大模型回復(fù)的可信度。尤其對于需要信息實(shí)時(shí)更新的領(lǐng)域(如公司股價(jià))而言,這更是嚴(yán)重。

與 GPT-4 對話過程中,會發(fā)現(xiàn)它的信息更新有限制

這種現(xiàn)象可部分歸因于其參數(shù)中存在編碼的過時(shí)知識。雖然利用人類反饋或知識增強(qiáng)任務(wù)進(jìn)行額外訓(xùn)練可以緩解這一問題,這種方法并不容易推廣。另外,上下文學(xué)習(xí)是一種有吸引力的替代方法,可將實(shí)時(shí)知識注入 LLM 的提示中以生成條件。雖然近期的一些研究已經(jīng)開始探索利用網(wǎng)絡(luò)搜索結(jié)果來增強(qiáng) LLM,但如何充分利用搜索引擎的輸出來提高 LLM 的事實(shí)性尚不清楚。

在一篇最新的論文中,來自谷歌、馬薩諸塞大學(xué)阿默斯特分校、OpenAI 的研究者發(fā)現(xiàn),Perplexity 和 GPT-4 w/prompting 的性能優(yōu)于谷歌搜索。同時(shí),越來越多的非科技人員在搜索查詢時(shí)使用 Perplexity 而不是其他 LLM。那么谷歌搜索真的會被 LLM 取代嗎?

有網(wǎng)友表示,雖然在簡單問題上,LLM 的表現(xiàn)更好,但是對于大模型的「幻覺」問題依然保持謹(jǐn)慎態(tài)度他們使用谷歌搜索驗(yàn)證大模型的回復(fù)。

其實(shí),研究者也致力于解決大模型知識過時(shí)的問題。接下來,我們一起看看他們的成果。

論文地址:https://arxiv.org/pdf/2310.03214.pdf

FRESHQA 數(shù)據(jù)集

在這項(xiàng)工作中,研究者先是創(chuàng)建了一個名為「FRESHQA」的新型質(zhì)量保證基準(zhǔn),用于評估現(xiàn)有 LLM 生成內(nèi)容的事實(shí)性。FRESHQA 包含 600 個自然問題,大致分為圖 1 所示的四大類。這些問題跨越了一系列不同的主題,具有不同的難度級別,并要求模型「理解」世界上的最新知識,以便能夠正確回答。

此外,F(xiàn)RESHQA 還具有動態(tài)性:一些 ground-truth 答案可能會隨著時(shí)間的推移而改變,被歸入特定類別的問題可能會在以后的某個時(shí)間點(diǎn)被重新分類。就比如,「馬斯克與現(xiàn)任配偶結(jié)婚多久了?」在當(dāng)前是一個虛假推理問題,但如果馬斯克在未來再次結(jié)婚,該問題被歸入的類別就需要變一變了。

研究者招募了一些 NLP 研究人員(包括作者及其同事)和線上自由撰稿人來收集 FRESHQA 的數(shù)據(jù)。在四類問題中的每一類中,都要求注釋者撰寫兩種不同難度的問題:一跳(one-hop),即問題明確提到了回答該問題所需的所有相關(guān)信息,因此不需要額外的推理(例如,誰是 Twitter 的首席執(zhí)行官);多跳(multi-hop),即問題需要一個或多個額外的推理步驟才能收集到回答該問題所需的所有相關(guān)信息(例如,世界上最高建筑的總高度是多少?)

研究者通過向不同的 LLM 提出問題和一些問答示范,然后對其回答進(jìn)行采樣,以此來衡量它們在 FRESHQA 上的表現(xiàn),然后對模型回答的事實(shí)準(zhǔn)確性進(jìn)行了廣泛的人工評估,包括超過 50K 個判斷。此處采用雙模式評估程序?qū)γ總€回答進(jìn)行評估:「RELAXED」模式只衡量主要答案是否正確,「STRICT」模式則衡量回答中的所有說法是否都是最新的事實(shí)(即沒有幻覺)。

這個評估過程揭示了新舊 LLM 的事實(shí)性,并揭示了不同問題類型帶來的不同模型行為。不出所料,在涉及快速變化知識的問題上,會出現(xiàn)平坦的縮放曲線:簡單地增加模型大小并不能帶來可靠的性能提升。在假前提問題上,他們也觀察到了類似的趨勢。不過,如果明確詢問「請?jiān)诨卮鹎皺z查問題是否包含有效前提」,一些 LLM 就能夠揭穿假前提問題。

總體來說,F(xiàn)RESHQA 對當(dāng)前的 LLM 來說確實(shí)是一個挑戰(zhàn),指出了很大的改進(jìn)空間。

提示搜索引擎增強(qiáng)的語言模型

受到上述探索的啟發(fā),研究者進(jìn)一步研究了如何通過將搜索引擎提供的準(zhǔn)確和最新信息作為 LLM 響應(yīng)的基礎(chǔ),有效提高 LLM 的事實(shí)性。鑒于大型 LLMS 的快速發(fā)展和知識不斷變化的性質(zhì),研究者探索了上下文學(xué)習(xí)方法,使 LLM 能夠通過其提示關(guān)注推理時(shí)提供的知識。

隨后,研究者評估了 LLM 搜索引擎增強(qiáng)對 FRESHQA 的影響,并提出了一種簡單的少樣本提示方法 FRESHPROMPT。該方法通過將檢索自搜索引擎(谷歌搜索)的最新相關(guān)信息整合到提示中,極大地提升了 LLM 的 FRESHQA 性能。

下圖 3 為 FRESHPROMPT 的格式。

圖片

FRESHPROMPT 方法

FRESHPROMPT 方法利用一個文本提示來將來自搜索引擎的上下文相關(guān)的最新信息(包括相關(guān)問題的答案)引入到一個預(yù)訓(xùn)練 LLM,并教導(dǎo)該模型對檢索到的證據(jù)進(jìn)行推理。

更具體來講,給定一個問題 q,研究者首先逐字地使用 q 來查詢搜索引擎,這里是谷歌搜索。他們檢索了所有搜索結(jié)果,包括答案框、自然結(jié)果和其他有用的信息(如知識圖譜、眾包 QA 平臺上的問答)、以及搜索用戶問的相關(guān)問題。示例如下圖 6 所示。

對于每個這樣的結(jié)果,研究者提取了相關(guān)的文本片段 x 以及其他的信息,比如來源 s(如維基百科)、日期 d、標(biāo)題 t 和高亮文字 h,然后創(chuàng)建包含 k 個檢索到的證據(jù)的列表 E = {(s, d, t, x, h)}。接下來這些證據(jù)將轉(zhuǎn)換成常見的格式(如上圖 3 左),并通過上下文內(nèi)學(xué)習(xí)來調(diào)整模型。此外為了鼓勵模型基于最近的結(jié)果來專注于較新的證據(jù),研究者從舊到新對提示中的證據(jù) E 進(jìn)行排序。

為了幫助模型來理解任務(wù)和預(yù)期的輸出,研究者在輸入提示的開頭提供了輸入輸出示例的少樣本演示。每個演示首先為模型提供一個問題示例以及該問題的一組檢索到的證據(jù),然后對證據(jù)進(jìn)行思維鏈推理以找到最相關(guān)、最新的答案(如上圖 3 右)。

盡管研究者在演示中包含了少數(shù)帶有錯誤前提的問題示例,但也嘗試了在提示中進(jìn)行顯式錯誤前提檢查,比如「請?jiān)诨卮鹎皺z查問題中是否包含有效前提」。下圖 7 展示了一個真實(shí)的提示。

實(shí)驗(yàn)設(shè)置

對于 FRESHPROMPT 設(shè)置,研究者通過將檢索到的證據(jù)整合到輸入提示中,依次將 FRESHPROMPT 應(yīng)用于 GPT-3.5 和 GPT-4 中。這些證據(jù)包括了自然搜索結(jié)果 0、搜索用戶問的相關(guān)問題 r、來自眾包 QA 平臺上的問答 a 以及來自知識圖譜和答案框的文本片段(如有)??紤]到模型上下文的限制,他們在根據(jù)相應(yīng)日期排序后僅保留前 n 個證據(jù)(更靠近提示末尾)。

除非另有說明,研究者針對 GPT-3.5 使用了 (o, r, a, n,m) = (10, 2, 2, 5),針對 GPT-4 使用了 (o, r, a, n,m) = (10, 3, 3, 10)。此外,他們在提示的開頭包含了 m = 5 個問答演示。

實(shí)驗(yàn)結(jié)果

FRESHPROMPT 顯著提升了 FRESHQA 的準(zhǔn)確性。下表 1 展示了 STRICT 模式下的具體數(shù)字??梢钥吹?,相對于原始 GPT-3.5 和 GPT-4,F(xiàn)RESHPROMP 實(shí)現(xiàn)了全方位的重大改進(jìn)。

其中,GPT-4 + FRESHPROMPT 在 STRICT 和 RELAXED 模式下分別較 GPT-4 實(shí)現(xiàn)了 47% 和 31.4% 的絕對準(zhǔn)確率提升。STRICT 和 RELAXED 之間絕對準(zhǔn)確率差距的縮?。◤?17.8% 到 2.2%)也表明,F(xiàn)RESHPROMP 可以極大地減少過時(shí)和幻覺答案的出現(xiàn)。

此外,GPT-3.5 和 GPT-4 最顯著的改進(jìn)是在快速和緩慢變化的問題類別,這些問題涉及最新知識。這意味著,關(guān)于舊知識的問題也受益于 FRESHPROMPT。比如在 STRICT 模式下,對于包含 2022 年以前知識的有效前提的問題,GPT-4 + FRESHPROMPT 的準(zhǔn)確率比 GPT-4 高了 30.5%;在 RELAXED 模式下這一數(shù)字是 9.9%。

此外,F(xiàn)RESHPROMPT 在假前提問題上也取得了顯著的進(jìn)步,GPT-4 在 STRICT 和 RELAXED 模式下的準(zhǔn)確率分別提升了 37.1% 和 8.1%。

圖片

此外,F(xiàn)RESHPROMPT 還展示出了以下結(jié)果:

  • 大幅度優(yōu)于其他搜索增強(qiáng)方法;
  • 前提檢查增強(qiáng)了假前提問題的準(zhǔn)確率,但會損害具有有效前提的問題的準(zhǔn)確率;
  • 在輸入上下文的末尾提供更多最新的相關(guān)證據(jù)是有幫助的;
  • 自然搜索結(jié)果之外檢索到的其他信息提供了進(jìn)一步增益;
  • 檢索到的證據(jù)越多會進(jìn)一步提升 FRESHPROMPT;
  • 冗長的演示有助于回答復(fù)雜的問題,但也會增加幻覺。

研究者表示,他們目前僅針對每個問題進(jìn)行一次搜索查詢,因此可以通過問題分解和多個搜索查詢來進(jìn)一步實(shí)現(xiàn)提升。此外,由于 FRESHQA 包含的是相對簡單的英語問題,因此不清楚在多語言 / 跨語言 QA 和長格式 QA 上下文中的表現(xiàn)如何。最后 FRESHPROMPT 依賴上下文內(nèi)學(xué)習(xí),因此可能不如根據(jù)新知識來微調(diào)基礎(chǔ) LLM 的方法。

更多技術(shù)細(xì)節(jié),請參閱原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-28 08:20:00

2024-04-11 10:00:00

云計(jì)算芯片

2011-01-28 15:06:40

沃森人機(jī)大戰(zhàn)

2023-02-06 18:06:05

生物性ChatGPT金融圈

2022-11-18 12:06:48

App接口搜索

2016-01-31 16:49:42

漏洞Galaxy

2024-02-26 09:36:45

SoraOpen AIAPI

2023-12-10 15:15:18

開源模型工具

2022-10-26 13:36:59

模型計(jì)算

2016-05-16 14:21:39

VR谷歌

2022-11-02 18:33:09

谷歌Chrome瀏覽器

2020-07-25 22:00:15

谷歌TikTok開發(fā)者

2025-01-06 07:40:00

AI訓(xùn)練數(shù)據(jù)

2012-07-03 09:59:03

程序員

2012-05-15 09:26:09

Google測試

2025-02-03 10:04:47

擴(kuò)散模型數(shù)據(jù)分布

2024-01-18 11:20:08

2013-10-09 10:07:06

谷歌AndroidiPhone

2015-02-11 10:48:33

谷歌

2009-08-27 09:53:30

谷歌搜索LinuxLinux操作系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號