Percy Liang等人新研究:新必應(yīng)等生成式搜索引擎可能沒(méi)那么好用
生成式搜索引擎通過(guò)直接生成對(duì)輸入查詢的回應(yīng)以及在線引用來(lái)滿足用戶的信息需求(如下圖 1)。現(xiàn)有的生成式搜索引擎正在迅速獲得用戶,微軟報(bào)告說(shuō) "大約三分之一的每日預(yù)覽用戶每天都在使用 Bing 聊天",Bing 聊天在其公開(kāi)預(yù)覽的第一個(gè)月提供了 4500 萬(wàn)次聊天。
生成式搜索引擎有可能改變?nèi)藗冊(cè)诰W(wǎng)上尋找信息的方式,但目前基于大語(yǔ)言模型的生成式搜索引擎生成的回復(fù)可能并不是準(zhǔn)確的。但是鑒于它們的潛力和快速?gòu)V泛的應(yīng)用,評(píng)估這些系統(tǒng)并更好地了解其潛在的局限性是至關(guān)重要的。
生成式搜索引擎一個(gè)值得信賴的先決條件是其可驗(yàn)證性,每個(gè)生成的關(guān)于外部世界的描述都應(yīng)該得到一組相關(guān)聯(lián)引用的充分支持,而且每個(gè)引文都應(yīng)該支持根據(jù)其生成的相關(guān)描述??沈?yàn)證性使讀者能夠輕松地檢查任何生成的描述是否得到其引用來(lái)源的支持。
研究者通過(guò)人工評(píng)估來(lái)審核四個(gè)流行的商業(yè)生成式搜索引擎(Bing Chat、NeevaAI、perplexity.ai 和 YouChat),讓它們完成一組信息查找任務(wù)(例如,來(lái)自 NaturalQuestions 的各種類型的歷史谷歌用戶查詢,來(lái)自 Reddit 的動(dòng)態(tài)收集的開(kāi)放式問(wèn)題;例子見(jiàn)表 1)。
對(duì)于每個(gè)查詢 - 回答對(duì),研究者以人工評(píng)價(jià)來(lái)衡量下面幾種維度:
1. 流暢性(生成的文本是否流暢和連貫);
2. 感知效用(生成的回應(yīng)是否對(duì)查詢有幫助,信息量是否充足);
3. 引文召回率(生成的關(guān)于外部世界的陳述中,完全由其引文支持的比例);
4. 引文精確度(生成的支持其相關(guān)陳述的引文比例)。
一個(gè)值得信賴的生成式搜索引擎應(yīng)該達(dá)到較高的引文召回率和精確度,表明其生成的引文是全面的(每個(gè)生成的描述都有引文的充分支持)和正確的(每個(gè)引文都支持其相關(guān)描述)。
研究人員發(fā)現(xiàn),現(xiàn)有的生成式搜索引擎響應(yīng)通常具有很高的流暢性以及明顯的感知效用,但經(jīng)?;貜?fù)無(wú)支持的陳述或包含不準(zhǔn)確的引用(低引用召回率和精確度)。平均來(lái)說(shuō),在生成句子中僅有 51.5% 有完整的引文支持(引文召回率),只有 74.5% 的引文支持其相關(guān)句子(引文精確率)。
此外,引文召回率和精確度與流暢性和感知效用成反比 —— 看起來(lái)更有幫助的回應(yīng)往往是那些沒(méi)有支持的描述或包含不準(zhǔn)確的引文的回應(yīng)。這種可信度的表象增加了現(xiàn)有生成式搜索引擎誤導(dǎo)用戶的可能性。在圖 1 的例子中,一個(gè)對(duì)詹姆斯 - 韋伯太空望遠(yuǎn)鏡沒(méi)有什么背景知識(shí)的用戶很可能很難識(shí)別生成的回復(fù)中并沒(méi)有支持它的描述。
研究者假設(shè)這種逆向關(guān)聯(lián)的發(fā)生是因?yàn)橐恍┥墒剿阉饕娼?jīng)常復(fù)制或改寫(xiě)它們引用的網(wǎng)頁(yè)。雖然這樣的系統(tǒng)取得了較高的引用召回率和精確度,但是一些復(fù)制的語(yǔ)句可能與用戶的問(wèn)題或生成的回復(fù)的其余部分無(wú)關(guān),導(dǎo)致回復(fù)的流暢性和感知效用指標(biāo)下降。
對(duì)流暢性、感知效用和可驗(yàn)證性的人工評(píng)價(jià)
衡量流暢性和感知效用
為了測(cè)量響應(yīng)的流暢性,研究人員向標(biāo)注人員展示了用戶查詢、生成的回應(yīng)并聲稱 "這些回應(yīng)是流暢的、連貫的"。他們還要求標(biāo)注人員在從 "非常不同意" 到 "非常同意" 的五點(diǎn)李克特量表上評(píng)定他們對(duì)該回應(yīng)的認(rèn)可程度。使用類似的過(guò)程來(lái)衡量感知效用,要求測(cè)試者評(píng)估他們對(duì) “響應(yīng)是對(duì)查詢的有用且信息豐富的回答” 這一說(shuō)法的同意程度。
計(jì)算引文召回率
引文召回率是指完全被相關(guān)引文所支持的、值得驗(yàn)證的陳述的比例(見(jiàn)下圖 2 的例子)。因此,計(jì)算引文召回率需要:
(1)確定回復(fù)中值得驗(yàn)證的陳述;
(2)評(píng)估每個(gè)值得驗(yàn)證的陳述是否有其相關(guān)引文的充分支持。
計(jì)算引用精確率
引用精確率是指在生成的所有引文中支持其相關(guān)陳述的比例(見(jiàn)圖 2 中的例子)。與召回率不同,引文精確率的概念在于獎(jiǎng)勵(lì)系統(tǒng)準(zhǔn)確引用的能力。如果一個(gè)生成的陳述引用了互聯(lián)網(wǎng)上的每個(gè)網(wǎng)頁(yè),那么引文召回率可能會(huì)很高,但是引文精確率會(huì)很低(因?yàn)楹芏辔恼率遣幌嚓P(guān)的,不支持其相關(guān)的陳述)。為了衡量回應(yīng) r 的引用精確率,研究者們給標(biāo)注人員判斷每個(gè)引用 c_i,k 是否支持其相關(guān)陳述 s_i 提供了以下三個(gè)標(biāo)準(zhǔn)(例子見(jiàn)圖 1 中引用的網(wǎng)頁(yè)):
- 完全支持:陳述中的所有信息都得到了引文的支持。
- 部分支持:陳述中的一些信息得到了引文的支持,但其他部分沒(méi)有得到支持(例如,缺失或矛盾)。
- 沒(méi)有支持:引文不支持陳述的任何部分(例如,引用的網(wǎng)頁(yè)完全不相關(guān)或矛盾)。
結(jié)果和分析
流暢性和感知效用
幾個(gè)生成式搜索引擎生成的回復(fù)看起來(lái)是流暢的并且很有幫助。下表 3 顯示了這些搜索引擎對(duì)每個(gè)查詢分布的回復(fù)的流暢性。
表 4 展示了它們的感知效用。
引文召回率和精確度
表 5 是生成性搜索引擎在所評(píng)估的查詢分布中的引文召回率的相關(guān)數(shù)據(jù)。
下表 6 是搜索引擎在所評(píng)估的查詢分布中關(guān)于引文精確率的實(shí)驗(yàn)數(shù)據(jù)。
現(xiàn)有的生成式搜索引擎往往不能很正確地對(duì)引文進(jìn)行引用。當(dāng)對(duì)所有系統(tǒng)進(jìn)行平均計(jì)算時(shí),只有 51.5% 的生成語(yǔ)句得到了引文的完整的支持(召回率),只有 74.5% 的引文完全支持其相關(guān)語(yǔ)句(精確度)。雖然生成的回答往往顯得信息量大且有用,但研究人員認(rèn)為這些結(jié)果對(duì)于已經(jīng)擁有數(shù)百萬(wàn)用戶并正在迅速成為回答用戶查詢的主要工具的系統(tǒng)來(lái)說(shuō)是不能接受的。
比較不同生成式搜索引擎之間的引文召回率和精確度,它們的引文召回率和精確率有很大的不同。平均而言,perplexity.ai 實(shí)現(xiàn)了最高的平均召回率(68.7),而其他三者的成績(jī)分別是:NeevaAI(67.6)、Bing Chat(58.7)、YouChat(11.1)。
從精確率來(lái)比較,Bing Chat 實(shí)現(xiàn)了最高的精確率(89.5),其次是 perplexity.ai(72.7)、NeevaAI(72.0)和 YouChat(63.6)。
可以得出,召回率最高和最低的系統(tǒng)之間有近 58% 的差距(perplexity.ai vs. YouChat),而精確率最高和最低的系統(tǒng)之間的差距近 25%(Bing Chat vs. YouChat)。
比較搜索引擎之間的不同查詢分布的引文召回率。修改評(píng)價(jià)查詢分布似乎比改變引用精確率更能影響引用召回率。例如,有長(zhǎng)答案的 NaturalQuestions 查詢與非 NaturalQuestions 查詢之間的引用召回率差距接近 11%(分別為 58.5 與 47.8)。同樣,有短答案的 NaturalQuestions 查詢和無(wú)短答案的 NaturalQuestions 查詢之間的引用召回率差距接近 10%(有短答案的查詢?yōu)?63.4,只有長(zhǎng)答案的查詢?yōu)?53.6,沒(méi)有長(zhǎng)或短答案的查詢?yōu)?53.4)。
研究者假設(shè)引文召回率是由檢索到的網(wǎng)頁(yè)的相關(guān)性驅(qū)動(dòng)的。在沒(méi)有檢索到直接回答用戶查詢的證據(jù)的情況下,系統(tǒng)會(huì)產(chǎn)生沒(méi)有引文證明的陳述,從而導(dǎo)致較低的召回率。例如,當(dāng)對(duì)開(kāi)放式的 AllSouls 論文問(wèn)題進(jìn)行評(píng)估時(shí),生成式搜索引擎的引文召回率很低(平均召回率為 44.3),因?yàn)檫@些查詢通常在互聯(lián)網(wǎng)上沒(méi)有可提取的答案。
比較不同查詢分布的引文精確率,有長(zhǎng)答案的 NaturalQuestions 查詢的精確率高于非 NaturalQuestions 分布(76.1 vs. 72.3)。在考察單個(gè)查詢分布的結(jié)果時(shí),當(dāng)對(duì)帶有段落答案類型的 NaturalQuestions 查詢進(jìn)行評(píng)估時(shí),生成式搜索引擎的精確率最高(當(dāng)存在短答案時(shí),精確率為 81.5,當(dāng)只存在長(zhǎng)答案時(shí),精確度為 78.7)。另一方面,當(dāng)對(duì) AllSouls 開(kāi)放式論文問(wèn)題(67.8)和 davinci-debate 查詢(70.3)進(jìn)行系統(tǒng)評(píng)估時(shí),引文精確率是最低的。在 NaturalQuestions 子分布之間進(jìn)行比較,有短答案的查詢的平均系統(tǒng)精確率(77.4)高于只有長(zhǎng)答案(74.8)或沒(méi)有長(zhǎng)答案(73.5)的查詢。
為了總結(jié)人工評(píng)估結(jié)果,表 7 列出了被評(píng)估系統(tǒng)的平均引文 F_1。圖 3 顯示了平均感知效用與平均引用 F_1 的對(duì)比。
現(xiàn)有的搜索引擎系統(tǒng)在引文召回率、引文精確率和感知效用之間都做了不同的權(quán)衡。
引文召回率和精率與精確率流暢性和感知效用成反比
研究者通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在現(xiàn)有的生成式搜索引擎中,引文召回率和精確率與流暢性和感知效用成反比。計(jì)算引文召回率和精確率與流暢性和感知效用之間的皮爾遜相關(guān)系數(shù),發(fā)現(xiàn)兩者呈強(qiáng)負(fù)相關(guān),特別是精確率顯示出更強(qiáng)的趨勢(shì)(表 8)。
例如,Bing Chat 達(dá)到了最高的精確度,但其流暢度和感知效用卻最低。相比之下,YouChat 的召回率和精確度最低,但它的回答得到了最高的流暢性和感知效用評(píng)價(jià)。
生成式搜索引擎經(jīng)常復(fù)制或輕微改寫(xiě)被引用網(wǎng)頁(yè)的內(nèi)容
下表 9 列出了生成的陳述和從支持的網(wǎng)頁(yè)中提取的證據(jù)之間的相似度指標(biāo),當(dāng)搜索引擎做出的陳述完全或部分得到其引文的支持時(shí),它們往往直接從其引用的文章中復(fù)制或改寫(xiě)轉(zhuǎn)述。