四款「ChatGPT搜索」全面對(duì)比!斯坦福華人博士純手工標(biāo)注:新必應(yīng)流暢度最低,近一半句子都沒(méi)引用
ChatGPT發(fā)布后不久,微軟成功上車(chē)發(fā)布「新必應(yīng)」,不僅股價(jià)大漲,甚至還大有取代谷歌,開(kāi)啟搜索引擎新時(shí)代的架勢(shì)。
不過(guò)新必應(yīng)真是大型語(yǔ)言模型的正確玩法嗎?生成的答案真的對(duì)用戶有用嗎?句子里標(biāo)的引文可信度有多少?
最近,斯坦福的研究人員從不同的來(lái)源收集了大量的用戶查詢(xún),對(duì)當(dāng)下四個(gè)大火的生成性搜索引擎,新必應(yīng)(Bing Chat),NeevaAI,perplexity.ai和 YouChat進(jìn)行了人工評(píng)估。
論文鏈接:https://arxiv.org/pdf/2304.09848.pdf
實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),來(lái)自現(xiàn)有生成搜索引擎的回復(fù)流暢且信息量大,但經(jīng)常包含沒(méi)有證據(jù)的陳述和不準(zhǔn)確的引用。
平均來(lái)說(shuō),只有51.5%的引用可以完全支撐生成的句子,只有74.5% 的引用可以作為相關(guān)句子的證據(jù)支持。
研究人員認(rèn)為,對(duì)于那些可能成為信息搜尋用戶主要工具的系統(tǒng)來(lái)說(shuō),這個(gè)結(jié)果實(shí)在是過(guò)低了,特別是考慮到有些句子只是貌似可信的話,生成式搜索引擎仍然需要進(jìn)一步優(yōu)化。
個(gè)人主頁(yè):https://cs.stanford.edu/~nfliu/
第一作者Nelson Liu是斯坦福大學(xué)自然語(yǔ)言處理組的四年級(jí)博士生,導(dǎo)師為Percy Liang,本科畢業(yè)于華盛頓大學(xué),主要研究方向?yàn)闃?gòu)建實(shí)用的NLP系統(tǒng),尤其是用于信息查找的應(yīng)用程序。
別輕信生成式搜索引擎
2023年3月,微軟報(bào)告說(shuō)「大約三分之一的每日預(yù)覽用戶每天都在使用[Bing]聊天」,并且Bing聊天在其公開(kāi)預(yù)覽的第一個(gè)月提供了4500萬(wàn)次聊天,也就是說(shuō),把大型語(yǔ)言模型融合進(jìn)搜索引擎是非常有市場(chǎng)的,極有可能改變互聯(lián)網(wǎng)的搜索入口。
但目前來(lái)看,現(xiàn)有的基于大型語(yǔ)言模型技術(shù)的生成式搜索引擎仍然存在準(zhǔn)確率不高的問(wèn)題,但具體的準(zhǔn)確率仍然沒(méi)有得到全面評(píng)估,進(jìn)而也無(wú)法了解到新型搜索引擎的局限之處。
可驗(yàn)證性(verifiability)是提升搜索引擎可信度的關(guān)鍵,即為生成答案中的每一句話都提供引文的外部鏈接來(lái)作為證據(jù)支撐,可以使用戶更容易驗(yàn)證答案的準(zhǔn)確程度。
研究人員通過(guò)收集不同類(lèi)型、來(lái)源的問(wèn)題,在四個(gè)商業(yè)生成式搜索引擎(Bing Chat, NeevaAI, perplexity.ai, YouChat)上進(jìn)行人工評(píng)估。
評(píng)估指標(biāo)主要包括流暢性,即生成的文本是否連貫;有用性,即搜索引擎的回復(fù)對(duì)于用戶來(lái)說(shuō)是否有幫助,以及答案中的信息是否能夠解決問(wèn)題;引用召回,即生成的關(guān)于外部網(wǎng)站的句子中包含引用支持的比例;引用精度,即生成的引用支持其相關(guān)句子的比例。
流暢性(fluency)
同時(shí)展示用戶查詢(xún)、生成的回復(fù)以及聲明「該回復(fù)是流暢且語(yǔ)義連貫的」,標(biāo)注人員以五分制Likert量表對(duì)數(shù)據(jù)進(jìn)行打分。
有用性(perceived utility)
與流暢性類(lèi)似,標(biāo)注人員需要評(píng)定他們對(duì)「該回復(fù)是對(duì)用戶查詢(xún)來(lái)說(shuō)是有用且有信息量的 」這一說(shuō)法的同意程度。
引用召回(citation recall)
引用召回率是指由其相關(guān)引文完全支持的、值得驗(yàn)證的句子的比例,所以該指標(biāo)的計(jì)算需要確定回復(fù)中值得驗(yàn)證的句子,以及評(píng)估每個(gè)值得驗(yàn)證的句子能夠被相關(guān)引文支持。
在「識(shí)別值得驗(yàn)證的句子」過(guò)程中,研究人員認(rèn)為關(guān)于外部世界的每一個(gè)生成的句子都是值得驗(yàn)證的,即使是那些可能看起來(lái)很明顯、微不足道的常識(shí),因?yàn)閷?duì)于某些讀者來(lái)說(shuō)似乎是明顯的「常識(shí)」,但其實(shí)可能并不正確。
搜索引擎系統(tǒng)的目標(biāo)應(yīng)該是為所有生成的關(guān)于外部世界的句子提供參考來(lái)源,使讀者能夠輕松地驗(yàn)證生成的回復(fù)中的任何敘述,不能為了簡(jiǎn)單而犧牲可驗(yàn)證性。
所以實(shí)際上標(biāo)注人員對(duì)所有生成的句子都進(jìn)行驗(yàn)證,除了那些以系統(tǒng)為第一人稱(chēng)的回復(fù),如「作為一個(gè)語(yǔ)言模型,我沒(méi)有能力做...」,或是對(duì)用戶的提問(wèn),如「你想了解更多嗎?」等。
評(píng)估「一個(gè)值得驗(yàn)證的陳述是否得到其相關(guān)引文的充分支持」可以基于歸因已識(shí)別來(lái)源(AIS, attributable to identified sources)評(píng)估框架,標(biāo)注人員進(jìn)行二元標(biāo)注,即如果一個(gè)普通的聽(tīng)眾認(rèn)可「基于引用的網(wǎng)頁(yè),可以得出...」,那引文即可完全支持該回復(fù)。
引用精確率
為了衡量引用的精確率,標(biāo)注人員需要判斷每個(gè)引用是否對(duì)其相關(guān)的句子提供了全部、部分或無(wú)關(guān)支持。
完全支持(full support):句子中的所有信息都得到了引文的支持。
部分支持(Partial support):句子中的一些信息得到了引文的支持,但其他部分可能存在缺失或矛盾。
無(wú)關(guān)支持(No support):如引用的網(wǎng)頁(yè)完全不相關(guān)或相互矛盾。
對(duì)于有多個(gè)相關(guān)引文的句子,還會(huì)額外要求標(biāo)注人員使用AIS評(píng)估框架判斷所有相關(guān)引文網(wǎng)頁(yè)作為一個(gè)整體是否為該句子提供了充分的支持(二元判斷)。
實(shí)驗(yàn)結(jié)果
在流暢性和有用性評(píng)估中,可以看到各個(gè)搜索引擎都能夠生成非常流暢且有用的回復(fù)。
在具體的搜索引擎評(píng)估中,可以看到看到Bing Chat的流暢性/有用性評(píng)分最低(4.40/4.34),其次是NeevaAI(4.43/4.48),perplexity.ai(4.51/4.56),以及YouChat(4.59/4.62)。
在不同類(lèi)別的用戶查詢(xún)中,可以看到較短的提取性問(wèn)題通常比長(zhǎng)問(wèn)題要更流暢,通常只回答事實(shí)性知識(shí)即可;一些有難度的問(wèn)題通常需要對(duì)不同的表格或網(wǎng)頁(yè)進(jìn)行匯總,合成過(guò)程會(huì)降低整體的流暢性。
在引文評(píng)估中,可以看到現(xiàn)有的生成式搜索引擎往往不能全面或正確地引用網(wǎng)頁(yè),平均只有51.5%的生成句子得到了引文的完全支持(召回率),只有74.5%的引文完全支持其相關(guān)句子(精確度)。
這個(gè)數(shù)值來(lái)說(shuō)對(duì)于已經(jīng)擁有數(shù)百萬(wàn)用戶的搜索引擎系統(tǒng)來(lái)說(shuō)是不可接受的,特別是在生成回復(fù)往往信息量比較大的情況下。
并且不同的生成式搜索引擎之間的引文召回率和精確度有很大差異,其中perplexity.ai實(shí)現(xiàn)了最高的召回率(68.7),而NeevaAI(67.6)、Bing Chat(58.7)和YouChat(11.1)較低。
另一方面,Bing Chat實(shí)現(xiàn)了最高的精確度(89.5),其次是perplexity.ai(72.7)、NeevaAI(72.0)和YouChat(63.6)
在不同的用戶查詢(xún)中,有長(zhǎng)答案的NaturalQuestions查詢(xún)和非NaturalQuestions查詢(xún)之間的引用召回率差距接近11%(分別為58.5和47.8);
同樣,有短答案的NaturalQuestions查詢(xún)和無(wú)短答案的NaturalQuestions查詢(xún)之間的引用召回率差距接近10%(有短答案的查詢(xún)?yōu)?3.4,只有長(zhǎng)答案的查詢(xún)?yōu)?3.6,而無(wú)長(zhǎng)或短答案的查詢(xún)?yōu)?3.4)。
在沒(méi)有網(wǎng)頁(yè)支持的問(wèn)題中,引用率就會(huì)較低,例如對(duì)開(kāi)放式的AllSouls論文問(wèn)題進(jìn)行評(píng)估時(shí),生成式搜索引擎在引文召回率方面只有44.3