自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

RAG的技術(shù)困境:為何單純依賴向量嵌入不可靠?

人工智能
盡管 Nvidia 擁有豐富的資源,數(shù)據(jù)集的大小適中,答案也相對簡短,但研究者們還是通過一種新的 RAG 方法,發(fā)送 48K 的文本片段并連同用戶查詢一起,打破了之前的最先進(jìn)水平,實(shí)現(xiàn)了 47.25 的 F1 score(如果發(fā)送的內(nèi)容更少,F(xiàn)1 score 會(huì)更低)。

在 RAG 系統(tǒng)中,其核心任務(wù)是找出那些與查詢內(nèi)容相似度最高的存儲(chǔ)信息。然而,向量相似度搜索并不能實(shí)現(xiàn)這一點(diǎn),這也是 RAG 在實(shí)際應(yīng)用中遭遇挫折的原因。

1.選錯(cuò)了工具

RAG 在生產(chǎn)環(huán)境中的失敗,歸咎于使用了向量嵌入來衡量信息的相似度,這顯然不是一個(gè)恰當(dāng)?shù)倪x擇。我們可以通過一個(gè)簡單的例子來說明這一點(diǎn)。假設(shè)有三個(gè)詞匯:

  • King(國王)
  • Queen(王后)
  • Ruler(統(tǒng)治者)

“國王”和“統(tǒng)治者”可能指的是同一人(因此它們可以被視為同義詞),但“國王”和“王后”則明顯指的是不同的人。按照相似度的百分比來衡量,“國王/統(tǒng)治者”應(yīng)該有較高的相似度得分,而“國王/王后”的得分則應(yīng)該是零。

換句話說,如果查詢的內(nèi)容是關(guān)于“國王”的,那么包含“王后”信息的文本片段應(yīng)該是不相關(guān)的;而包含“統(tǒng)治者”信息的文本片段則可能相關(guān)。但是,向量嵌入?yún)s認(rèn)為“王后”與“國王”的關(guān)聯(lián)度高于“統(tǒng)治者”。以下是在使用 OpenAI 的 ADA-002 嵌入模型時(shí),“王后”和“統(tǒng)治者”與“國王”的向量相似度得分:

  • King(國王)
  • Queen(王后):92%
  • Ruler(統(tǒng)治者):83%

這意味著,當(dāng)搜索關(guān)于“國王”的信息時(shí),系統(tǒng)會(huì)優(yōu)先展示關(guān)于“王后”的文本片段,而不是關(guān)于“統(tǒng)治者”的,盡管后者在內(nèi)容上可能更為相關(guān),而關(guān)于“王后”的信息則完全不相關(guān)。

2.向量嵌入在處理“誰、什么、何時(shí)、何地、如何”這類問題時(shí)并不適用

向量嵌入的問題不僅出現(xiàn)在涉及人物的詞匯(如國王)上,也出現(xiàn)在涉及其他事物的詞匯上。

設(shè)想一個(gè)關(guān)于貓的特性的查詢。理論上,提到狗的文本在相似度上應(yīng)該是零,而關(guān)于貓科動(dòng)物的文本則應(yīng)該有極高的相似度得分。但是,向量嵌入又一次給出了錯(cuò)誤的結(jié)果:

  • 貓(Cat)
  • 狗(Dog):86%
  • 貓科動(dòng)物(Feline):85%

盡管兩者分?jǐn)?shù)只差 1 %,但這仍然意味著討論狗的文本會(huì)優(yōu)先于討論貓科動(dòng)物的文本;這顯然不合理,因?yàn)橛懻摴返奈谋九c查詢毫不相關(guān),而討論貓科動(dòng)物的文本則極為相關(guān)。

絕對同義詞指的是意義完全相同的詞匯。然而,即便是在處理絕對同義詞時(shí),向量嵌入也會(huì)錯(cuò)誤地優(yōu)先考慮那些根本不是同義詞的詞匯 —— 下面的例子就進(jìn)一步證明了這一點(diǎn)。

“The Big Apple”是紐約市的別稱。假設(shè)蘇珊是一位新澤西州的居民,她在博客中記錄了自己在家鄉(xiāng)的餐館、博物館和其他地點(diǎn)的體驗(yàn)。但在一篇帖子中,蘇珊提到她在“The Big Apple”舉行的婚禮。當(dāng)一位訪客在蘇珊的網(wǎng)站上詢問 Chatbot:“蘇珊去過紐約嗎?”時(shí),問題出現(xiàn)了。

非常遺憾,關(guān)于新澤西的大量內(nèi)容會(huì)排在蘇珊提及結(jié)婚的那篇帖子之前。原因何在?從向量嵌入的角度來看,“新澤西”在語義上比“The Big Apple”更接近“紐約”:

  • 紐約(New York)
  • 新澤西(New Jersey):90%
  • The Big Apple:89%

根據(jù)涉及“新澤西”的帖子數(shù)量,對“The Big Apple”的提及有可能在 Chatbot 檢索到的數(shù)百個(gè)候選內(nèi)容中都被忽略。這表明,向量嵌入在處理地點(diǎn)信息(如紐約(New York))時(shí)同樣可能出錯(cuò),正如它在處理人物(如國王(Kings))、其他食物(如貓(cat))時(shí)的表現(xiàn)一樣。

實(shí)際上,向量嵌入在處理行為操作時(shí)也存在問題。

  • bake a cake
  • bake a pie: 93%
  • make a chocolate cake: 92%

以“烘焙蛋糕(bake a cake)”為例,討論“烘焙派(bake a pie)”(得分93%)的文本可能會(huì)優(yōu)先于“制作巧克力蛋糕(make a chocolate cake)”(得分92%)的內(nèi)容;盡管前者與查詢完全無關(guān),而后者則直接相關(guān)。

上述例子表明,向量相似度并不是衡量內(nèi)容相同度的可靠方法。它不僅不適用于人物(如國王)、事物(如貓)和地點(diǎn)(如紐約),也不適用于行為操作(如烘焙蛋糕)。換言之,向量嵌入在回答關(guān)于人物、事物、地點(diǎn)以及行為操作等問題的相似度百分比時(shí),并不具備可靠性。換句話說,向量嵌入在處理人們可能提出的幾乎所有類型的問題上都有其固有的缺陷。

3.RAG 愛好者未曾透露的真相

你可能會(huì)懷疑上述例子是否經(jīng)過了篩選,或者百分比分?jǐn)?shù)是否真的重要。讓我們對比一下 RAG 的誤導(dǎo)性描述與其實(shí)際運(yùn)作方式。

  • RAG 的誤導(dǎo)性描述是這樣的:將數(shù)以百萬計(jì)的文本片段的向量嵌入存儲(chǔ)在向量數(shù)據(jù)庫中。獲取用戶查詢的向量嵌入,然后通過余弦相似度算法,找出與之最匹配的前三個(gè)片段,并將這些片段連同用戶查詢一起發(fā)送給大語言模型(LLM)。這被標(biāo)榜為一種“快速、精確且可擴(kuò)展”的解決方案(引自一位知名 AI 作者,其公司已培訓(xùn)超過 40 萬人——詳見下文)。
  • 然而,最先進(jìn)的 RAG 實(shí)際操作是這樣的:將數(shù)千份文檔的向量加載到向量數(shù)據(jù)庫中,檢索出近 50,000 個(gè)字符的文本片段,與用戶查詢一起發(fā)送給 LLM,結(jié)果卻是一個(gè)可靠性不高的 Chatbot(例如,F(xiàn)1 score 低于50)。

以 2024 年 9 月 3 日發(fā)布的 OP-RAG[1] 為例。

圖片圖片

OP-RAG 是 Nvidia 三位研究者的研究成果,因此這項(xiàng)研究來自聲譽(yù)卓著的研究人員。

再來看上述圖表所示的結(jié)果,這些是基于 EN.QA 數(shù)據(jù)集的評(píng)估數(shù)據(jù)。數(shù)據(jù)集中的前兩個(gè)問題是:

  • 《行尸走肉》第八季的最后一集何時(shí)播出?
  • 希臘神話中的春之女神是誰?

這些問題的答案都很簡短,不需要復(fù)雜的解釋。而且,這個(gè)數(shù)據(jù)集僅占整個(gè)維基百科語料庫的3.8%。

盡管 Nvidia 擁有豐富的資源,數(shù)據(jù)集的大小適中,答案也相對簡短,但研究者們還是通過一種新的 RAG 方法,發(fā)送 48K 的文本片段并連同用戶查詢一起,打破了之前的最先進(jìn)水平,實(shí)現(xiàn)了 47.25 的 F1 score(如果發(fā)送的內(nèi)容更少,F(xiàn)1 score 會(huì)更低)。

這些 Nvidia 的研究者難道沒有意識(shí)到,他們本應(yīng)該能夠存儲(chǔ)超過現(xiàn)在 25 倍的向量,并且始終能在前三個(gè)匹配內(nèi)容中找到相關(guān)答案嗎?當(dāng)然不是。實(shí)際上,RAG 在現(xiàn)實(shí)世界中的運(yùn)作并非如此。同樣,Nvidia 在 2024 年 11 月 1 日發(fā)布的 LongRAG[2] 也是一個(gè)絕佳的例證。

4.更大型的 LLMs 也救不了場

看看 2024 年 10 月 Databricks[3] 發(fā)布的研究成果。

圖片圖片

要想正確率超過 80 %,RAG 得向 OpenAI 的 o1 模型發(fā)送 64K 字符的文本片段。其他模型,包括 GPT-4o、GPT-4 Turbo 和 Claude-3.5 Sonnet,無一達(dá)到這一標(biāo)準(zhǔn)。但 o1 模型的結(jié)果問題重重。

首先,其產(chǎn)生信息的幻覺率居高不下。

其次,即便處理的是簡短內(nèi)容,o1 的速度也慢得讓人無法忍受。處理 64 K的文本簡直慢到讓人難以接受。

再者,運(yùn)行 o1 的成本也是一筆不小的開銷。

更有甚者,業(yè)界傳言稱即將推出的一批新模型在性能上并未帶來明顯提升 —— Anthropic 甚至無限期推遲了新模型的發(fā)布。

即便大模型能夠解決問題,它們也會(huì)變得更慢、更貴。換句話說,對于實(shí)際應(yīng)用來說,它們未免太慢也太貴了。企業(yè)會(huì)愿意為一個(gè) Chatbot 支付比真人更高的費(fèi)用嗎?尤其是這個(gè)機(jī)器人每給出一個(gè)不可靠的答案都需要花費(fèi)近一分鐘的時(shí)間。

這就是 RAG 的現(xiàn)狀。這就是依賴向量嵌入帶來的后果。

5.別責(zé)怪自己,問題出在它們身上

我之所以撰寫此文,是因?yàn)槲野l(fā)現(xiàn)論壇上有許多數(shù)據(jù)科學(xué)家和程序員在自我懷疑,認(rèn)為自己操作不當(dāng)。通常情況下,總有人會(huì)熱心地提出一系列解決方案:比如重排序、改寫查詢語句、使用 BM25 算法、構(gòu)建知識(shí)圖譜等等,希望能撞大運(yùn)找到解決之道。

圖片圖片

但問題在于,成千上萬的人所學(xué)到的東西根本就是錯(cuò)誤的。以下內(nèi)容摘自一本 2024 年 10 月更新的書籍,作者是一家培訓(xùn)過 40 萬人的公司的聯(lián)合創(chuàng)始人:

RAG 最適合處理那些數(shù)據(jù)量龐大、無法一次性裝入 LLM 上下文窗口,且需要快速響應(yīng)和低延遲的場景?!?/span>

現(xiàn)在,RAG 系統(tǒng)已經(jīng)有了一套標(biāo)準(zhǔn)的架構(gòu),這一架構(gòu)已經(jīng)在眾多流行框架中得到應(yīng)用,開發(fā)者無需再從頭開始?!?/span>

數(shù)據(jù)轉(zhuǎn)換成向量嵌入后,向量數(shù)據(jù)庫就能迅速找到相似項(xiàng),因?yàn)橄嗨祈?xiàng)在向量空間中以相近的向量形式存在,我們稱之為 vector store(即 storing vectors)。語義搜索在 vector stores 中進(jìn)行,它通過比較用戶查詢的嵌入向量與存儲(chǔ)數(shù)據(jù)的嵌入向量來理解用戶查詢的意義。這樣,無論用戶查詢中使用了哪些關(guān)鍵詞,或是搜索的數(shù)據(jù)類型如何,都能確保搜索結(jié)果的相關(guān)性和準(zhǔn)確性。

數(shù)學(xué)原理告訴我們,向量嵌入技術(shù)并不是通過比較相似度的百分比來定位信息。它們無法理解用戶查詢的真實(shí)意圖。即便是面對最簡單的用戶查詢,它們也無法保證搜索結(jié)果的相關(guān)性,更別提“無論用戶查詢中使用了哪些關(guān)鍵詞,或是搜索的數(shù)據(jù)類型如何”。

正如 OP-RAG 研究論文所示,即便通過向量搜索能夠檢索到 400 個(gè)數(shù)據(jù)塊,大語言模型(LLM)在最基礎(chǔ)的測試中也有超過一半的概率找不到相關(guān)信息。盡管如此,教科書上卻告訴數(shù)據(jù)科學(xué)家:“在實(shí)際操作中,我們可以將整個(gè)網(wǎng)站或課程內(nèi)容上傳到 Deep Lake [向量數(shù)據(jù)庫]中,以便在成千上萬的文檔中進(jìn)行搜索…… 為了生成回答,我們會(huì)提取與用戶問題最匹配的前 k 個(gè)(比如前 3 個(gè))數(shù)據(jù)塊,整理成提示詞,然后以 temperature 參數(shù)為 0 的模式發(fā)送給模型?!?/span>

教科書普遍向?qū)W生灌輸,向量嵌入技術(shù)強(qiáng)大到可以存儲(chǔ)“數(shù)百萬份文檔”,并且能夠從前 3 個(gè)最相關(guān)的數(shù)據(jù)塊中找到用戶查詢的答案。但是,根據(jù)數(shù)學(xué)原理和引用的研究結(jié)果,這種說法顯然是不準(zhǔn)確的。

6.通往百分百精確回答的道路

解決問題的關(guān)鍵在于不再單純依賴向量嵌入技術(shù)。

但這并不意味著向量嵌入就毫無價(jià)值了。絕非如此!它們在自然語言處理(NLP)領(lǐng)域扮演著至關(guān)重要的角色。

例如,向量嵌入是處理多義詞的有力工具。以“glasses”這個(gè)詞為例,它既可以指代日常飲用的玻璃杯,也可以是指戴在臉上的眼鏡。

假設(shè)有人提問:朱莉婭·羅伯茨(Julia Roberts)佩戴的是哪種眼鏡?通過向量嵌入技術(shù),我們可以確保與眼鏡相關(guān)的信息位于飲酒玻璃杯相關(guān)的信息之上,這正是其語義處理能力的體現(xiàn)。

ChatGPT 的問世,在數(shù)據(jù)科學(xué)界引發(fā)了一種不太樂觀的變化。像 synonyms、hyponyms、hypernyms、 holonyms 等 NLP 的重要工具,被邊緣化,轉(zhuǎn)而更多地關(guān)注 Chatbot 的查詢。

無疑,大語言模型(LLMs)確實(shí)簡化了 NLP 的某些方面。但目前,我們似乎把有價(jià)值的技術(shù)也一同舍棄了。

LLMs 和向量嵌入技術(shù)是 NLP 的關(guān)鍵技術(shù),但它們并非完整的解決方案。

舉個(gè)例子,許多公司發(fā)現(xiàn),當(dāng) Chatbot 無法展示訪客所需的產(chǎn)品清單時(shí),訪客往往會(huì)選擇離開。為此,這些公司嘗試用基于同義詞的搜索來替代傳統(tǒng)的關(guān)鍵字搜索。

基于同義詞的搜索確實(shí)能夠找到關(guān)鍵字搜索遺漏的產(chǎn)品,但這是有代價(jià)的。由于一詞多義的存在,常常會(huì)有不相關(guān)的信息覆蓋了訪客真正想要的內(nèi)容。比如,一個(gè)想買飲酒玻璃杯的訪客,可能會(huì)看到一大堆眼鏡的清單。

面對這種情況,我們不必全盤否定,向量嵌入技術(shù)恰好可以發(fā)揮作用。我們不應(yīng)完全依賴向量嵌入,而應(yīng)將其作為搜索結(jié)果的優(yōu)化工具。在基于同義詞的搜索基礎(chǔ)上,利用向量嵌入將最相關(guān)的結(jié)果推至前列。

責(zé)任編輯:武曉燕 來源: Baihai IDP
相關(guān)推薦

2010-06-12 15:30:57

UDP協(xié)議

2010-04-16 17:16:34

2015-03-20 09:45:17

IP協(xié)議

2012-03-12 14:17:10

2021-07-27 12:27:21

工業(yè)物聯(lián)網(wǎng)IIOT物聯(lián)網(wǎng)

2011-11-29 09:48:43

2021-09-07 09:40:39

漏洞網(wǎng)絡(luò)安全代碼

2023-04-28 17:39:01

2023-12-11 07:26:14

云原生業(yè)務(wù)可觀測性

2022-11-16 14:33:45

工業(yè)物聯(lián)網(wǎng)物聯(lián)網(wǎng)安全

2013-09-26 10:38:14

VDI企業(yè)桌面

2009-05-14 08:39:33

英特爾歐盟反壟斷

2021-04-23 23:29:20

比特幣加密貨幣匿名幣

2021-04-07 14:29:05

開發(fā)技能代碼

2022-10-31 10:50:05

2021-06-08 15:02:59

谷歌FacebookCPU

2017-01-16 10:40:33

2011-06-03 11:44:29

2023-12-13 14:36:58

2023-08-30 08:00:00

大型語言模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)