自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型幻覺的起因、評估及落地場景下基于知識(shí)圖譜的緩解策略探索

人工智能 知識(shí)圖譜
我們需要深入了解問題的來源,對于大模型產(chǎn)生的幻覺問題,我們需要明確其定義,是主觀的還是客觀的,并探討如何給出一個(gè)可執(zhí)行的解決方案。在業(yè)務(wù)應(yīng)用中,除了提供答案,我們還需給出一個(gè)概率值來評估答案的可靠性。

針對大模型落地應(yīng)用的問題,當(dāng)前行業(yè)內(nèi)普遍的做法是利用大模型進(jìn)行問答,但在實(shí)際應(yīng)用中,這種方法往往效果不佳,很多問題的答案并不具有實(shí)際參考價(jià)值。作為算法人員,我們需要深入了解問題的來源,對于大模型產(chǎn)生的幻覺問題,我們需要明確其定義,是主觀的還是客觀的,并探討如何給出一個(gè)可執(zhí)行的解決方案。在業(yè)務(wù)應(yīng)用中,除了提供答案,我們還需給出一個(gè)概率值來評估答案的可靠性。此外,關(guān)于圖譜技術(shù),雖然現(xiàn)在有一種觀點(diǎn)認(rèn)為圖譜已經(jīng)過時(shí),但實(shí)際上圖譜和大模型之間存在一些結(jié)合點(diǎn),我將這些結(jié)合點(diǎn)總結(jié)為若干條策略,這些策略可以幫助我們更好地將大模型和圖譜技術(shù)結(jié)合應(yīng)用。

一、大模型用于行業(yè)問答的實(shí)現(xiàn)和挑戰(zhàn)

首先,讓我們深入探討大模型行業(yè)問答的實(shí)現(xiàn)和挑戰(zhàn)。

1、大模型在知識(shí)管理中的形態(tài)

圖片

在解決行業(yè)問答時(shí),了解現(xiàn)有產(chǎn)品的性能至關(guān)重要。以 360 企業(yè)云盤為例,它為我們提供了一個(gè)清晰的流程,我們對大量文檔進(jìn)行分類整理后,可以運(yùn)用 360 智腦大模型完成許多任務(wù),比如將撰寫的周報(bào)轉(zhuǎn)化為文字形式,或者通過提各種問題就能輕松地得到答案,這也有助于我們在同事之間傳遞重要信息。

圖片

此外,我們還可以通過上傳 PDF 文件,然后在輸入框針對這個(gè)文件的相關(guān)內(nèi)容提問,例如提出對文章進(jìn)行總結(jié),系統(tǒng)就能快速地進(jìn)行總結(jié),幫助我們提高工作效率。此外,系統(tǒng)還能夠利用搜索策略為用戶提供相關(guān)的文件推薦,例如當(dāng)用戶上傳一個(gè)文章后,系統(tǒng)會(huì)推薦與之相關(guān)的文件,并幫助用戶查找這些文件。其中值得注意的是,如何找到相關(guān)文件是其中的一個(gè)關(guān)鍵點(diǎn),這正是圖譜在其中發(fā)揮的作用,系統(tǒng)預(yù)先構(gòu)建了文檔之間的關(guān)聯(lián)關(guān)系和事件,從而幫助用戶快速找到所需內(nèi)容。

圖片

在實(shí)際業(yè)務(wù)中,許多客戶都希望能面向他們的文檔資源,快速地構(gòu)建問答機(jī)器人。比如,有一個(gè)文檔,需要發(fā)布到自己的小程序、網(wǎng)頁或公眾號的問答機(jī)器人,這時(shí)只需要將發(fā)布的內(nèi)容及時(shí)上傳到云盤,通過云盤易于理解的總結(jié)性回答、及時(shí)識(shí)別上下文、自動(dòng)內(nèi)容更新等功能,就能夠快速地進(jìn)行知識(shí)內(nèi)容的問答。舉個(gè)例子,上圖是我們已經(jīng)對接的拱墅區(qū)政策咨詢,只需要將相關(guān)的文件更新到云盤,就可以直接詢問相關(guān)的信息了,比如指導(dǎo)思想是什么等。

圖片

我們還可以將功能進(jìn)行模塊化,使系統(tǒng)可重復(fù)使用,滿足個(gè)人和專業(yè)場景的知識(shí)問答配置。首先創(chuàng)建為一個(gè)知識(shí)號,然后進(jìn)行問答配置的數(shù)據(jù)管理、訓(xùn)練、發(fā)布、匹配測試以及數(shù)據(jù)集管理等一系列操作。通過這種方式,實(shí)現(xiàn)了復(fù)用并提高效率,為業(yè)務(wù)流程帶來了更好的靈活性。

2、大模型如何實(shí)現(xiàn)文檔問答

圖片

在探討大模型如何實(shí)現(xiàn)文檔智能時(shí),我們發(fā)現(xiàn)其背后存在六種關(guān)鍵環(huán)節(jié):語料庫準(zhǔn)備、問題輸入、向量檢索、計(jì)算向量相似度、Prompt 優(yōu)化、結(jié)果返回。

(1)語料庫準(zhǔn)備

語料庫的準(zhǔn)備主要在離線環(huán)境下進(jìn)行,主要是將與行業(yè)相關(guān)的大量知識(shí)或語料上傳至向量數(shù)據(jù)庫,儲(chǔ)存為向量化文本。

準(zhǔn)備好語料文件后,會(huì)進(jìn)行 chunk 處理,將文檔切分為小塊。隨著技術(shù)不斷發(fā)展,大家對于上下文長度的需求在增長,從之前的 2K、4K、8K 到現(xiàn)在的 192K 或 200K。然而并不是 chuck 越大越好,在真正的大模型應(yīng)用中,4K 達(dá)到很高的精度就很不錯(cuò)了。在完成 chunk 處理后,需要對切分后的問題文本進(jìn)行向量化操作,BGE、M3E 等嵌入模型都是不錯(cuò)的選擇。完成這一步后,就已經(jīng)得到帶有向量的語料片段了,將其加入到向量數(shù)據(jù)庫中,例如 Faiss 等。完成這些步驟后,語料庫就準(zhǔn)備好了。

(2)問題輸入

當(dāng)一個(gè) query 到來后,用上一步驟同樣的嵌入模型對 query 進(jìn)行處理,將輸入的問題轉(zhuǎn)變成帶有向量的提問。

(3)問題搜索

將 query 轉(zhuǎn)變成的向量,放入提前準(zhǔn)備好的語料生成的向量數(shù)據(jù)庫中檢索,通過計(jì)算 query 與 vector 的相似度,可以得出匹配結(jié)果。值得注意的是,這里所做的是 QD 匹配,而不是 QQ 匹配。QD 匹配存在一個(gè)很大的問題,即 Q 通常很短,例如大家做相似度通常使用的是幾十字的 query 進(jìn)行訓(xùn)練。但實(shí)際在正式場景下,QQ 基本上就是 100 字對 100 字,而 QD 會(huì)變成 100 字對上 300 字、400 字、500 字,這個(gè)時(shí)候召回的準(zhǔn)確性就是一個(gè)需要去優(yōu)化的問題。

(4)計(jì)算向量相似度

向量相似度可以采用 L1、L2 或余弦相似度,比如采用余弦相似度,需要設(shè)置一個(gè)閾值,通常在 0.8 或 0.9 左右,然后匹配出 TopN 條語義最相關(guān)的 Facts。

(5)Prompt 優(yōu)化

將匹配出的 TopN 條 Facts,和用戶的問題一起作為 Prompt 輸入給模型。為了提供盡可能真實(shí)的回答,需要確保問題的回答是準(zhǔn)確的,如果無法回答問題,我們希望模型應(yīng)該明確指出這一點(diǎn)。在 prompt 的設(shè)置中,需要注意每一個(gè)重要的細(xì)節(jié),例如,一個(gè)簡單的換行符“\n”可能會(huì)對結(jié)果產(chǎn)生很大的影響,因此,需要確保其準(zhǔn)確性和一致性。

(6)結(jié)果返回

通過上下文組裝的 Prompt,就可以得到在有記憶交互下生成的內(nèi)容,這樣的結(jié)果更精準(zhǔn)且緩解了幻覺問題。

在處理大模型知識(shí)庫問答時(shí),整個(gè)流程的六個(gè)步驟每一步都有可能導(dǎo)致誤差累積,因此要提高整體準(zhǔn)確率,需要關(guān)注每一個(gè)階段的細(xì)節(jié),盡可能提高每個(gè)階段的準(zhǔn)確率,即使只是將每個(gè)階段的準(zhǔn)確率從 0.8 提高到 0.98,那么整體就是從 0.8 的 6 次方到 0.98 的 6 次方,準(zhǔn)確率會(huì)有顯著的提升。

3、大模型文檔問答現(xiàn)實(shí)問題

圖片

第一個(gè)問題是文檔板式復(fù)雜,特別是表格、圖片、單雙欄情況等,處理起來相當(dāng)困難。比如金融場景中的研報(bào),涉及到公司名稱、發(fā)布時(shí)間、k 線圖等。此外,在處理 PDF 文件時(shí),如需識(shí)別圖表中的線,則需要進(jìn)行斷裂和合并處理,這個(gè)時(shí)候就需要一個(gè)文檔版式模塊來處理這類問題。

第二個(gè)問題是模型固執(zhí)己見,在處理下游任務(wù)時(shí)無法充分關(guān)注檢索到的知識(shí),尤其是當(dāng)檢索到的知識(shí)與 LLMs 的參數(shù)知識(shí)相沖突,還是會(huì)跳出回答。

第三個(gè)問題是領(lǐng)域 embedding 的去噪問題,現(xiàn)有的通用 embedding 如 BGE、M3E 在特定領(lǐng)域上性能并不高。在特定領(lǐng)域中,如果沒有足夠的數(shù)據(jù)進(jìn)行去噪處理,embedding 的性能將會(huì)受到限制。此外,相似度的控制也是一個(gè)挑戰(zhàn),如何篩選 top k 結(jié)果是一個(gè)關(guān)鍵問題,選擇合適的閾值和 k 值是關(guān)鍵,過嚴(yán)或過松的篩選可能導(dǎo)致召回率過低或召回大量無關(guān)內(nèi)容。

最后,大模型在處理文檔時(shí)只關(guān)注開頭和結(jié)尾部分,而忽略中間內(nèi)容。這種“l(fā)ost in middle”的現(xiàn)象在文本長度較長時(shí)尤為明顯。因此,為了提高模型的性能,我們需要盡量將關(guān)鍵信息放在文本的前后部分。

圖片

上面所有的問題都是幻覺問題,為了具體說明幻覺問題,這里舉一個(gè)例子。在安全領(lǐng)域的知識(shí)問答中,提問“海蓮花組織是什么?”,我們知道海蓮花是一個(gè) APT 組織,但大模型給出的答案卻是“海蓮花是一個(gè)出現(xiàn)在中國互聯(lián)網(wǎng)的神秘組織,涉嫌違法犯罪,名稱中的海代表海洋?!?,這個(gè)答案在語言上毫無破綻,但實(shí)際上卻與事實(shí)不符,這就是幻覺問題的表現(xiàn)。

圖片

出現(xiàn)以上幻覺的主要原因就是缺乏訓(xùn)練數(shù)據(jù),因?yàn)榘踩I(lǐng)域的數(shù)據(jù)是很少的,而且很多的日志數(shù)據(jù)并不如文本數(shù)據(jù)那么規(guī)范化,這就導(dǎo)致安全領(lǐng)域大模型的幻覺問題更加顯著。

為了解決這個(gè)問題,我們可以引入安全知識(shí)庫,當(dāng)我們需要回答關(guān)于海蓮花的問題時(shí),可以從知識(shí)庫中進(jìn)行召回。經(jīng)過檢索,我們了解到海蓮花組織是一個(gè)具有東南亞背景的組織,同時(shí)為了確保模型在回答問題時(shí)不會(huì)產(chǎn)生幻覺,需要一個(gè)大型模型來判斷是否應(yīng)回答問題,如果模型無法找到正確答案,應(yīng)該直接告訴用戶無法回答,因此,需要添加一個(gè)拒答環(huán)節(jié)來規(guī)避此類幻覺,以確保模型不會(huì)胡說八道。

當(dāng)面臨新的數(shù)據(jù)缺乏問題時(shí),可以使用圖譜生成的方式來解決,通過結(jié)合安全知識(shí)圖譜,我們可以觀察到優(yōu)化結(jié)果,例如海蓮花的高度組織化等。

二、什么是幻覺?從哪兒來?如何評估

1、什么是大模型幻覺

圖片

在我們落地場景中最直接的一個(gè)幻覺就是語境沖突性幻覺。在多輪對話中,常常會(huì)出現(xiàn)前后語境不一致的情況,比如,前面提到了某個(gè)話題,但在后續(xù)對話中突然轉(zhuǎn)換到了另一個(gè)話題,導(dǎo)致之前的信息被忽略或遺忘,這可能會(huì)引發(fā)用戶的困惑,降低對話的連貫性和用戶體驗(yàn),這種問題通常出現(xiàn)在問答場景中,當(dāng)答案與問題語境不匹配時(shí)。例如上圖中我們希望大模型針對以色列和哈馬斯的沖突進(jìn)行總結(jié),answer 結(jié)果就明顯出現(xiàn)了語境沖突。

圖片

另外一個(gè)幻覺就是與事實(shí)相沖突的幻覺,指的是 LLM 生成的內(nèi)容不忠實(shí)于既定的世界知識(shí)。例如,對于葡萄牙的三任國王的問題,回答錯(cuò)誤地將 Castile 的女王 Urraca 列入其中;對于月球漫步的第一個(gè)人的問題,回答錯(cuò)誤地提到了查爾斯·雷德伯格,實(shí)際上,第一個(gè)在月球漫步的人是阿姆斯特朗。

2、大模型幻覺從哪兒來

圖片

當(dāng)我們深入研究大模型的訓(xùn)練流程時(shí),會(huì)發(fā)現(xiàn)數(shù)據(jù)問題是最為關(guān)鍵的。在預(yù)訓(xùn)練階段,我們無法控制數(shù)據(jù)的來源,因?yàn)榫W(wǎng)上充滿了隨機(jī)網(wǎng)頁內(nèi)容,很多內(nèi)容可能并不準(zhǔn)確,我們無法完全清洗這些數(shù)據(jù),只能盡量讓語言更加通順。此外網(wǎng)頁內(nèi)容又有很多包含故事性質(zhì)的內(nèi)容,這些導(dǎo)致存在一些導(dǎo)致幻覺的訓(xùn)練數(shù)據(jù),使得大模型將虛假的相關(guān)性作為事實(shí)知識(shí),因?yàn)長LM 偏向于肯定測試樣本,LLMs 容易復(fù)制甚至放大這種幻覺行為。

大模型有時(shí)會(huì)高估自己的能力,這主要是因?yàn)樗鼈冊陬A(yù)測 next token 的概率時(shí),本質(zhì)上是在處理數(shù)據(jù)分布的問題,對于非常大的 LLMs 來說,正確答案和錯(cuò)誤答案的分布熵可能是相似的,LLM 在生成錯(cuò)誤答案時(shí)和生成正確答案時(shí)同樣自信。

圖片

在 SFT 階段,幻覺問題被引入得最為顯著,有問題的對齊過程可能會(huì)誤導(dǎo)大模型產(chǎn)生幻覺,如果 LLM 在預(yù)訓(xùn)練階段沒有獲得相關(guān)的先決知識(shí),在訓(xùn)練指令的時(shí)候一個(gè)錯(cuò)誤的對齊過程,會(huì)促使 LLM 產(chǎn)生幻覺。

比如上圖右下角的兩個(gè)圈,左邊是我們通過預(yù)訓(xùn)練獲得的參數(shù)化知識(shí),右邊是 SFT 數(shù)據(jù),中間部分是兩者的交集,如果SFT 數(shù)據(jù)落在了中間這一塊,那么它是正確的,如果右側(cè)的 SFT 數(shù)據(jù)本身沒有學(xué)過,而你卻告訴它某些信息,那就相當(dāng)于是在欺騙模型。舉個(gè)例子,假設(shè)這是一個(gè)金融模型,你問它中國某部法律是在什么時(shí)候頒布的,而它之前從未見過這方面的數(shù)據(jù),即使你的 SFT 數(shù)據(jù)很漂亮,但如果你教它撒謊,那么你和它的答案都會(huì)出現(xiàn)問題,因此,SFT 數(shù)據(jù)的質(zhì)量需要盡可能準(zhǔn)確。

LLM 采用的生成策略,如現(xiàn)在常見的 top-k、top-p 等方法,其實(shí)是一種局部最優(yōu)解,不能確保全局最優(yōu)。這意味著搜索空間變小了,因此可能引發(fā)幻覺問題。

從數(shù)據(jù)端和解碼端來看,無論是數(shù)據(jù)的生成還是解碼過程,都可能導(dǎo)致模型產(chǎn)生幻覺。因此,我們需要對模型進(jìn)行仔細(xì)地評估和調(diào)整,以確保其能夠準(zhǔn)確地處理知識(shí)并避免幻覺問題。

3、大模型幻覺如何評估

圖片

要評估大模型的表現(xiàn),關(guān)鍵在于如何制定一個(gè)可靠的指標(biāo)來衡量其輸出。目前有一些方法可以實(shí)現(xiàn)這一目標(biāo),其中一種是基于生成事實(shí)陳述評估,將幻覺視為一種生成特征,類似于流暢性和連貫性,并對 LLM 生成的文本進(jìn)行評估,查看一個(gè) query 前一個(gè)查詢的答案與下一個(gè)查詢的兩個(gè)答案之間是否存在蘊(yùn)含關(guān)系,類似于自然語言推理(NLI)中的三元組問題。此外,還可以進(jìn)行基于問答對的評估,比較兩個(gè)答案之間是否存在重疊。

為了更好地評估大模型的幻覺問題,已經(jīng)出現(xiàn)了一些基準(zhǔn)測試,如 TruthfulQA 和各種其他的基準(zhǔn)測試,其中清華大學(xué)的 Atlas 使用了知識(shí)圖譜來評估大模型的幻覺問題。

三、緩解大模型幻覺的策略

1、策略 1:構(gòu)造高質(zhì)量微調(diào)數(shù)據(jù)和拒答

圖片

如果 LLM 在預(yù)訓(xùn)練階段沒有獲得相關(guān)的先決知識(shí),在訓(xùn)練指令時(shí)是一個(gè)錯(cuò)誤的對齊過程,會(huì)促使 LLM 產(chǎn)生幻覺。這就要求我們加工整理數(shù)據(jù),在經(jīng)過編輯的指令數(shù)據(jù)上進(jìn)行微調(diào)的 LLM 能表現(xiàn)出更高的真實(shí)性和事實(shí)性水平。此外,還可以通過加入拒答環(huán)節(jié),采用以誠實(shí)為導(dǎo)向的 SFT,即在 SFT 數(shù)據(jù)中引入一些誠實(shí)樣本,誠實(shí)樣本指的是承認(rèn)自己無能的回答,如“對不起,我不知道”,學(xué)會(huì)拒絕回答特定問題以減少幻覺。

關(guān)于拒答數(shù)據(jù)配比的問題,我們在實(shí)際中發(fā)現(xiàn),鼓勵(lì)拒答問題的數(shù)據(jù)達(dá)到千級以上就能夠比較好地形成一個(gè)拒答的意識(shí)。如果拒答數(shù)據(jù)過多,會(huì)造成大模型對任何問題都說不知道。

2、策略 2:強(qiáng)化階段引入誠實(shí)對齊

圖片


  • GPT4 使用合成幻覺數(shù)據(jù)來訓(xùn)練獎(jiǎng)勵(lì)模型并執(zhí)行 RL,從而將 Truth-fulOA 的準(zhǔn)確率從約 30% 提高到 60%。
  • 優(yōu)化 Reward 模型,設(shè)計(jì)用于減輕幻覺的特殊獎(jiǎng)勵(lì)函數(shù):“Unhedged/HedgedCorrect/Wrong”代表 LLM 用肯定或猶豫的語氣提供正確或錯(cuò)誤的答案。

3、策略 3:優(yōu)化解碼策略:CAD/RAML

圖片


  • 上下文感知解碼策略(CAD),更關(guān)注上下文
    LLMs 在處理下游任務(wù)時(shí)有時(shí)無法充分關(guān)注檢索到的知識(shí),尤其是檢索到的知識(shí)與 LLMs 本身的參數(shù)知識(shí)相沖突。
    迫使 LLMs 更關(guān)注上下文信息,而不是過度依賴自身的參數(shù)知識(shí)做出決策。
  • KNN+LLM 策略
    在推理中將兩個(gè) next_token 分布進(jìn)行融碼,一個(gè)分布來自自身 LLM 輸出,一個(gè)是來自檢索 top-k token,利用 LLM embedding 方式在外掛知識(shí)庫中查找與 query token 相似的 token。
  • RALM 策略
    用自回歸方式檢索解碼策略 https://arxiv.org/pdf/2302.00083.pdf。
    先利用 LLM 解碼出部分 tokens,再檢索與該 tokens 相似的文本,然后拼接在 prompt 中,進(jìn)行 next-tokens 預(yù)測,這樣自回歸式完成解碼。

4、策略 4:外掛知識(shí)庫增強(qiáng),緩解幻覺

圖片

外掛知識(shí)增強(qiáng)涉及到幾個(gè)關(guān)鍵問題:何時(shí)進(jìn)行外掛、外掛的頻率以及具體的外掛方式。一種常見的做法是在接收到 query 后,先進(jìn)行檢索,然后將檢索結(jié)果輸入到大語言模型中生成答案,這種一次性的外掛方式在某些情況下是有效的。然而,在使用 GPT4 等模型時(shí)會(huì)發(fā)現(xiàn),模型對于某些問題的回答不夠確定或準(zhǔn)確,這時(shí)采用迭代的方式進(jìn)行外掛,在得到模型的初步回答后,再次將問題或模型的回答作為輸入,進(jìn)行多次迭代,然后對生成答案進(jìn)行事后干預(yù),比如再利用知識(shí)圖譜(KG)等工具對答案進(jìn)行檢索和修正,可以提高答案的準(zhǔn)確性和可靠性。

在選擇外掛時(shí)機(jī)時(shí),可以考慮三種方式:在模型生成答案前、生成答案過程中以及生成答案后進(jìn)行外掛。同時(shí),我們還需要考慮使用何種知識(shí)庫或工具進(jìn)行外掛,如搜索引擎、API 代碼執(zhí)行器等。在選擇具體的外掛方式時(shí),需要根據(jù)生成式模型和糾正模型的特點(diǎn)進(jìn)行權(quán)衡和選擇。

四、總結(jié)

最后分享一些總結(jié)性認(rèn)識(shí)。

1. 什么是大模型幻覺,應(yīng)該如何看待

(1)大模型幻覺的分類維度各不一樣。

(2)有的場景需要幻覺【創(chuàng)作等】,有的場景不需要【如醫(yī)療、法律】。

2. 大模型的幻覺跟多樣性是怎樣的邏輯關(guān)系?雞生蛋、蛋生雞?

多樣性是造成幻覺的重要原因,因?yàn)樯啥鄻?,所以幻覺。

3. 大模型幻覺的產(chǎn)生都有哪些原因?

數(shù)據(jù)、訓(xùn)練方式、解碼方方面面都有。

4. 大模型的幻覺能不能解?

(1)無根本解,只能緩解,并且要跟具體業(yè)務(wù)場景做區(qū)分;

(2)現(xiàn)有的 RAG 并沒有觸及大模型本身,都是治標(biāo)不治本。

5. 大模型知不知道自己知不知道?

不知道,本質(zhì)上都是概率。

6. 在大模型背景下,知識(shí)圖譜應(yīng)該找到自身定位

做好結(jié)構(gòu)化數(shù)據(jù),發(fā)揮好知識(shí)管理、網(wǎng)絡(luò)結(jié)構(gòu)化特性。

五、問答環(huán)節(jié)

Q1:關(guān)于 OpenAI 獲取 embedding 可以細(xì)致講一下嗎?改變 embedding 的方式提升效果的范圍大概在多少?對整體響應(yīng)速度有提升嗎?

A1:OpenAI 的 embedding 是通過 API 接口獲取的,你可以根據(jù)提供的文檔編寫相應(yīng)的代碼直接調(diào)用 OpenAI 的接口;具體準(zhǔn)確度提升的范圍取決于數(shù)據(jù)集、模型架構(gòu)以及embedding 質(zhì)量,我們在 RAG 場景做了一些對比,自己構(gòu)造了一些 QD 對和 QD 的負(fù)樣本,在測試樣本大約是在幾千的場景下,召回側(cè)有 30% 的提升;調(diào)用 OpenAI 的 embedding 的話是有限速的,對于一些自有模型,如果你的整個(gè)服務(wù)部署在性能較好的顯卡上,處理速度會(huì)有明顯提升,可以達(dá)到毫秒級別。

Q2:幻覺出現(xiàn)引起的錯(cuò)誤大概占比是多少?以及您使用策略優(yōu)化之后帶來的優(yōu)化是多少?

A2:這個(gè)占比其實(shí)在不同場景下會(huì)有所差異,如果不使用 RAG(問答對生成),很多占比的內(nèi)容可能都是胡說八道,完全不知所云。但如果你將其放在 RAG 場景下,就會(huì)發(fā)現(xiàn)其中大約有 30% 的內(nèi)容是跳出你的回答的,加入拒答后,在某個(gè)極端場景的情況下,我們整個(gè)流程的準(zhǔn)確率從 25% 大幅提升到了 95%,這是一個(gè)相當(dāng)大的提升。

Q3:你剛說到那個(gè)大模型是一個(gè)壓縮器,我理解的就是說如果模型反向去學(xué)習(xí)自己生成的一些知識(shí),就有點(diǎn)像縮略圖的一個(gè)縮略圖,它最終是不是會(huì)變得有些模糊?業(yè)界是怎么看待這個(gè)問題的,或者有沒有一些相關(guān)的研究。

A3:我認(rèn)為如果生成的內(nèi)容在之前的訓(xùn)練數(shù)據(jù)中出現(xiàn)過,那么它會(huì)強(qiáng)化了數(shù)據(jù)分布,使其更容易記住,更加清晰地留在記憶中,不會(huì)變得模糊。然而,如果生成大量之前未知的內(nèi)容,并大量追加到數(shù)據(jù)集中,這可能會(huì)干預(yù)模型的數(shù)據(jù)分布,導(dǎo)致其輸出變得模棱兩可。

Q4:在將業(yè)務(wù)流程轉(zhuǎn)化為知識(shí)圖譜的過程中,特別是關(guān)于如何將示例圖轉(zhuǎn)化為知識(shí)圖譜,節(jié)點(diǎn)的變化如何處理的問題,您在這方面是否有一些經(jīng)驗(yàn)可以分享呢?

A4:我前幾年其實(shí)也一直在做事理圖譜,每一個(gè)節(jié)點(diǎn)就是一個(gè)動(dòng)作,每一個(gè)流程被固定成一個(gè)事件短語并為其排序。這本質(zhì)上是一個(gè)生成和轉(zhuǎn)發(fā)的關(guān)系,整個(gè)生成過程是需要人工構(gòu)建的。在通用領(lǐng)域,比如說游記的案例,我們先把事件抽出來,然后把事件的關(guān)系抽出來,最后拉出一條邊。這種東西在通用領(lǐng)域和特定場景中都很好用,但由于我們的 case 需要解決 agent 的問題,其業(yè)務(wù)場景非常固定,在這種情況下,人工花費(fèi)一些時(shí)間來構(gòu)建它以確保 100% 的準(zhǔn)確性就足夠了。

Q5:為了解決大模型的幻覺問題,我們發(fā)現(xiàn)它實(shí)際上無法從根本上解決,因?yàn)槟阒霸黾恿艘粋€(gè)前置的拒答模型。在我看來在文檔總結(jié)或問答過程中,沒有什么問題是這個(gè)模型無法回答的,我想了解這個(gè)拒答模型的實(shí)現(xiàn)方式以及它是如何判斷大模型無法回答問題的。

A5:這是分成兩個(gè)維度去解。第一個(gè)就是問一些確定性的,就比如說問一些海蓮花這種特定場景的安全場景,因?yàn)樗袀€(gè)安全圖譜,當(dāng)問一個(gè)實(shí)體的時(shí)候,你會(huì)發(fā)現(xiàn)就是因?yàn)檫@個(gè)模型在這個(gè)場景是沒有見過這些東西的。按照大模型沒有見過這東西問海蓮花的時(shí)候,它可能就會(huì)答錯(cuò),那怎么去做呢?我們先用剛才圖譜的方式去構(gòu)造正負(fù)樣本,這是 KG 場景。然后另外一個(gè)場景就是去做一個(gè) summary 的拒答,比如我們建立一個(gè)關(guān)于原政策的知識(shí)庫,并確定每個(gè)庫大致能夠問哪些問題。然后,通過生成相關(guān)內(nèi)容,當(dāng)用戶詢問范冰冰是誰時(shí),系統(tǒng)可以直接拒答。

Q6:進(jìn)行文檔問答時(shí),您設(shè)置了一個(gè)前置的搜索增強(qiáng)環(huán)節(jié),涉及到文本召回方面,您在 PPT 中也提到了這個(gè)閾值確實(shí)很困難,我非常想知道您是否有具體的解決方案。在我自己的實(shí)踐中,我不僅在文檔上,還包括圖像上設(shè)置相似性閾值時(shí),目前采用的方法是打標(biāo)并觀察,例如,當(dāng)閾值設(shè)置為 0.7 時(shí),其準(zhǔn)確率是多少?如果閾值設(shè)為 0.6,就需要經(jīng)過一個(gè)非常繁瑣的嘗試過程,幾乎就像一個(gè)流水線工程。所以,我想知道是否有更智能化的方法來解決這個(gè)問題。

A6:首先,這個(gè) case 確實(shí)不好解決,我們團(tuán)隊(duì)也遇到過類似的問題。關(guān)于閾值的問題,我們更傾向于深入研究。具體來說,我們嘗試在 rank 后面接多個(gè) rank,比如在您與某個(gè)段落 p1 進(jìn)行比較后,p1 可以進(jìn)行分解。由于 QD 之間無法看到,所以它們無法壓縮到一個(gè)空間上,為了解決這個(gè)問題,我們會(huì)進(jìn)行 query 改寫并加入其中。在選擇一個(gè)段落 p 之后,我們還會(huì)將其底下的句子進(jìn)行比較,當(dāng)在 QD 匹配上的值域較低時(shí),經(jīng)過下一個(gè) rerank,對應(yīng)的句子分?jǐn)?shù)會(huì)提高。通過這種方式,可以減少這種問題,但具體效果如何很難說,因?yàn)樵谒惴▋?yōu)化過程中,我們經(jīng)常會(huì)遇到顧此失彼的情況,為了解決文本切割和比較的問題,我們做了很多工作,包括各種花式的切割方法,盡管如此,仍然存在許多挑戰(zhàn)需要克服。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2024-01-09 14:05:15

大型語言模型RAG向量數(shù)據(jù)庫

2024-06-17 07:49:53

2023-08-17 08:29:22

2024-01-29 00:25:59

人工智能結(jié)構(gòu)化編碼

2023-09-27 09:00:00

大型語言模型自然語言處理

2024-01-04 16:41:29

大型語言模型自然語言處理

2024-02-26 00:00:00

RAG系統(tǒng)圖譜

2024-05-16 08:23:26

大語言模型知識(shí)圖譜人工智能

2021-01-25 10:36:32

知識(shí)圖譜人工智能

2023-05-22 09:18:04

2017-03-06 16:48:56

知識(shí)圖譜構(gòu)建存儲(chǔ)

2021-01-19 10:52:15

知識(shí)圖譜

2025-04-27 00:10:00

AI人工智能知識(shí)圖譜

2012-05-30 09:54:16

產(chǎn)品經(jīng)理

2021-01-18 10:50:29

知識(shí)圖譜人工智能深度學(xué)習(xí)

2017-04-13 11:48:05

NLP知識(shí)圖譜

2024-10-08 10:37:12

語言數(shù)據(jù)自然語言

2024-10-12 08:03:25

2023-08-22 15:34:01

Python開發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號