自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

本地知識(shí)庫(kù)優(yōu)化,讓 AI 回答更精準(zhǔn)

發(fā)布于 2024-12-3 14:29
瀏覽
0收藏

大家在使用百度和谷歌搜索引擎的時(shí)候,搜索出來(lái)的內(nèi)容第一頁(yè)都是強(qiáng)相關(guān)的(廣告不算),越往后內(nèi)容可能越偏離。

這是因?yàn)樗阉饕鏁?huì)根據(jù)相似度&相關(guān)度進(jìn)行綜合排列后,按照從高到低的順序進(jìn)行返回,這就會(huì)導(dǎo)致越靠后就離搜索內(nèi)容越偏移。

而由于文字是有多種類(lèi)型,并且擁有成千上萬(wàn)種組合方式,因此在轉(zhuǎn)成向量進(jìn)行相似度匹配時(shí),很難保障其精確性。在向量方案構(gòu)建的知識(shí)庫(kù)中,通常使用 topk 召回的方式,也就是查找前 k 個(gè)最相似的內(nèi)容,丟給大模型去做更進(jìn)一步的語(yǔ)義判斷、邏輯推理和歸納總結(jié),從而實(shí)現(xiàn)知識(shí)庫(kù)問(wèn)答。因此,在知識(shí)庫(kù)問(wèn)答中,向量搜索的環(huán)節(jié)是最為重要的。

影響向量搜索精度的因素非常多,主要包括:向量模型的質(zhì)量、數(shù)據(jù)的質(zhì)量(長(zhǎng)度,完整性,多樣性)、檢索器的精度(速度與精度之間的取舍)。與數(shù)據(jù)質(zhì)量對(duì)應(yīng)的就是檢索詞的質(zhì)量。


本地知識(shí)庫(kù)優(yōu)化,讓 AI 回答更精準(zhǔn)-AI.x社區(qū)


基于 FastGPT 項(xiàng)目,我們來(lái)挨個(gè)進(jìn)行講解。從索引階段(數(shù)據(jù)導(dǎo)入)和召回階段(數(shù)據(jù)搜索)兩個(gè)方面進(jìn)行優(yōu)化。

一、索引階段

索引階段主要是兩種方式,一種是分段導(dǎo)入,一種是 QA 導(dǎo)入。

1、分段導(dǎo)入

直接分段會(huì)利用句子分詞器對(duì)文本進(jìn)行一定長(zhǎng)度拆分,大家可以看到我在導(dǎo)入??個(gè)人經(jīng)歷??后會(huì)被切割成好幾段內(nèi)容。


本地知識(shí)庫(kù)優(yōu)化,讓 AI 回答更精準(zhǔn)-AI.x社區(qū)


由于上下文長(zhǎng)度是有限制的,所以在導(dǎo)入過(guò)長(zhǎng)數(shù)據(jù)時(shí)會(huì)被自動(dòng)切割成好幾份,切割后就可能會(huì)出現(xiàn)連貫語(yǔ)義數(shù)據(jù)被切割。

  • 提示詞工程(Prompt Engineering):借助提示詞工程理解數(shù)據(jù)內(nèi)容,只能相對(duì)保證連貫語(yǔ)義內(nèi)容不會(huì)被切割。
  • 手動(dòng)切割:既然內(nèi)容太多,我們就可以自己手動(dòng)切割,按照 Markdown 結(jié)構(gòu)化格式進(jìn)行拆分,大語(yǔ)言模型讀取時(shí)很容易就能夠識(shí)別出來(lái)。

手動(dòng)切割比起利用提示詞工程自動(dòng)切割好處就在于:我們更加了解內(nèi)容,可以將內(nèi)容按照模塊進(jìn)行準(zhǔn)確分割,保證知識(shí)庫(kù)數(shù)據(jù)的完整性。

手動(dòng)切割前:

大家好,我是知白。一個(gè)專(zhuān)注于輸出 AI+ 編程內(nèi)容的大廠資深程序員,全國(guó)最大付費(fèi)社群 AI 破局初創(chuàng)合伙人,關(guān)注我一起進(jìn)步......后續(xù)省略1000字


手動(dòng)切割后:

# 知白
## 個(gè)人信息
大家好,我是知白。一個(gè)專(zhuān)注于輸出 AI+ 編程內(nèi)容的大廠資深程序員,全國(guó)最大付費(fèi)社群 AI 破局初創(chuàng)合伙人,關(guān)注我一起進(jìn)步......

## 工作經(jīng)歷
進(jìn)入到工作后,第一個(gè)項(xiàng)目是做一個(gè)物業(yè)系統(tǒng),是一家國(guó)企外包出來(lái)的千萬(wàn)項(xiàng)目......

由我們自己將數(shù)據(jù)切割好,并明確告訴模型每個(gè)模塊對(duì)應(yīng)的內(nèi)容,這樣檢索起來(lái)效率和準(zhǔn)確度都會(huì)更好。

2、QA 方式

QA 指的是 Question(問(wèn)題) 和 Answer(答案),我們直接將數(shù)據(jù)拆分成問(wèn)題-答案的方式來(lái)進(jìn)行導(dǎo)入。

但仍然需要使用到句子分詞器對(duì)文本進(jìn)行拆分,但長(zhǎng)度比直接分段大很多。在導(dǎo)入后,會(huì)先調(diào)用大模型對(duì)分段進(jìn)行學(xué)習(xí),并給出一些問(wèn)題和答案,最終問(wèn)題和答案會(huì)一起被存儲(chǔ)到 Q 中。

導(dǎo)入數(shù)據(jù)格式為:

Q1:?jiǎn)栴}
A1:答案
Q2:?jiǎn)栴}
A2:答案
......


數(shù)據(jù)借助 AI 做拆分,讓 AI 返回這樣的數(shù)據(jù)格式給我們。

二、召回階段

在做數(shù)據(jù)檢索和生成回答時(shí),就有很多配置可以調(diào)整。

1、溫度&回復(fù)上限

本地知識(shí)庫(kù)優(yōu)化,讓 AI 回答更精準(zhǔn)-AI.x社區(qū)


可以看到溫度的兩頭分別是嚴(yán)謹(jǐn)和發(fā)散,具體含義如下:

  • 嚴(yán)謹(jǐn):生成的內(nèi)容要求精確,降低廢話和錯(cuò)誤信息,適用于學(xué)術(shù)、醫(yī)學(xué)、報(bào)告解讀等場(chǎng)景
  • 發(fā)散:生成的內(nèi)容會(huì)具有創(chuàng)造性,AI 會(huì)根據(jù)已有信息編造內(nèi)容,適用于小說(shuō)、創(chuàng)意生成等場(chǎng)景

而回復(fù)上限控制 AI 回復(fù)的最大 Tokens,較小的值可以一定程度上減少 AI 的廢話,但也可能導(dǎo)致 AI 回復(fù)不完整。

2、相似度

本地知識(shí)庫(kù)優(yōu)化,讓 AI 回答更精準(zhǔn)-AI.x社區(qū)


學(xué)名稱為距離,兩個(gè)向量之間距離,可以認(rèn)為是兩個(gè)向量的相似度,又可以映射成文本之間的相似度

在進(jìn)行內(nèi)容檢索時(shí),會(huì)將所有檢索生成的信息與輸入內(nèi)容匹配,從而生成相似度。

需要注意的是,不同的向量模型之間的相似度是不能比較的,因?yàn)樗麄兊木嚯x值計(jì)算出來(lái)差距很大。例如,openai 的 embedding 模型,通常 0.8 以上的才是較為準(zhǔn)確的內(nèi)容,而 M3E 模型則是 0.35。


本地知識(shí)庫(kù)優(yōu)化,讓 AI 回答更精準(zhǔn)-AI.x社區(qū)


這里相似度配置調(diào)整,就是可以直接將低于這個(gè)相似度的內(nèi)容剔除掉,從而保證結(jié)果的準(zhǔn)確性。

3、單次搜索數(shù)量

每次觸發(fā)搜索模塊時(shí),最多取 n 條作為最終引用,又稱 topN。需要注意的是,取了 n 條引用不代表對(duì)話模型都可以使用,還會(huì)受對(duì)話模型最大 Tokens 的影響。

通過(guò)控制每次結(jié)果的搜索個(gè)數(shù),從而只將高相似度內(nèi)容同步給 ChatGPT 從而提升準(zhǔn)確性,同時(shí)還能節(jié)約 Token 數(shù)。但是可能出現(xiàn)內(nèi)容回答不完整的情況,需要按需調(diào)整。

4、提示詞調(diào)整

當(dāng)然通過(guò)調(diào)整提示詞也能夠提升準(zhǔn)確性,我們可以在提示詞中嚴(yán)格規(guī)則限定,從而保證輸出結(jié)果。

例如我們可以這樣約束模型:

你的背景知識(shí):
"""
{{quote}}
"""
對(duì)話要求:
1. 背景知識(shí)是最新的,其中 instruction 是相關(guān)介紹,output 是預(yù)期回答或補(bǔ)充。
2. 使用背景知識(shí)回答問(wèn)題。
3. 背景知識(shí)無(wú)法回答問(wèn)題時(shí),你可以禮貌的的回答用戶問(wèn)題。
我的問(wèn)題是:"{{question}}"

三、總結(jié)

對(duì)于原始數(shù)據(jù)的清洗也是非常重要,去除數(shù)據(jù)中的臟亂差等現(xiàn)象,從而保證數(shù)據(jù)的可用性和準(zhǔn)確度。這部分工作我們也可以借助 AI 來(lái)完成,幫我們找出其中的??臟數(shù)據(jù)??。

參考文章:FastGPT 官網(wǎng)(https://doc.fastgpt.in/docs)

本文轉(zhuǎn)載自 ??AI探索者知白??,作者: 知白

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦