沒有思考過 Embedding,談何 RAG,更不足以談 AI大模型
今天,我們來聊聊 AI 大模型,有一個非常重要概念 "Embedding"。你可能聽說過它,也可能對它一知半解。如果你沒有深入了解過 Embedding,那你就無法真正掌握 RAG 技術(shù),更不能掌握 AI 大模型精髓所在。
1.什么是大語言模型(LLM)?
LLM 是一種大型語言模型,是一種用于理解、生成和響應(yīng)類人文本的神經(jīng)網(wǎng)絡(luò),這些模型是在大量文本數(shù)據(jù)上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)。
大型語言模型中的“大”指的是模型在參數(shù)方面的大小和它所訓(xùn)練的龐大數(shù)據(jù)集。這樣的模型通常有數(shù)百億甚至數(shù)千億個參數(shù),這些參數(shù)是網(wǎng)絡(luò)中可調(diào)整的權(quán)重,在訓(xùn)練過程中進行優(yōu)化,以預(yù)測序列中的下一個單詞。
模型微調(diào),是指在預(yù)訓(xùn)練模型的基礎(chǔ)上,使用特定任務(wù)的標(biāo)注數(shù)據(jù)進行進一步訓(xùn)練,使模型能夠完成特定的任務(wù)。
其特點,建立在預(yù)訓(xùn)練基礎(chǔ)上,利用預(yù)訓(xùn)練模型已經(jīng)學(xué)到的語言知識,不需要從零開始訓(xùn)練。這樣有助于降低訓(xùn)練的成本,以及縮短訓(xùn)練時間,能更好快速適應(yīng)新任務(wù)。
2.Embedding 的理解
深度學(xué)習(xí)模型不能處理原始形式的視頻、音頻和文本等數(shù)據(jù)格式。那怎么辦?因此,我們引入了 “embedding“ ,翻譯為“嵌入“ 。
專業(yè)術(shù)語來講,Embedding 是一種將離散數(shù)據(jù)(如文字、圖像、音頻等)轉(zhuǎn)換為連續(xù)的密集向量表示的技術(shù),這些向量能夠反映原始數(shù)據(jù)之間的關(guān)系。
現(xiàn)在,很多企業(yè)搭建本地知識庫,常提到的 RAG 技術(shù),實際上用 Embedding 模型作為基礎(chǔ)工具,來將查詢的詞轉(zhuǎn)換為向量。
Embedding 是 RAG 的基礎(chǔ)工具,而 RAG 是 Embedding 的一種應(yīng)用場景,這樣就得到一個公式:RAG = Embedding + 檢索 + LLM生成。
如果,你還想更深層次去理解 Embedding 底層細(xì)節(jié)原理,建議你去學(xué)習(xí)或了解相關(guān)數(shù)學(xué)概念,如向量空間、線性代數(shù)、矩陣、特征值和特征向量和內(nèi)積和外積等。
今天,這篇文章主要是講大致流程概念,知道這么回事,并沒有過多的深入講解。
3.RAG 又是什么?
RAG 是檢索增強生成(Retrieval-Augmented Generation)的縮寫,它通過結(jié)合檢索系統(tǒng)和生成模型來提高語言生成的準(zhǔn)確性和相關(guān)性。
RAG 優(yōu)勢就是能夠在生成響應(yīng)時引入外部知識,使得生成的內(nèi)容更加準(zhǔn)確,也無需訓(xùn)練。很好解決 LLM 面臨數(shù)據(jù)實時性問題,因為 LLM 訓(xùn)練是有時截止日期的。
目前,很多企業(yè)搭建自己知識庫時,都是采用 RAG 技術(shù)進行信息檢索。然而為了達到更好效果,企業(yè)一般也會進行內(nèi)部模型微調(diào) Embedding Model,來增加檢索增強生成的能力。