自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="9wlwc"><track id="9wlwc"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

沒有思考過 Embedding，談何 RAG，更不足以談 AI大模型

作者：漁夫 2024-11-21 15:44:21

現(xiàn)在，很多企業(yè)搭建本地知識庫，常提到的 RAG 技術(shù)，實際上用 Embedding 模型作為基礎(chǔ)工具，來將查詢的詞轉(zhuǎn)換為向量。

今天，我們來聊聊 AI 大模型，有一個非常重要概念 "Embedding"。你可能聽說過它，也可能對它一知半解。如果你沒有深入了解過 Embedding，那你就無法真正掌握 RAG 技術(shù)，更不能掌握 AI 大模型精髓所在。

1.什么是大語言模型（LLM）？

LLM 是一種大型語言模型，是一種用于理解、生成和響應(yīng)類人文本的神經(jīng)網(wǎng)絡(luò)，這些模型是在大量文本數(shù)據(jù)上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)。

大型語言模型中的“大”指的是模型在參數(shù)方面的大小和它所訓(xùn)練的龐大數(shù)據(jù)集。這樣的模型通常有數(shù)百億甚至數(shù)千億個參數(shù)，這些參數(shù)是網(wǎng)絡(luò)中可調(diào)整的權(quán)重，在訓(xùn)練過程中進行優(yōu)化，以預(yù)測序列中的下一個單詞。

模型微調(diào)，是指在預(yù)訓(xùn)練模型的基礎(chǔ)上，使用特定任務(wù)的標(biāo)注數(shù)據(jù)進行進一步訓(xùn)練，使模型能夠完成特定的任務(wù)。

其特點，建立在預(yù)訓(xùn)練基礎(chǔ)上，利用預(yù)訓(xùn)練模型已經(jīng)學(xué)到的語言知識，不需要從零開始訓(xùn)練。這樣有助于降低訓(xùn)練的成本，以及縮短訓(xùn)練時間，能更好快速適應(yīng)新任務(wù)。

2.Embedding 的理解

深度學(xué)習(xí)模型不能處理原始形式的視頻、音頻和文本等數(shù)據(jù)格式。那怎么辦？因此，我們引入了 “embedding“ ，翻譯為“嵌入“ 。

專業(yè)術(shù)語來講，Embedding 是一種將離散數(shù)據(jù)（如文字、圖像、音頻等）轉(zhuǎn)換為連續(xù)的密集向量表示的技術(shù)，這些向量能夠反映原始數(shù)據(jù)之間的關(guān)系。

現(xiàn)在，很多企業(yè)搭建本地知識庫，常提到的 RAG 技術(shù)，實際上用 Embedding 模型作為基礎(chǔ)工具，來將查詢的詞轉(zhuǎn)換為向量。

Embedding 是 RAG 的基礎(chǔ)工具，而 RAG 是 Embedding 的一種應(yīng)用場景，這樣就得到一個公式：RAG = Embedding + 檢索 + LLM生成。

如果，你還想更深層次去理解 Embedding 底層細(xì)節(jié)原理，建議你去學(xué)習(xí)或了解相關(guān)數(shù)學(xué)概念，如向量空間、線性代數(shù)、矩陣、特征值和特征向量和內(nèi)積和外積等。

今天，這篇文章主要是講大致流程概念，知道這么回事，并沒有過多的深入講解。

3.RAG 又是什么？

RAG 是檢索增強生成（Retrieval-Augmented Generation）的縮寫，它通過結(jié)合檢索系統(tǒng)和生成模型來提高語言生成的準(zhǔn)確性和相關(guān)性。

RAG 優(yōu)勢就是能夠在生成響應(yīng)時引入外部知識，使得生成的內(nèi)容更加準(zhǔn)確，也無需訓(xùn)練。很好解決 LLM 面臨數(shù)據(jù)實時性問題，因為 LLM 訓(xùn)練是有時截止日期的。

目前，很多企業(yè)搭建自己知識庫時，都是采用 RAG 技術(shù)進行信息檢索。然而為了達到更好效果，企業(yè)一般也會進行內(nèi)部模型微調(diào) Embedding Model，來增加檢索增強生成的能力。

責(zé)任編輯：趙寧寧來源：碼農(nóng)漁夫

Embedding RAG AI 大模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="hdaqk"><rp id="hdaqk"></rp></style>

^{<thead id="hdaqk"></thead>}