大模型的嵌入——Embedding與向量——Ve ctor 原創(chuàng)
最近在研究RAG然后帶來了對嵌入與向量的思考;畢竟嵌入與向量是實現(xiàn)大模型的基礎(chǔ);嵌入解決的是數(shù)據(jù)向量化的問題,而向量解決的是數(shù)據(jù)之間的關(guān)系問題。
Embedding中文翻譯是嵌入,但更形象的理解是——在機器學習和大模型中,嵌入是一種數(shù)據(jù)向量化或向量表示的技術(shù);簡單來說就相當于一個轉(zhuǎn)換器,把人類能夠理解的數(shù)據(jù)包括文本,圖像等轉(zhuǎn)換為大模型方便處理的向量數(shù)據(jù)。
而向量是數(shù)學概念中的一個表示有大小和方向的量,其空間幾何意義就是一個帶有方向的箭頭,并且可以平移;而更直觀的理解可以把向量當成一個多維矩陣,更確切的說是用多維矩陣來描述向量。
因此,我們在大模型技術(shù)中所說的向量指的并不是空間維度;而是數(shù)據(jù)所構(gòu)成的維度。所以說,向量是一個數(shù)學概念,而矩陣是向量在計算機中的載體。
嵌入與向量
向量
向量在數(shù)學上表示的一個有方向和大小的量,在計算機中的載體是一個多維矩陣;因此向量從某些方面講就具備矩陣的性質(zhì),比如維度變換。
在大模型中數(shù)據(jù)一半通過多維矩陣來描述,比如大模型參數(shù)中有一個很重要的參數(shù)就是維度(dimension);這個維度指的就是多維矩陣的維度,維度越高,能夠表示的場景就越復雜。
但同樣,由于矩陣中存在著太多無用數(shù)據(jù);因此就產(chǎn)生了密集矩陣和稀疏矩陣的區(qū)別;而稀疏矩陣可以通過降維的方式來壓縮其矩陣大小,以此來獲取更高的存儲效率。
高維矩陣與低維矩陣的區(qū)別就類似于圖片中的像素點;像素點越多,圖片質(zhì)量越好,觀感上就更細膩;而像素點越低,圖像就越模糊,丟失的東西就越多。
但同樣的圖片效果怎么樣,除了像素點之外還有你觀看距離的影響,離得越遠,像素點的影響越小。
而為了解決近距離觀看的效果,升維就有了用武之地;而遠距離觀看,就可以對數(shù)據(jù)進行降維處理,節(jié)省空間,提升效率。
而至于怎么描述數(shù)據(jù)之間的語義關(guān)系,就是通過向量之間的計算——比如歐式距離,余弦,內(nèi)積等。
嵌入
嵌入雖然本質(zhì)上都是把離散數(shù)據(jù)映射到高維矩陣中,通過向量的空間關(guān)系來捕捉數(shù)據(jù)之間的語義關(guān)系;但其在不同的場景中又有一定的區(qū)別。
詞嵌入
詞嵌入是將單詞映射為數(shù)值向量,以捕捉單詞間的語義和句法關(guān)系,為自然語言處理任務提供有效的特征表示。
方法與技術(shù):詞嵌入通過預測單詞上下文(如Word2Vec)或全局詞頻統(tǒng)計(如GloVe)來學習,也可使用深度神經(jīng)網(wǎng)絡捕捉更復雜的語言特征。
圖像嵌入
圖像嵌入是將圖像轉(zhuǎn)換為低維向量,以簡化處理并保留關(guān)鍵信息供機器學習使用。
方法與技術(shù):利用深度學習模型(如CNN)抽取圖像特征,通過降維技術(shù)映射到低維空間,訓練優(yōu)化嵌入向量。
在機器學習中,Embedding 主要是指將離散的高維數(shù)據(jù)(如文字、圖片、音頻)映射到低緯度的連續(xù)向量空間。這個過程會生成由實數(shù)構(gòu)成的向量,用于捕捉原始數(shù)據(jù)的潛在的關(guān)系和結(jié)構(gòu)。
本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires
