再談大模型向量,由向量檢索引起的思考 原創(chuàng)
“ 向量是大模型技術(shù)的基礎(chǔ)數(shù)據(jù)格式,也是用來描述語義關(guān)系的核心數(shù)學(xué)模型 ”
大模型是基于向量作為基礎(chǔ)數(shù)據(jù)格式,這是一個(gè)客觀存在的事實(shí);但在此之前一直沒有深入思考過向量這個(gè)問題;最近幾天在搞向量數(shù)據(jù)庫的時(shí)候,才突然發(fā)現(xiàn)向量遠(yuǎn)遠(yuǎn)沒有想的那么簡單。
思考一個(gè)簡單的問題,向量數(shù)據(jù)庫實(shí)現(xiàn)的原理是什么?
由向量數(shù)據(jù)庫引起的思考
在上面的問題中,向量數(shù)據(jù)庫的實(shí)現(xiàn)原理,說到這個(gè)可能很多人會(huì)覺得這個(gè)問題太復(fù)雜;那么就換一種簡單的問法,向量檢索的原理是什么?
學(xué)過中學(xué)數(shù)學(xué)的應(yīng)該都知道,向量是一種具有大小和方向的量;直觀體現(xiàn)就是在平面坐標(biāo)系中的一個(gè)黑色箭頭。
但那時(shí)所學(xué)的向量屬于基礎(chǔ)的數(shù)學(xué)概念,和今天所講的大模型使用的向量還不是一回事;一般說到向量,我們指的都是空間向量,也就是能在坐標(biāo)系中畫出來,能讓我們直觀看到的類似空間幾何的東西。
但大模型所使用的向量是一種數(shù)學(xué)概念上的向量,而不是我們所認(rèn)為的空間向量;比如說320維的向量,誰知道320維是什么樣的,四維空間到現(xiàn)在我們還無法想象呢。
大模型所使用的向量,在數(shù)學(xué)上是通過矩陣來表示的一種數(shù)學(xué)結(jié)構(gòu);在編程技術(shù)中就是數(shù)據(jù)結(jié)構(gòu)中的多維數(shù)組,或者叫矩陣。
在前面的文章中有說過,之前的檢索都是通過字符匹配的方式來實(shí)現(xiàn);但大模型作為人工智能技術(shù)的實(shí)現(xiàn)方式之一,需要做的不僅僅只是字符匹配,還需要有語義關(guān)聯(lián)。
比如說,我好餓,我想吃飯;這是一句有實(shí)際語義的一句話;而如果是一篇文章,一本書,那都是具有實(shí)際語義的話;而且同樣的話,在不同的語境下會(huì)有不同的意義;因此,就需要一種方式來表達(dá)或者說描述語義之間的關(guān)系,而最終選擇的就是向量。
那向量在大模型中的意義是什么?以及其是怎么實(shí)現(xiàn)的?
向量是描述大模型系統(tǒng)的一個(gè)數(shù)學(xué)結(jié)構(gòu),由于大模型的復(fù)雜度,因?yàn)榫托枰幸环N數(shù)學(xué)結(jié)構(gòu)去描述這種復(fù)雜關(guān)系;而向量由于其具有高維性質(zhì),因?yàn)榫蛣偤每梢杂脕砻枋鰪?fù)雜的模型關(guān)系。比如常見的歐式距離以及余弦相似度,經(jīng)常被用來計(jì)算向量之間的關(guān)系,也就是文本(包括其它模態(tài)的數(shù)據(jù))的語義關(guān)系。
而在大模型的發(fā)展與具體應(yīng)用中,大模型所支持的數(shù)據(jù)格式也越來越多;比如說隨著多模態(tài)大模型的興起,大模型所面臨的場景越來越復(fù)雜,難度也同樣呈幾何度上升。
而怎么對(duì)這種多模態(tài)數(shù)據(jù)進(jìn)行統(tǒng)一處理,同樣需要一種基礎(chǔ)的數(shù)學(xué)結(jié)構(gòu);而向量剛好能滿足這個(gè)要求;原因就在于,高維向量的復(fù)雜性導(dǎo)致其能涵蓋各種復(fù)雜的任務(wù)場景,并且能夠通過數(shù)值計(jì)算的方式來處理這些數(shù)據(jù)。
如果從向量的角度來理解大模型訓(xùn)練和微調(diào),那么大模型的訓(xùn)練和微調(diào)是在做什么?
大模型的訓(xùn)練和微調(diào)就是通過一種數(shù)據(jù)模型,把輸入到模型中的訓(xùn)練數(shù)據(jù),使用向量去描述其關(guān)系,然后根據(jù)損失函數(shù)的誤差,不斷的去調(diào)整其向量關(guān)系的值;最后使得這個(gè)值達(dá)到最優(yōu)解;然后把模型的計(jì)算參數(shù)(大模型的參數(shù))保存下來。
所以,在大模型訓(xùn)練完成之后,就可以通過保存下來的參數(shù)來描述新的輸入數(shù)據(jù);然后根據(jù)新數(shù)據(jù)的要求來生成其向量關(guān)系最近的新內(nèi)容。
從這一點(diǎn)來看,所謂的大模型技術(shù)就是尋找一種通用的數(shù)學(xué)模型;去計(jì)算不同模態(tài)數(shù)據(jù)的數(shù)學(xué)關(guān)系;而描述這種數(shù)學(xué)關(guān)系的數(shù)學(xué)類型就是向量。
所以,如果從這一點(diǎn)進(jìn)行反推,在未來有一種數(shù)學(xué)模型能夠完全模擬人腦的運(yùn)作方式;那么就可以用一種數(shù)據(jù)格式(如向量)來描述大腦的思維過程,實(shí)現(xiàn)最終的人工智能。
本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires