谷歌提出視覺記憶方法,讓大模型訓(xùn)練數(shù)據(jù)更靈活
目前,多數(shù)大模型一旦經(jīng)過預(yù)訓(xùn)練,其內(nèi)部結(jié)構(gòu)便難以改變,就像把知識(shí)刻在石頭一樣。如果你想對模型的數(shù)據(jù)進(jìn)行更新,就需要對整個(gè)模型重新訓(xùn)練,消耗大量時(shí)間和AI算力。
為了解決這一難題,谷歌DeepMind的研究人員提出了創(chuàng)新視覺記憶技術(shù),其核心是將深度學(xué)習(xí)模型的表示能力與數(shù)據(jù)庫的靈活性相結(jié)合,可以靈活地添加或刪除數(shù)據(jù)。簡單來說,和人類的視覺記憶差不多,既能不斷學(xué)習(xí)新的知識(shí),又能對已有的知識(shí)進(jìn)行更新和調(diào)整。
構(gòu)建視覺記憶的過程主要有兩個(gè)步驟:首先建立視覺記憶,然后利用快速最近鄰檢索進(jìn)行分類。視覺記憶本質(zhì)上是一個(gè)存儲(chǔ)了圖像及其對應(yīng)標(biāo)簽的數(shù)據(jù)庫,其中每張圖片都被映射到一個(gè)高維嵌入空間。
當(dāng)接收到一個(gè)新的查詢圖像時(shí),系統(tǒng)會(huì)計(jì)算其與內(nèi)存中所有圖像之間的距離,并返回最接近的幾個(gè)鄰居作為候選答案。接下來,通過對這些候選答案進(jìn)行加權(quán)投票來確定最終分類結(jié)果。
在構(gòu)建視覺記憶的第一步中,從一個(gè)圖像數(shù)據(jù)集中提?。▓D像,標(biāo)簽)對,并使用一個(gè)固定的預(yù)訓(xùn)練圖像編碼器來提取特征映射。這些特征映射和對應(yīng)的標(biāo)簽對被存儲(chǔ)在一個(gè)數(shù)據(jù)庫中,形成了用于分類的視覺記憶。這種方法的一個(gè)關(guān)鍵優(yōu)勢在于,它不需要在添加信息到視覺記憶時(shí)進(jìn)行額外的訓(xùn)練,可以快速地將新的知識(shí)整合到模型中,而不需要重新訓(xùn)練整個(gè)神經(jīng)網(wǎng)絡(luò)。
特征提取是構(gòu)建視覺記憶的關(guān)鍵環(huán)節(jié)之一。在這個(gè)過程中,使用DinoV2、CLIP預(yù)訓(xùn)練的圖像編碼器將圖像映射到一個(gè)特征空間中,其中相似的圖像在特征空間中的距離也相近。通過這種方式,可以為每個(gè)圖像生成一個(gè)特征向量,這個(gè)向量捕捉了圖像的關(guān)鍵信息,并為后續(xù)的相似性搜索提供了基礎(chǔ)。
一旦有了這些特征向量,我們就可以構(gòu)建一個(gè)數(shù)據(jù)庫,其中包含了圖像的特征向量和對應(yīng)的標(biāo)簽。這個(gè)數(shù)據(jù)庫就是我們的視覺記憶,它存儲(chǔ)了模型所“知道”的所有信息。當(dāng)需要對一個(gè)新的查詢圖像進(jìn)行分類時(shí),系統(tǒng)會(huì)提取該圖像的特征向量,并在視覺記憶中尋找與之最相似的圖像。
在視覺記憶建立之后,下一步就是利用這個(gè)記憶進(jìn)行快速的最近鄰搜索,以輔助圖像分類。給定一個(gè)查詢圖像,系統(tǒng)首先提取其特征向量,然后在視覺記憶中搜索與之最相似的特征向量。這些相似的特征向量被稱為“鄰居”,按照與查詢圖像的距離進(jìn)行排序。最近的鄰居被認(rèn)為是與查詢圖像最相似的圖像,因此在分類決策中具有最高的權(quán)重。
例如,如果我們想讓模型識(shí)別新的物體類別數(shù)據(jù),可以簡單地將這些新類別的圖像特征向量和標(biāo)簽添加到視覺記憶中,模型就能夠在不重新訓(xùn)練的情況下,立即使用這些新信息進(jìn)行分類決策。
除了能靈活添加數(shù)據(jù)之外,還能快速刪除特定數(shù)據(jù),主要通過機(jī)器反學(xué)習(xí)來實(shí)現(xiàn)。機(jī)器反學(xué)習(xí)可以通過簡單地從數(shù)據(jù)庫中刪除對應(yīng)的(圖像,標(biāo)簽)對來實(shí)現(xiàn)。這樣,當(dāng)模型再次進(jìn)行分類決策時(shí),這些被刪除的數(shù)據(jù)就不會(huì)被考慮在內(nèi)。
例如,如果我們發(fā)現(xiàn)某個(gè)數(shù)據(jù)樣本包含有偏見或不準(zhǔn)確的信息,我們可以將其從視覺記憶中刪除,以確保模型的決策不受這些數(shù)據(jù)的影響。
為了進(jìn)一步優(yōu)化視覺記憶,研究人員還引入了“記憶剪枝”方法,通過識(shí)別并移除或降低低質(zhì)量樣本的影響來實(shí)現(xiàn)優(yōu)化。
記憶剪枝的過程涉及到對視覺記憶中的每個(gè)樣本進(jìn)行評估,以確定它們對分類決策的貢獻(xiàn)。這可以通過分析樣本在訓(xùn)練集上的表現(xiàn)來實(shí)現(xiàn),例如,通過計(jì)算樣本在分類決策中導(dǎo)致錯(cuò)誤的次數(shù)。那些導(dǎo)致錯(cuò)誤次數(shù)較多的樣本可能被認(rèn)為是低質(zhì)量的,因此可以被移除或降低權(quán)重。
論文地址:https://arxiv.org/pdf/2408.08172
本文轉(zhuǎn)自 AIGC開放社區(qū),作者: AIGC開放社區(qū)
