什么是多模態(tài)大模型 原創(chuàng)
“ 多模態(tài)大模型核心要點(diǎn)只有兩個(gè),交叉性和互補(bǔ)性;多模態(tài)大模型的目的就是在保證互補(bǔ)性的前提下,去除交叉性 ”
在上一篇文章中介紹了什么是生成式大模型,生成式大模型的本質(zhì)是一種表征模型,主要包括兩個(gè)方面理解與生成,或者說(shuō)所有的模型都是基于理解和生成兩個(gè)方面組成。
而什么是多模態(tài)模型呢?網(wǎng)上一般談到多模態(tài)模型,就是具有多種數(shù)據(jù)模式的模型,比如同時(shí)能夠處理文字,圖片,視頻等多種模態(tài)數(shù)據(jù)的模型。
其實(shí)從本質(zhì)上來(lái)說(shuō),多模態(tài)模型和生成式模型都是一種表征模型,畢竟多模態(tài)也是生成式模型的一種,只不過(guò)多模態(tài)的數(shù)據(jù)格式更復(fù)雜。
多模態(tài)模型
再來(lái)回顧一下什么是生成式模型,生成式模型是基于一種機(jī)器學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò)模型,構(gòu)建的一種可以對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行表征學(xué)習(xí),通過(guò)模型參數(shù)記錄表征結(jié)果,這個(gè)就是大模型的訓(xùn)練/學(xué)習(xí)的過(guò)程;而根據(jù)表征結(jié)果,模型可以根據(jù)用戶輸入生成新的樣本數(shù)據(jù);這就是模型的兩個(gè)核心要點(diǎn),理解與生成。
多模態(tài)是建立在生成式模型基礎(chǔ)之上的,一種更加復(fù)雜的模型范式,因?yàn)槠渲С侄喾N模態(tài)的數(shù)據(jù),所以叫做多模態(tài)。
那多模態(tài)的核心技術(shù)難點(diǎn)是什么呢?
從技術(shù)的角度來(lái)說(shuō),多模態(tài)的技術(shù)原理與生成式模型的技術(shù)沒(méi)有本質(zhì)的區(qū)別,都是數(shù)據(jù)表征的一種形式;但區(qū)別是,多模態(tài)要同時(shí)表征多種格式的數(shù)據(jù),這個(gè)難度就不是簡(jiǎn)單的1加1等于2的問(wèn)題,其難度系數(shù)呈指數(shù)式上升。
而其核心技術(shù)點(diǎn),也是其核心難點(diǎn)就是多模態(tài)融合;所謂的多模態(tài)融合就是指兩個(gè)以上模態(tài)數(shù)據(jù)形成的多種不同種類的組合。
對(duì)于每一種信息來(lái)源都屬于一種模態(tài),比如耳朵接受的聲音信息,眼睛看到的圖像信息,以及皮膚感知的溫濕度等信息,每一種都是一個(gè)模態(tài)。之所以需要對(duì)不同模態(tài)的數(shù)據(jù)進(jìn)行融合,是因?yàn)椴煌B(tài)數(shù)據(jù)表現(xiàn)形式不一樣,組織形式也不一樣。
比如文本的表現(xiàn)形式主要是字符,而圖像的表現(xiàn)形式是像素;而這是完全不同的兩種表現(xiàn)形式,更不用說(shuō)更加復(fù)雜的視頻等其它模態(tài)的數(shù)據(jù)。
由于不同模態(tài)數(shù)據(jù)之間的表現(xiàn)形式不一樣,其表達(dá)形式也不一樣;所以不同模態(tài)數(shù)據(jù)之間就存在很多交叉點(diǎn);這就像我們看待一些古人的作品,能在字中看出畫(huà),在畫(huà)中看出字。
而這些數(shù)據(jù)交叉點(diǎn)就是數(shù)據(jù)的冗余性,不同數(shù)據(jù)之間存在著大量的冗余數(shù)據(jù);但從另一個(gè)角度來(lái)說(shuō),文字與圖片又是互補(bǔ)的,比如說(shuō)有些人會(huì)在畫(huà)上題詩(shī),也有人以詩(shī)作畫(huà),而這又是詩(shī)與畫(huà)的互補(bǔ)。
而互補(bǔ)之后的詩(shī)和畫(huà),要比單純的詩(shī)和畫(huà)表現(xiàn)形式更好,更生動(dòng),更形象;也就是說(shuō)多模態(tài)的表征,要比單模態(tài)表征更加的優(yōu)秀;而且不同模態(tài)數(shù)據(jù)之間可能還存在更加豐富的信息交互形式,而如果能夠合理的處理這些信息交互,那么就可以更加豐富的特征信息。
因此,多模態(tài)概括來(lái)說(shuō)就是,信息的交叉(冗余)和互補(bǔ),這也是多模態(tài)的一個(gè)顯著特點(diǎn)。
但是,多模態(tài)雖然比單模態(tài)表征形式更豐富,更優(yōu)秀;但怎么讓不同模態(tài)的數(shù)據(jù)融合在一起,但又不會(huì)喪失其本身的特性;也就是說(shuō),怎么保證不同模態(tài)數(shù)據(jù)的互補(bǔ)性的前提下, 又能去除不同數(shù)據(jù)之間的冗余信息。
而這就是多模態(tài)的幾個(gè)核心技術(shù)點(diǎn):
- 表征:怎么用一種表征方式,同時(shí)去表征多種不同模態(tài)的數(shù)據(jù);簡(jiǎn)單來(lái)說(shuō)就是使用一種模態(tài)能夠同時(shí)表征出文字,圖片和視頻等多種格式的數(shù)據(jù)。
- 翻譯:多模態(tài)的目的雖然是模態(tài)融合,但有一種輸入格式的同時(shí),就需要有一種格式的輸出;而在多模態(tài)環(huán)境下,如果用戶輸入一段文本,但想要一張圖片,怎么把文本數(shù)據(jù)翻譯成圖像數(shù)據(jù),這就是翻譯的作用。
- 對(duì)齊:說(shuō)到對(duì)齊可能很多人簡(jiǎn)單理解為把文本模態(tài)的數(shù)據(jù)與圖像模態(tài)的數(shù)據(jù)進(jìn)行對(duì)齊;但事實(shí)上對(duì)齊是找到不同模態(tài)數(shù)據(jù)之間的關(guān)系,如某個(gè)詞對(duì)應(yīng)圖像的某個(gè)區(qū)域等;對(duì)齊也可以理解為是翻譯的基礎(chǔ)。
- 融合:融合就是在對(duì)齊的前提下,對(duì)多種不同模態(tài)的數(shù)據(jù)進(jìn)行融合,也就是去除其交叉數(shù)據(jù),又保留其本身的特性節(jié)點(diǎn)。根據(jù)不同的技術(shù)實(shí)現(xiàn),融合分為前期融合,中期融合和晚期融合等多種方式。
- 聯(lián)合學(xué)習(xí):聯(lián)合學(xué)習(xí)就是利用不同模態(tài)數(shù)據(jù)之間的特性,使得大模型能夠更加快速,更加高效的學(xué)習(xí);也能更加高效得生成。比如遷移學(xué)習(xí)等。
- 以上只是多模態(tài)模型的理論,但具體算法的實(shí)現(xiàn),根據(jù)不同的場(chǎng)景有一些不同的實(shí)現(xiàn)算法,比如貝葉斯決策理論,稀疏表示理論算法等;當(dāng)然,也有一些研究人員在不斷得開(kāi)發(fā)新的算法。
總之,多模態(tài)大模型是一種更加強(qiáng)大的生成式模型,當(dāng)然其技術(shù)實(shí)現(xiàn)難度也更大。但多模態(tài)也可能是人類實(shí)現(xiàn)通用人工智能的一種方式。
本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires
