無(wú)創(chuàng)解碼大腦信號(hào)語(yǔ)義,中科院自動(dòng)化所研發(fā)腦-圖-文多模態(tài)學(xué)習(xí)模型
- 論文地址:https://ieeexplore.ieee.org/document/10089190
- 代碼地址:https://github.com/ChangdeDu/BraVL
- 數(shù)據(jù)地址:https://figshare.com/articles/dataset/BraVL/17024591
太長(zhǎng)不看版
這項(xiàng)研究首次將大腦、視覺(jué)和語(yǔ)言知識(shí)相結(jié)合,通過(guò)多模態(tài)學(xué)習(xí)的方式,實(shí)現(xiàn)了從人類(lèi)腦活動(dòng)記錄中零樣本地解碼視覺(jué)新類(lèi)別。本文還貢獻(xiàn)了三個(gè)「腦 - 圖 - 文」三模態(tài)匹配數(shù)據(jù)集。
實(shí)驗(yàn)結(jié)果表明了一些有趣的結(jié)論和認(rèn)知洞見(jiàn):1)從人類(lèi)腦活動(dòng)中解碼新的視覺(jué)類(lèi)別是可以實(shí)現(xiàn)的,并且精度較高;2)使用視覺(jué)和語(yǔ)言特征的組合的解碼模型比僅使用其中之一的模型表現(xiàn)更好;3)視覺(jué)感知可能伴隨著語(yǔ)言影響來(lái)表示視覺(jué)刺激的語(yǔ)義。這些發(fā)現(xiàn)不僅對(duì)人類(lèi)視覺(jué)系統(tǒng)的理解有所啟示,而且也為將來(lái)的腦機(jī)接口技術(shù)提供了新的思路。本研究的代碼和數(shù)據(jù)集均已開(kāi)源。
研究背景
解碼人類(lèi)視覺(jué)神經(jīng)表征是一個(gè)具有重要科學(xué)意義的挑戰(zhàn),可以揭示視覺(jué)處理機(jī)制并促進(jìn)腦科學(xué)與人工智能的發(fā)展。然而,目前的神經(jīng)解碼方法難以泛化到訓(xùn)練數(shù)據(jù)以外的新類(lèi)別上,主要原因有兩個(gè):一是現(xiàn)有方法未充分利用神經(jīng)數(shù)據(jù)背后的多模態(tài)語(yǔ)義知識(shí),二是現(xiàn)有的可利用的配對(duì)(刺激 - 腦響應(yīng))訓(xùn)練數(shù)據(jù)很少。
研究表明,人類(lèi)對(duì)視覺(jué)刺激的感知和識(shí)別受到視覺(jué)特征和人們先前經(jīng)驗(yàn)的影響。例如當(dāng)我們看到一個(gè)熟悉的物體時(shí),我們的大腦會(huì)自然而然地檢索與該物體相關(guān)的知識(shí)。如下圖 1 所示,認(rèn)知神經(jīng)科學(xué)對(duì)雙重編碼理論 [9] 的研究認(rèn)為,具體概念在大腦中既以視覺(jué)方式又以語(yǔ)言方式進(jìn)行編碼,其中語(yǔ)言作為有效的先驗(yàn)經(jīng)驗(yàn),有助于塑造由視覺(jué)生成的表征。
因此,作者認(rèn)為想要更好地解碼記錄到的腦信號(hào),不僅應(yīng)該使用實(shí)際呈現(xiàn)的視覺(jué)語(yǔ)義特征,還應(yīng)該包括與該視覺(jué)目標(biāo)對(duì)象相關(guān)的更豐富的語(yǔ)言語(yǔ)義特征的組合來(lái)進(jìn)行解碼。
圖 1. 人類(lèi)大腦中的知識(shí)雙重編碼。當(dāng)我們看到大象的圖片時(shí),會(huì)自然地在腦海中檢索到大象的相關(guān)知識(shí)(如長(zhǎng)長(zhǎng)的鼻子、長(zhǎng)長(zhǎng)的牙齒、大大耳朵等)。此時(shí),大象的概念會(huì)在大腦中以視覺(jué)和語(yǔ)言的形式進(jìn)行編碼,其中語(yǔ)言作為一種有效的先前經(jīng)驗(yàn),有助于塑造由視覺(jué)產(chǎn)生的表征。
如下圖 2 所示,由于收集各種視覺(jué)類(lèi)別的人腦活動(dòng)非常昂貴,通常研究者只有非常有限的視覺(jué)類(lèi)別的腦活動(dòng)。然而,圖像和文本數(shù)據(jù)卻非常豐富,它們也可以提供額外的有用信息。本文的方法可以充分利用所有類(lèi)型的數(shù)據(jù)(三模態(tài)、雙模態(tài)和單模態(tài))來(lái)提高神經(jīng)解碼的泛化能力。
圖 2. 圖像刺激、引發(fā)的大腦活動(dòng)以及它們相應(yīng)的文本數(shù)據(jù)。我們只能為少數(shù)類(lèi)別收集大腦活動(dòng)數(shù)據(jù),但是可以很容易地收集幾乎所有類(lèi)別的圖像和 / 或文本數(shù)據(jù)。因此,對(duì)于已知類(lèi)別,我們假設(shè)大腦活動(dòng)、視覺(jué)圖像和相應(yīng)的文本描述都可用于訓(xùn)練,而對(duì)于新類(lèi)別,僅視覺(jué)圖像和文本描述可用于訓(xùn)練。測(cè)試數(shù)據(jù)是來(lái)自新類(lèi)別的大腦活動(dòng)數(shù)據(jù)。
「腦 - 圖 - 文」多模態(tài)學(xué)習(xí)
如下圖 3A 所示,本文方法的關(guān)鍵在于將每種模態(tài)學(xué)習(xí)到的分布對(duì)齊到一個(gè)共享的潛在空間中,該空間包含與新類(lèi)別相關(guān)的基本多模態(tài)信息。
具體地說(shuō),作者提出了一種多模態(tài)自編碼變分貝葉斯學(xué)習(xí)框架,其中使用了專(zhuān)家混合相乘模型(Mixture-of-Products-of-Experts,MoPoE),推斷出一種潛在編碼,以實(shí)現(xiàn)所有三種模態(tài)的聯(lián)合生成。為了學(xué)習(xí)更相關(guān)的聯(lián)合表示,并在腦活動(dòng)數(shù)據(jù)有限的情況下提高數(shù)據(jù)效率,作者還進(jìn)一步引入了模態(tài)內(nèi)和模態(tài)間的互信息正則化項(xiàng)。此外,BraVL 模型可以在各種半監(jiān)督學(xué)習(xí)場(chǎng)景下進(jìn)行訓(xùn)練,以納入額外的大規(guī)模圖像類(lèi)別的視覺(jué)和文本特征。
在圖 3B 中,作者從新類(lèi)別的視覺(jué)和文本特征的潛在表示中訓(xùn)練 SVM 分類(lèi)器。需要注意的是,在這一步中編碼器 E_v 和 E_t 被凍結(jié),只有 SVM 分類(lèi)器(灰色模塊)會(huì)被優(yōu)化。
在應(yīng)用中,如圖 3C 所示,本文方法的輸入僅為新類(lèi)別腦信號(hào),不需要其他數(shù)據(jù),因此可以輕松應(yīng)用于大多數(shù)神經(jīng)解碼場(chǎng)景。SVM 分類(lèi)器之所以能夠從(B)推廣到(C),是因?yàn)檫@三種模態(tài)的潛在表示已經(jīng)在 A 中對(duì)齊。
圖 3 本文提出的 “腦 - 圖 - 文” 三模態(tài)聯(lián)合學(xué)習(xí)框架,簡(jiǎn)稱(chēng) BraVL。
此外,腦信號(hào)會(huì)因試次(trial)的不同而發(fā)生變化,即使是相同的視覺(jué)刺激也是如此。為了提高神經(jīng)解碼的穩(wěn)定性,作者使用了穩(wěn)定性選擇方法來(lái)處理 fMRI 數(shù)據(jù)。所有體素的穩(wěn)定性分?jǐn)?shù)如下圖 4 所示,作者選取穩(wěn)定性最好的前 15% 體素參與神經(jīng)解碼過(guò)程。這種操作可以有效地降低 fMRI 數(shù)據(jù)的維度,并抑制噪聲體素引起的干擾,而不會(huì)嚴(yán)重影響腦特征的判別能力。
圖 4. 大腦視覺(jué)皮層的體素活動(dòng)穩(wěn)定性分?jǐn)?shù)映射圖。
現(xiàn)有的神經(jīng)編解碼數(shù)據(jù)集往往只有圖像刺激和腦響應(yīng)。為了獲取視覺(jué)概念對(duì)應(yīng)的語(yǔ)言描述,作者采用了一種半自動(dòng)的維基百科文章抽取方法。
具體來(lái)說(shuō),作者首先創(chuàng)建 ImageNet 類(lèi)與其對(duì)應(yīng)的維基百科頁(yè)面的自動(dòng)匹配,匹配是基于 ImageNet 類(lèi)和維基百科標(biāo)題的同義詞集單詞之間的相似性,以及它們的父類(lèi)別。如下圖 5 所示,遺憾的是,這種匹配偶爾會(huì)產(chǎn)生假陽(yáng)性,因?yàn)槊Q(chēng)相似的類(lèi)可能表示非常不同的概念。在構(gòu)建三模態(tài)數(shù)據(jù)集時(shí),為了確保視覺(jué)特征和語(yǔ)言特征之間的高質(zhì)量匹配,作者手動(dòng)刪除了不匹配的文章。
圖 5. 半自動(dòng)視覺(jué)概念描述獲取
實(shí)驗(yàn)結(jié)果
作者在多個(gè)「腦 - 圖 - 文」三模態(tài)匹配數(shù)據(jù)集上進(jìn)行了廣泛的零樣本神經(jīng)解碼實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下表所示??梢钥吹剑?span style="color: #3daad6;">使用視覺(jué)和文本特征組合 (V&T) 的模型比單獨(dú)使用它們中的任何一種的模型表現(xiàn)得要好得多。值得注意的是,基于 V&T 特征的 BraVL 在兩個(gè)數(shù)據(jù)集上的平均 top-5 準(zhǔn)確率都有顯著提高。這些結(jié)果表明,盡管呈現(xiàn)給被試的刺激只包含視覺(jué)信息,但可以想象,被試會(huì)下意識(shí)地調(diào)用適當(dāng)?shù)恼Z(yǔ)言表征,從而影響視覺(jué)處理。
對(duì)于每個(gè)視覺(jué)概念類(lèi)別,作者還展示了加入文本特征后的神經(jīng)解碼準(zhǔn)確率增益,如下圖 6 所示??梢钥吹?,對(duì)于大多數(shù)測(cè)試類(lèi),文本特征的加入都有積極的影響,平均 Top-1 解碼精度提高了約 6%。
圖 6. 加入文本特征后的神經(jīng)解碼準(zhǔn)確率增益
除了神經(jīng)解碼分析,作者還分析了文本特征在體素級(jí)神經(jīng)編碼方面的貢獻(xiàn) (基于視覺(jué)或文本特征預(yù)測(cè)相應(yīng)的腦體素活動(dòng)),結(jié)果如圖 7 所示??梢?jiàn),對(duì)于大多數(shù)高級(jí)視覺(jué)皮層 (HVC,如 FFA, LOC 和 IT),在視覺(jué)特征的基礎(chǔ)上融合文本特征可以提高大腦活動(dòng)的預(yù)測(cè)精度,而對(duì)于大多數(shù)低級(jí)視覺(jué)皮層 (LVC,如 V1, V2 和 V3),融合文本特征是沒(méi)有好處的,甚至是有害的。
從認(rèn)知神經(jīng)科學(xué)的角度來(lái)看,我們的結(jié)果是合理的,因?yàn)橐话阏J(rèn)為 HVC 負(fù)責(zé)處理物體的類(lèi)別信息、運(yùn)動(dòng)信息等更高層次的語(yǔ)義信息,而 LVC 負(fù)責(zé)處理方向、輪廓等底層信息。此外,最近的一項(xiàng)神經(jīng)科學(xué)研究發(fā)現(xiàn),視覺(jué)和語(yǔ)言語(yǔ)義表示在人類(lèi)視覺(jué)皮層的邊界上對(duì)齊 (即「語(yǔ)義對(duì)齊假說(shuō)」)[10],作者的實(shí)驗(yàn)結(jié)果也支持這一假說(shuō)
圖 7. 將文本特征貢獻(xiàn)投影到視覺(jué)皮層
更多實(shí)驗(yàn)結(jié)果請(qǐng)參見(jiàn)原文。
總體上,本文得出了一些有趣的結(jié)論和認(rèn)知洞見(jiàn):1)從人類(lèi)腦活動(dòng)中解碼新的視覺(jué)類(lèi)別是可以實(shí)現(xiàn)的,并且精度較高;2)使用視覺(jué)和語(yǔ)言特征組合的解碼模型比單獨(dú)使用兩者中的任何一種的解碼模型的性能要好得多;3)視覺(jué)感知可能伴隨著語(yǔ)言影響來(lái)表示視覺(jué)刺激的語(yǔ)義;4) 使用自然語(yǔ)言作為概念描述比使用類(lèi)名具有更高的神經(jīng)解碼性能;5) 單模態(tài)和雙模態(tài)的額外數(shù)據(jù)均能顯著提高解碼精度。
討論與展望
論文第一作者、中科院自動(dòng)化所特別研究助理杜長(zhǎng)德表示:「此工作證實(shí)了從大腦活動(dòng)、視覺(jué)圖像和文本描述中提取的特征對(duì)于解碼神經(jīng)信號(hào)是有效的。然而,提取的視覺(jué)特征可能無(wú)法準(zhǔn)確反映人類(lèi)視覺(jué)處理的所有階段,更好的特征集將有助于這些任務(wù)的完成。例如,可以使用更大的預(yù)訓(xùn)練語(yǔ)言模型(如 GPT-3),來(lái)提取更具有零樣本泛化能力的文本特征。此外,盡管維基百科文章包含豐富的視覺(jué)信息,但這些信息很容易被大量的非視覺(jué)句子所掩蓋。通過(guò)視覺(jué)句子提取或者使用 ChatGPT 和 GPT-4 等模型收集更準(zhǔn)確和豐富的視覺(jué)描述可以解決這個(gè)問(wèn)題。最后,與相關(guān)研究相比,雖然本研究使用了相對(duì)較多的三模態(tài)數(shù)據(jù),但更大更多樣化的數(shù)據(jù)集會(huì)更有益。這些方面我們留待未來(lái)的研究?!?/span>
論文通訊作者、中科院自動(dòng)化所何暉光研究員指出:「本文提出的方法有三個(gè)潛在的應(yīng)用:1)作為一種神經(jīng)語(yǔ)義解碼工具,此方法將在新型讀取人腦語(yǔ)義信息的神經(jīng)假肢設(shè)備的開(kāi)發(fā)中發(fā)揮重要作用。雖然這種應(yīng)用還不成熟,但本文的方法為其提供了技術(shù)基礎(chǔ)。2)通過(guò)跨模態(tài)推斷腦活動(dòng),本文方法還可以用作神經(jīng)編碼工具,用于研究視覺(jué)和語(yǔ)言特征如何在人類(lèi)大腦皮層上表達(dá),揭示哪些腦區(qū)具有多模態(tài)屬性(即對(duì)視覺(jué)和語(yǔ)言特征敏感)。3)AI 模型內(nèi)部表征的神經(jīng)可解碼性可以被視為該模型的類(lèi)腦水平指標(biāo)。因此,本文的方法也可以用作類(lèi)腦特性評(píng)估工具,測(cè)試哪個(gè)模型的(視覺(jué)或語(yǔ)言)表征更接近于人類(lèi)腦活動(dòng),從而激勵(lì)研究人員設(shè)計(jì)更類(lèi)腦的計(jì)算模型?!?/span>
神經(jīng)信息編解碼是腦機(jī)接口領(lǐng)域的核心問(wèn)題,也是探索人腦復(fù)雜功能背后的原理從而促進(jìn)類(lèi)腦智能發(fā)展的有效途徑。自動(dòng)化所神經(jīng)計(jì)算與腦機(jī)交互研究團(tuán)隊(duì)已在該領(lǐng)域持續(xù)深耕多年,做出了一系列研究工作,發(fā)表在 TPAMI 2023、TMI2023、TNNLS 2022/2019、TMM 2021、Info. Fusion 2021, AAAI 2020 等。前期工作被 MIT Technology Review 頭條報(bào)道,并獲得 ICME 2019 Best Paper Runner-up Award。
該研究得到了科技創(chuàng)新 2030—“新一代人工智能” 重大項(xiàng)目、基金委項(xiàng)目、自動(dòng)化所 2035 項(xiàng)目以及中國(guó)人工智能學(xué)會(huì) - 華為 MindSpore 學(xué)術(shù)獎(jiǎng)勵(lì)基金及智能基座等項(xiàng)目的支持。
作者簡(jiǎn)介
第一作者:杜長(zhǎng)德,中科院自動(dòng)化所特別研究助理,從事腦認(rèn)知與人工智能方面的研究,在視覺(jué)神經(jīng)信息編解碼、多模態(tài)神經(jīng)計(jì)算等方面發(fā)表論文 40 余篇,包括 TPAMI/TNNLS/AAAI/KDD/ACMMM 等。曾獲得 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 華人新星百?gòu)?qiáng)。先后承擔(dān)科技部、基金委、中科院的多項(xiàng)科研任務(wù),研究成果被 MIT Technology Review 頭條報(bào)道。
個(gè)人主頁(yè):https://changdedu.github.io/
通訊作者:何暉光,中科院自動(dòng)化所研究員,博導(dǎo),中國(guó)科學(xué)院大學(xué)崗位教授,上??萍即髮W(xué)特聘教授,中科院青促會(huì)優(yōu)秀會(huì)員,建國(guó)七十周年紀(jì)念章獲得者。先后承擔(dān) 7 項(xiàng)國(guó)家自然基金(含基金重點(diǎn)和國(guó)際合作重點(diǎn))、2 項(xiàng) 863、國(guó)家重點(diǎn)研究計(jì)劃課題等項(xiàng)目。曾獲得國(guó)家科技進(jìn)步二等獎(jiǎng)兩項(xiàng)(分別排名第二、第三)、北京市科技進(jìn)步獎(jiǎng)兩項(xiàng)、教育部科技進(jìn)步一等獎(jiǎng)、中科院首屆優(yōu)秀博士論文獎(jiǎng)、北京市科技新星、中科院 “盧嘉錫青年人才獎(jiǎng)”、福建省 “閩江學(xué)者” 講座教授。其研究領(lǐng)域?yàn)槿斯ぶ悄?、腦 - 機(jī)接口、醫(yī)學(xué)影像分析等。近五年來(lái),在 IEEE TPAMI/TNNLS、ICML 等期刊和會(huì)議上發(fā)表文章 80 余篇。他是 IEEEE TCDS、《自動(dòng)化學(xué)報(bào)》等期刊編委,CCF 杰出會(huì)員,CSIG 杰出會(huì)員。