機(jī)器能模擬人類感受?明略科技多模態(tài)團(tuán)隊(duì)斬獲ACMMM全球頂會(huì)“最佳論文提名”
10月28日~11月1日,全球頂級(jí)多媒體會(huì)議ACM Multimedia(ACMMM)2024 在澳大利亞墨爾本成功召開。
明略科技集團(tuán)多模態(tài)團(tuán)隊(duì)與北京大學(xué)共同完成的最新研究成果《Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding》在眾多論文中脫穎而出,榮獲最佳論文提名(Best paper nomination)。明略科技集團(tuán)創(chuàng)始人、董事長(zhǎng)兼CEO吳明輝,多模態(tài)大模型部門負(fù)責(zé)人趙晨旭,明敬算法負(fù)責(zé)人蘇安煬受邀赴墨爾本出席此次會(huì)議。
據(jù)悉,本次會(huì)議共收到4385篇有效投稿,其中,1149篇論文被接收,174篇論文被評(píng)選為Oral,最終僅26篇獲得最佳論文提名。
明略科技集團(tuán)創(chuàng)始人、董事長(zhǎng)、CEO兼CTO吳明輝
在 ACMMM Oral Session 講解最新研究成果
明略科技集團(tuán)多模態(tài)團(tuán)隊(duì)在 ACMMM 2024 會(huì)議現(xiàn)場(chǎng)(左起:蘇安煬、吳明輝、趙晨旭)
ACMMM會(huì)議是由國(guó)際計(jì)算機(jī)學(xué)會(huì)(ACM)主辦的多媒體領(lǐng)域的頂級(jí)國(guó)際學(xué)術(shù)會(huì)議,同時(shí)也是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的A類國(guó)際學(xué)術(shù)會(huì)議(CCF-A)。自1993年舉辦以來(lái),今年是第32屆。會(huì)議議題涵蓋多媒體計(jì)算的各個(gè)方面,如多媒體內(nèi)容分析、多媒體檢索、多媒體安全、人機(jī)交互、計(jì)算機(jī)視覺(jué)等。
ACMMM 2024 會(huì)議現(xiàn)場(chǎng)公布最佳論文提名獎(jiǎng)項(xiàng)
針對(duì)當(dāng)前AI領(lǐng)域在視頻內(nèi)容理解方面主要聚焦于客觀層面,缺少主觀層面的測(cè)量標(biāo)準(zhǔn),以及機(jī)器模擬人類主觀感受的有效手段的發(fā)展情況,明略科技的最新研究成果整合腦電、眼動(dòng)信號(hào)等多種非標(biāo)模態(tài),構(gòu)建了全新的多模態(tài)大語(yǔ)言模型范式,在機(jī)器理解和模擬人類主觀感受的研究方向,邁出了重要一步。
明略科技多模態(tài)團(tuán)隊(duì)論文榮獲 ACMMM 2024 最佳論文提名獎(jiǎng)項(xiàng)
論文題目:Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding
(超圖多模態(tài)大語(yǔ)言模型:應(yīng)用腦電和眼動(dòng)模態(tài)來(lái)評(píng)估異質(zhì)人群觀看視頻時(shí)的響應(yīng))
作者:吳明輝*,趙晨旭*,蘇安煬*,狄東林,傅天宇,安達(dá),何敏,高雅,馬萌,顏鯤,王平(*為共同第一作者)
論文摘要:對(duì)視頻創(chuàng)意和內(nèi)容的理解往往因人而異,不同年齡、職業(yè)和性別的人的關(guān)注點(diǎn)和認(rèn)知水平也存在差異。目前缺乏這方面的研究,沒(méi)有可以進(jìn)行評(píng)測(cè)的基礎(chǔ),大多數(shù)現(xiàn)有的基準(zhǔn)都存在幾個(gè)缺點(diǎn):
1)模態(tài)數(shù)量有限,題目多為選擇題,難以測(cè)量邏輯推理過(guò)程;
2)視頻中的內(nèi)容和場(chǎng)景過(guò)于單調(diào),僅涉及到對(duì)視頻內(nèi)容的客觀描述。
為了彌合與實(shí)際應(yīng)用的差距,明略科技引入大規(guī)模的視頻主觀多模態(tài)評(píng)估數(shù)據(jù)集Video-SME。通過(guò)收集不同人群在觀看相同視頻內(nèi)容時(shí)腦電圖 (EEG) 和眼動(dòng)追蹤區(qū)域的真實(shí)變化,設(shè)立了新的任務(wù)和協(xié)議,分析和評(píng)估不同受試者對(duì)相同視頻內(nèi)容的認(rèn)知理解程度。
依托新的評(píng)測(cè)標(biāo)準(zhǔn),明略科技創(chuàng)新研發(fā)了超圖多模態(tài)大語(yǔ)言模型 (HMLLM),探索不同人口統(tǒng)計(jì)、視頻元素、腦電圖和眼動(dòng)追蹤指標(biāo)之間的關(guān)聯(lián)。HMLLM可以彌合豐富模態(tài)之間的語(yǔ)義差距,并集成幀與幀之間的信息以執(zhí)行邏輯推理。明略科技在Video-SME和其他基于視頻的生成性能基準(zhǔn)上設(shè)計(jì)了實(shí)驗(yàn),大量實(shí)驗(yàn)評(píng)估證明了該方法的有效性。
什么是人的主觀感受?
測(cè)量不同人群觀看廣告視頻的主觀響應(yīng)有何意義?
人在觀看廣告視頻時(shí),對(duì)于素材元素的認(rèn)知程度、情緒高低、眼睛注視程度高低都是人的主觀感受,不同性別、年齡、職業(yè)、身份的人群都會(huì)有所不同。
如果機(jī)器能夠模擬不同人群觀看廣告視頻時(shí)的不同主觀感受,那么相當(dāng)于可以對(duì)廣告視頻的內(nèi)容、創(chuàng)意等進(jìn)行有效的測(cè)量,指導(dǎo)廣告成片過(guò)程,節(jié)省廣告投放成本。
讓機(jī)器學(xué)習(xí)、理解和模擬人類的主觀感受,可能是賦予機(jī)器主觀意識(shí)的開端。明略科技提出的新基準(zhǔn)Video-SME有望成為該領(lǐng)域的新起點(diǎn),標(biāo)志著機(jī)器對(duì)視頻的理解從客觀維度向主觀維度的轉(zhuǎn)變。作為一種全新的范式,明略科技多模態(tài)大模型HMLLM的研發(fā),致力于為該領(lǐng)域研究人員解決非標(biāo)準(zhǔn)模態(tài)問(wèn)題提供寶貴經(jīng)驗(yàn)與啟示,從而促進(jìn)大模型領(lǐng)域向人機(jī)協(xié)同的美好未來(lái)邁進(jìn)。
本研究課題由科技部科技創(chuàng)新2030——“新一代人工智能(2030)”重大項(xiàng)目支持。
論文鏈接:
https://dl.acm.org/doi/10.1145/3664647.3680810
GitHub地址:
GitHub - mininglamp-MLLM/HMLLM: [ACM MM2024] The code for HMLLM.