自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

更適合中文LMM體質(zhì)的基準(zhǔn)CMMMU來了:超過30個細(xì)分學(xué)科,12K專家級題目

人工智能 新聞
M-A-P 開源社區(qū)、港科大、滑鐵盧大學(xué)、零一萬物等聯(lián)合推出了面向中文大規(guī)模多學(xué)科多模態(tài)理解和推理基準(zhǔn) CMMMU(Chinese Massive Multi-discipline Multimodal Understanding and Reasoning)

近期,隨著多模態(tài)大模型(LMM) 的能力不斷進(jìn)步,評估 LMM 性能的需求也日益增長。與此同時(shí),在中文環(huán)境下評估 LMM 的高級知識和推理能力的重要性更加突出。

在這一背景下,M-A-P 開源社區(qū)、港科大、滑鐵盧大學(xué)、零一萬物等聯(lián)合推出了面向中文大規(guī)模多學(xué)科多模態(tài)理解和推理基準(zhǔn) CMMMU(Chinese Massive Multi-discipline Multimodal Understanding and Reasoning),用于評估基本模型在中文各種任務(wù)中的專家級多模式理解能力。

CMMMU 涵蓋 6 個大類學(xué)科,包括藝術(shù)、商業(yè)、健康和醫(yī)學(xué)、科學(xué)、人文與社會科學(xué)、技術(shù)與工程,跨越 30 多個細(xì)分領(lǐng)域?qū)W科。下圖給出了每個細(xì)分領(lǐng)域?qū)W科的一個題目示例。CMMMU 是第一個在中文背景下的多模態(tài)基準(zhǔn),也是現(xiàn)有少數(shù)的考察 LMM 復(fù)雜理解和推理能力的多模態(tài)基準(zhǔn)之一。

圖片

數(shù)據(jù)集構(gòu)建

數(shù)據(jù)采集

數(shù)據(jù)采集分為三個階段,第一階段由研究者們?yōu)槊恳粋€科目收集滿足版權(quán)許可要求的題目來源(網(wǎng)頁或者書籍),同時(shí)避免題源重復(fù),然后第二階段,研究者們將題源轉(zhuǎn)發(fā)給眾包標(biāo)注者以進(jìn)行進(jìn)一步的標(biāo)注。所有的標(biāo)注者都是本科生或更高的學(xué)位,以確保他們可以驗(yàn)證標(biāo)注的問題和相關(guān)的解釋。在標(biāo)注過程中,研究者要求標(biāo)注者嚴(yán)格遵循標(biāo)注原則,比如過濾掉不用圖片就能回答的問題、盡可能地過濾掉使用相同圖像的問題與不需要專家知識來回答的問題等。最后第三階段,研究者為了平衡數(shù)據(jù)集中每一科目題目數(shù)量,對問題收集較少的科目專門進(jìn)行補(bǔ)充。

數(shù)據(jù)集清洗

為了進(jìn)一步提高 CMMMU 的數(shù)據(jù)質(zhì)量,研究者們遵循嚴(yán)格的數(shù)據(jù)質(zhì)量控制協(xié)議。首先,每個問題都由至少一位論文作者手工驗(yàn)證。其次,考慮到數(shù)據(jù)污染問題,他們也過濾掉了在不借助 OCR 的情況下,幾個 LLM 也可以回答出的問題。

數(shù)據(jù)集概覽

CMMMU 由 12K 個題目組成,分為少樣本開發(fā)集、驗(yàn)證集和測試集。少樣本開發(fā)集包括每個學(xué)科 5 個左右的題目,驗(yàn)證集抽樣出 900 個題目,測試集包括 11K 題目。題目中的圖片包括病理圖、樂譜圖、電路圖、化學(xué)結(jié)構(gòu)圖等等,共 39 種類型。他們根據(jù)邏輯難度而不是智力難度將數(shù)據(jù)分為簡單 (30%)、中等 (58%) 和困難 (12%) 三種難度。更多題目統(tǒng)計(jì)信息在表 2 和表 3 中展示。

圖片

圖片

圖片

實(shí)驗(yàn)

團(tuán)隊(duì)測試了多種主流的中英文雙語 LMM 以及幾個 LLM 在 CMMMU 上的表現(xiàn)。其中包含了閉源和開源模型。評估過程使用 zero-shot 設(shè)置,而不是微調(diào)或者 few-shot 設(shè)置,以檢查模型的原始能力。LLM 還加入了圖片 OCR 結(jié)果 + text 作為輸入的實(shí)驗(yàn)。所有的實(shí)驗(yàn)都是在 NVIDIA A100 圖形處理器上進(jìn)行的。

主要結(jié)果

表 4 展示了實(shí)驗(yàn)結(jié)果:

圖片

一些重要發(fā)現(xiàn)包括:

- CMMMU 比 MMMU 更具挑戰(zhàn)性,且這是在 MMMU 已經(jīng)非常具有挑戰(zhàn)性的前提下。  

GPT-4V 在中文語境下的準(zhǔn)確率僅為 41.7% ,而在英語語境下的準(zhǔn)確率為 55.7% 。這表明,現(xiàn)有的跨語言泛化方法甚至對于最先進(jìn)的閉源 LMM 都不夠好。

- 與 MMMU 相比,國內(nèi)具有代表性的開源模型與 GPT-4V 之間的差距相對較小。  

Qwen-VL-Chat 和 GPT-4V 在 MMMU 上的差異為 13.3% ,而 BLIP2-FLAN-T5-XXL 和 GPT-4V 在 MMMU 上的差異為 21.9% 。令人驚訝的是,Yi-VL-34B 甚至將 CMMMU 上開源雙語 LMM 和 GPT-4V 之間的差距縮小到了 7.5% ,這意味著在中文環(huán)境下,開源雙語 LMM 與 GPT-4V 相當(dāng),這在開源社區(qū)中是一個有希望的進(jìn)步。

- 在開源社區(qū)中,追求中文專家多模態(tài)人工通用智能 (AGI) 的游戲才剛剛開始。  

團(tuán)隊(duì)指出,除了最近發(fā)布的 Qwen-VL-Chat、 Yi-VL-6B 和 Yi-VL-34B 外,所有來自開源社區(qū)的雙語 LMM 只能達(dá)到與 CMMMU 的frequent choice 相當(dāng)?shù)木取?/span>

對不同題目難度和題型的分析

- 不同題目類型

Yi-VL 系列、 Qwen-VL-Plus 和 GPT-4V 之間的差異主要還是因?yàn)樗鼈兓卮疬x擇題的能力不同。

不同題目類型的結(jié)果如表 5 所示:

圖片

- 不同題目難度

結(jié)果中值得注意的是,最好的開源 LMM (即 Yi-VL-34B) 和 GPT-4V 在面對中等和困難的問題時(shí)存在較大的差距。這進(jìn)一步有力地證明,開源 LMM 和 GPT-4V 之間的關(guān)鍵差異在于在復(fù)雜條件下的計(jì)算和推理能力。

不同題目難度的結(jié)果如表 6 所示:

圖片

錯誤分析

研究者們仔細(xì)分析了 GPT-4V 的錯誤答案。如下圖所示,錯誤的主要類型有感知錯誤、缺乏知識、推理錯誤、拒絕回答和注釋錯誤。分析這些錯誤類型是理解當(dāng)前 LMM 的能力和局限性的關(guān)鍵,也可以指導(dǎo)未來設(shè)計(jì)和培訓(xùn)模型的改進(jìn)。

圖片

- 感知錯誤 (26%) : 感知錯誤是 GPT-4V 產(chǎn)生錯誤示例的主要原因之一。一方面,當(dāng)模型無法理解圖像時(shí),會引入對圖像基本感知的偏差,從而導(dǎo)致不正確的響應(yīng)。另一方面,當(dāng)模型遇到特定領(lǐng)域知識、隱含意義或不明確的公式中的歧義時(shí),它往往表現(xiàn)出特定領(lǐng)域的知覺錯誤。在這種情況下,GPT-4V 傾向于更多地依賴基于文本信息的回答 (即問題和選項(xiàng)) ,優(yōu)先考慮文本信息而不是視覺輸入,從而導(dǎo)致理解多模態(tài)數(shù)據(jù)的偏差。

- 推理錯誤 (26%) : 推理錯誤是 GPT-4V 產(chǎn)生錯誤例子的另一個主要因素。在模型正確地感知到圖像和文本所傳達(dá)的意義的情況下,在解決需要復(fù)雜邏輯和數(shù)學(xué)推理的問題時(shí),推理過程中仍會出現(xiàn)錯誤。通常,這種錯誤是由于模型較弱的邏輯和數(shù)學(xué)推理能力造成的。

- 缺乏知識 (22%) : 缺乏專業(yè)知識也是 GPT-4V 錯誤作答的原因之一。由于 CMMMU 是評價(jià) LMM 專家 AGI 的基準(zhǔn),因此需要不同學(xué)科和子領(lǐng)域的專家級知識。因此,將專家級知識注入 LMM 也是可以努力的方向之一。

- 拒絕回答 (12%) : 模型拒絕回答也是一種常見的現(xiàn)象。通過分析,他們指出模型拒絕回答問題的幾個原因: (1) 模型未能從圖像中感知到信息;(2) 是涉及宗教問題或個人現(xiàn)實(shí)生活信息的問題,模型會主動回避;(3) 當(dāng)問題涉及性別和主觀因素時(shí),模型避免直接提供答案。

- 其錯誤:其余的錯誤包括文本理解錯誤 (7%)、標(biāo)注錯誤 (2%) 和答案提取錯誤 (5%)。這些錯誤是由于復(fù)雜的結(jié)構(gòu)跟蹤能力、復(fù)雜的文本邏輯理解、響應(yīng)生成的局限性、數(shù)據(jù)標(biāo)注的錯誤以及答案匹配提取中遇到的問題等多種因素造成的。

結(jié)論

CMMMU 基準(zhǔn)測試標(biāo)志著高級通用人工智能 (AGI) 開發(fā)的重大進(jìn)展。CMMMU 的設(shè)計(jì)是為了嚴(yán)格評估最新的大型多模態(tài)模型 (LMMs) ,并測試基本的感知技能,復(fù)雜的邏輯推理,以及在特定領(lǐng)域的深刻專業(yè)知識。該研究通過比較中英雙語語境下 LMM 的推理能力,指出其中的差異。這種詳盡的評估對于判定模型水平與各個領(lǐng)域經(jīng)驗(yàn)豐富的專業(yè)人員的熟練程度的差距至關(guān)重要。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2010-08-24 08:58:42

開發(fā)者

2009-07-10 11:27:00

專家級程序員

2021-12-24 11:50:57

滲透測試工具安全工具 防御系統(tǒng)

2018-11-05 06:17:26

GPON網(wǎng)絡(luò)故障網(wǎng)絡(luò)

2020-04-25 20:57:37

機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)工具

2011-12-07 20:43:33

2015-03-19 14:56:08

程序員專專家級的程序員

2010-04-22 22:51:36

2019-11-29 13:11:14

信息技術(shù)

2016-09-09 11:18:21

華為

2021-04-27 09:00:00

PythonIDE開發(fā)

2011-09-23 10:14:05

開放操作系統(tǒng)Android

2024-11-08 15:51:07

2019-09-16 09:58:16

GitHub搶票Python

2024-08-08 09:52:24

以太彩光網(wǎng)絡(luò)

2023-10-08 11:53:29

2020-06-17 15:00:27

FedoraUbuntuLinux

2024-04-03 08:28:31

GolangPHP語言

2010-07-13 16:15:49

XenServer5.6
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號