自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="el9oa"><rp id="el9oa"></rp></style>

<sup id="el9oa"><rt id="el9oa"></rt></sup>

<sub id="el9oa"><p id="el9oa"></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

如何全面評(píng)估多模態(tài)大模型能力？MLLM評(píng)測(cè)任務(wù)與指標(biāo)總結(jié) 原創(chuàng) 精華

發(fā)布于 2024-12-20 14:47

瀏覽

0收藏

本篇總結(jié)了多模態(tài)大模型的評(píng)測(cè)任務(wù)和指標(biāo)。

目前多模態(tài)大型語(yǔ)言模型（MLLMs）的研究主要集中在模型架構(gòu)和訓(xùn)練方法上，但用于評(píng)估這些模型的基準(zhǔn)測(cè)試的分析還比較少。

另外目前評(píng)測(cè)可能還存在三大問(wèn)題：

目標(biāo)不一致：每個(gè)模態(tài)、基準(zhǔn)測(cè)試都有不同的目標(biāo)，導(dǎo)致研究領(lǐng)域碎片化。
任務(wù)飽和：多樣化目標(biāo)驅(qū)動(dòng)的任務(wù)激增，這種飽和使得很難辨別真正創(chuàng)新或有影響力的基準(zhǔn)測(cè)試，導(dǎo)致寶貴的資源被忽視或利用不足。
指標(biāo)演變與差異：曾經(jīng)推出發(fā)一些設(shè)計(jì)良好的指標(biāo)受到基準(zhǔn)測(cè)試快速演變和頻繁更新的阻礙。

大家在評(píng)估哪些多模態(tài)大模型適用于自己的任務(wù)時(shí)，可能也會(huì)存在多方面的考慮，本篇對(duì)論文《A Survey on Multimodal Benchmarks: In the Era of Large AI Models》進(jìn)行了一個(gè)解讀與快速總結(jié)，讓大家對(duì)多模態(tài)大模型評(píng)測(cè)內(nèi)容有個(gè)快速的了解，可以在實(shí)際挑選的時(shí)候，有意識(shí)地去評(píng)估模型的相關(guān)能力。

一、理解任務(wù)

1. 視覺(jué)感知

視覺(jué)感知能力涉及提取顯著特征和準(zhǔn)確識(shí)別和解釋視覺(jué)元素（例如，多個(gè)對(duì)象、文本信息和復(fù)雜的情感或隱含線索）

- 細(xì)粒度感知

多類識(shí)別：識(shí)別圖像中是否存在某些對(duì)象。
對(duì)象屬性：識(shí)別對(duì)象的特定屬性，如顏色、紋理和狀態(tài)。
對(duì)象計(jì)數(shù)：確定圖像中特定對(duì)象的實(shí)例數(shù)量。
對(duì)象位置：表示對(duì)象相對(duì)于圖像的位置。由于上下文在對(duì)象檢測(cè)中的重要性，CODE基準(zhǔn)測(cè)試通過(guò)上下文豐富的環(huán)境更好地評(píng)估模型，增強(qiáng)了任務(wù)設(shè)計(jì)。
空間關(guān)系：推理兩個(gè)或多個(gè)對(duì)象之間的空間關(guān)系。
光學(xué)字符識(shí)別（OCR）：識(shí)別查詢區(qū)域內(nèi)的文本。

- 高階感知

情感識(shí)別：從圖像中識(shí)別情感表達(dá)。
含義理解：給定圖像和一組多項(xiàng)選擇問(wèn)題，具有固定的可能答案，模型必須選擇最能解釋圖像的視覺(jué)隱含含義或價(jià)值的正確答案。
美學(xué)理解：通過(guò)問(wèn)題從圖像中識(shí)別美學(xué)屬性（例如，內(nèi)容和主題），然后提供美學(xué)描述，最后通過(guò)數(shù)量分?jǐn)?shù)進(jìn)行美學(xué)評(píng)估。

- 綜合感知

目前主要是下面三個(gè)方向：

引入相對(duì)ICL準(zhǔn)確性和相對(duì)魯棒性，用于多選QA，以衡量上下文學(xué)習(xí)和魯棒性，強(qiáng)調(diào)超越隨機(jī)猜測(cè)的改進(jìn)；
引入通用智能準(zhǔn)確性（GIA）指標(biāo)，利用驗(yàn)證性因子分析來(lái)驗(yàn)證MLLMs的認(rèn)知結(jié)構(gòu)與人類智能的一致性；
引入多模態(tài)增益（MG）衡量視覺(jué)輸入的改進(jìn)，以及多模態(tài)泄漏（ML）檢測(cè)意外的數(shù)據(jù)暴露，確保公平比較。

2. 上下文理解

- 上下文依賴?yán)斫?/strong>

給定一個(gè)查詢和一個(gè)帶有兩種不同上下文的圖像，MLLMs需要生成正確的響應(yīng)。因此為了更好地衡量在不同上下文中識(shí)別的能力，設(shè)計(jì)了上下文意識(shí)指標(biāo)。

- 多圖像理解

通常結(jié)合多圖像輸入任務(wù)，如動(dòng)作識(shí)別和圖表理解。舉例來(lái)說(shuō)，可以用于復(fù)雜任務(wù)的監(jiān)控和解密圖像序列中對(duì)象的位置變化。使用模型提取和標(biāo)準(zhǔn)化AI生成的描述中的對(duì)象和行為關(guān)鍵詞，將這些列表與人類基準(zhǔn)進(jìn)行比較以評(píng)估準(zhǔn)確性。

- 長(zhǎng)上下文理解

這項(xiàng)任務(wù)通過(guò)在長(zhǎng)無(wú)關(guān)圖像和文本語(yǔ)料庫(kù)（haystack）中準(zhǔn)確找到相應(yīng)的信息來(lái)評(píng)估MLLM的長(zhǎng)上下文理解能力。例如，模型必須定位由給定標(biāo)題描述的特定子圖像；在文本任務(wù)中，模型從密集的多模態(tài)上下文中提取7位密碼，而在圖像任務(wù)中，識(shí)別并檢索嵌入在圖像中的文本，需要OCR能力。

- 交錯(cuò)圖像-文本理解

給定交錯(cuò)的圖像-文本內(nèi)容（例如，上下文示例），模型必須有效地響應(yīng)查詢（例如，QA或字幕格式）

引入了交錯(cuò)圖像-文本理解任務(wù)，其中模型不僅基于更長(zhǎng)的圖像-文本序列回答問(wèn)題，還識(shí)別與響應(yīng)相關(guān)的特定圖像索引。

- 空間-時(shí)間感知

涉及檢索、排序和計(jì)數(shù)插入到視頻序列中的視覺(jué)（信息）“針”，挑戰(zhàn)模型準(zhǔn)確處理和分析長(zhǎng)上下文視頻中的空間和時(shí)間信息。

3. 特定模態(tài)理解

- 長(zhǎng)視頻理解

以事件為導(dǎo)向的長(zhǎng)視頻理解，并提出了層次化任務(wù)分類法，包括原子事件理解（例如，事件描述）、復(fù)合事件理解（例如，時(shí)間推理）和整體理解（例如，上下文推理）

- 綜合視頻理解

任務(wù)涵蓋三個(gè)不同的層次：視頻專有理解、基于先驗(yàn)知識(shí)的問(wèn)題回答和理解與決策。

另外強(qiáng)調(diào)技能（記憶、抽象、物理、語(yǔ)義）和推理類型（描述性、解釋性、預(yù)測(cè)性、反事實(shí)性）在視頻、音頻和文本模態(tài)上的跨模態(tài)評(píng)估任務(wù)。

- 音頻理解

關(guān)注六個(gè)維度的分類任務(wù)——內(nèi)容、說(shuō)話者、語(yǔ)義、退化、副語(yǔ)言學(xué)和音頻處理——使用指令調(diào)整來(lái)評(píng)估模型處理已見(jiàn)和未見(jiàn)場(chǎng)景的能力。另外結(jié)合了基礎(chǔ)和基于聊天的音頻任務(wù)的層次化評(píng)估，涵蓋所有音頻類型。

- 3D理解

引入了兩個(gè)新任務(wù)：部件感知點(diǎn)定位和部件感知點(diǎn)定位字幕。

在部件感知點(diǎn)定位中，根據(jù)用戶指令預(yù)測(cè)部件級(jí)別的分割掩模。在
部件感知點(diǎn)定位字幕中，生成一個(gè)詳細(xì)的字幕，包括部件級(jí)別的描述，每個(gè)描述對(duì)應(yīng)一個(gè)分割掩模。

另外也有通過(guò)NeRF權(quán)重解釋3D場(chǎng)景的幾何和逼真表示的任務(wù)。

- 全模態(tài)理解

評(píng)估模型識(shí)別來(lái)自不同模態(tài)的輸入實(shí)體的共同點(diǎn)的能力，挑戰(zhàn)它從四個(gè)給定選項(xiàng)中選擇最合適的答案。

任務(wù)強(qiáng)調(diào)視覺(jué)定位，并引入了多模態(tài)通用信息提取的概念，涉及跨文本、圖像、音頻和視頻輸入提取和關(guān)聯(lián)信息，確保實(shí)體和事件準(zhǔn)確鏈接到它們對(duì)應(yīng)的模態(tài)。

二、推理任務(wù)

1. 關(guān)系推理

關(guān)系推理任務(wù)可以廣泛分為三種主要類型：

第一種類型側(cè)重于預(yù)測(cè)關(guān)系，包括實(shí)體之間還是模式之間。

以實(shí)體為中心的任務(wù)涉及檢測(cè)對(duì)象及其成對(duì)關(guān)系，
以模式為中心的任務(wù)，旨在從給定的視覺(jué)模式中推斷關(guān)系，以預(yù)測(cè)后續(xù)模式。召回率和準(zhǔn)確性分別用于評(píng)估以實(shí)體為中心和以模式為中心的任務(wù)。

第二類涉及空間中心關(guān)系，如地面空間推理，3D空間定位和細(xì)粒度空間推理。像基于IoU（交并比）的準(zhǔn)確性這樣的指標(biāo)用于評(píng)估性能。

第三類涉及時(shí)間中心關(guān)系，如基于不同視頻片段回答問(wèn)題，或執(zhí)行時(shí)間和語(yǔ)言定位。這些任務(wù)的常見(jiàn)評(píng)估指標(biāo)包括準(zhǔn)確性、BLEU、BERT分?jǐn)?shù)和召回率。最后，以比較為中心的任務(wù)側(cè)重于在對(duì)象、場(chǎng)景或情境之間進(jìn)行相對(duì)比較。準(zhǔn)確性用于評(píng)估。

2. 多步推理

多步推理任務(wù)可以廣泛分為兩種主要類型：基于規(guī)則的任務(wù)和思維鏈（CoT）任務(wù)。

在基于規(guī)則的任務(wù)中，期望應(yīng)用預(yù)定義的規(guī)則或推斷底層模式來(lái)解決問(wèn)題。例如，在尋找數(shù)學(xué)謎題中缺失值的任務(wù)中，模型必須從給定的信息中推斷出控制規(guī)則。

CoT任務(wù)強(qiáng)調(diào)模型將問(wèn)題分解為一系列邏輯的、順序的步驟的能力。例如模型識(shí)別關(guān)鍵圖像區(qū)域并通過(guò)問(wèn)題逐步推理，提供了中間邊界框和推理注釋以促進(jìn)評(píng)估。

3. 反思推理

反思推理任務(wù)可以廣泛分為三種類型：反事實(shí)思維、分析性提問(wèn)和知識(shí)編輯。

第一種反事實(shí)VQA 中，MLLMs被要求通過(guò)基于給定事實(shí)的假設(shè)場(chǎng)景生成答案，從而評(píng)估它們執(zhí)行反事實(shí)推理的能力。例如，一個(gè)典型的問(wèn)題可能會(huì)問(wèn)“如果地面是干的，人們戴著太陽(yáng)帽而不是舉著傘，天氣可能會(huì)是什么？”。

第二種分析性提問(wèn)這方面，現(xiàn)有工作主要集中在問(wèn)答上，而分析性提問(wèn)，包括提問(wèn)和評(píng)估技能很大程度上沒(méi)有探索。

第三種類型的任務(wù)，知識(shí)編輯，評(píng)估MLLMs更新知識(shí)的能力，特別是當(dāng)面對(duì)過(guò)時(shí)或不準(zhǔn)確的信息時(shí)。例如，引入了一跳和多跳推理任務(wù)，用于知識(shí)編輯。知識(shí)編輯的指標(biāo)更為微妙，包括可靠性、普遍性、局部性、可移植性和一致性等措施。

三、生成任務(wù)

1. 面向能力

- 交錯(cuò)圖像-文本生成

給定包含文本和圖像的提示，此任務(wù)旨在評(píng)估模型在模態(tài)間生成連貫、交錯(cuò)內(nèi)容的能力。

例如基于給定問(wèn)題的交錯(cuò)圖像-文本生成，模型僅基于給定的問(wèn)題生成交錯(cuò)內(nèi)容，而不提供初始圖像信息，推動(dòng)模型推理和預(yù)測(cè)結(jié)果；

或?qū)Ｗ⒂诠适骂I(lǐng)域，涉及任務(wù)如多模態(tài)故事延續(xù)和多模態(tài)故事生成。前者專注于用文本和圖像擴(kuò)展給定的敘述，而后者挑戰(zhàn)模型從頭開(kāi)始創(chuàng)建整個(gè)敘述序列，無(wú)縫整合文本和視覺(jué)內(nèi)容。此任務(wù)的主要評(píng)估方向是生成的交錯(cuò)圖像和文本的連貫性和一致性；

或者利用模型評(píng)估交錯(cuò)圖像-文本內(nèi)容中的實(shí)體和風(fēng)格一致性。通過(guò)采用思維鏈方法，BingChat逐步檢測(cè)和分析常見(jiàn)主題和視覺(jué)風(fēng)格因素，如色彩調(diào)色板和氛圍，以生成最終的定量分?jǐn)?shù)

- 代碼生成

涉及從各種格式的輸入創(chuàng)建編程代碼，如文本和圖像，甚至更復(fù)雜的網(wǎng)頁(yè)。旨在整合MLLMs的優(yōu)勢(shì)，它們可以理解和處理多樣化數(shù)據(jù)類型，促進(jìn)將復(fù)雜的、多方面的規(guī)范轉(zhuǎn)換為可執(zhí)行代碼。

任務(wù)從網(wǎng)頁(yè)圖像生成HTML代碼，通過(guò)將代碼轉(zhuǎn)換回圖像并與ground-truth進(jìn)行比較，專注于視覺(jué)保真度，而不是傳統(tǒng)的代碼級(jí)指標(biāo)。

或強(qiáng)調(diào)功能性和視覺(jué)準(zhǔn)確性，通過(guò)整合傳統(tǒng)的代碼執(zhí)行檢查與使用GPT-4v和詳細(xì)文本匹配指標(biāo)的高級(jí)視覺(jué)評(píng)估，提供超出標(biāo)準(zhǔn)代碼通過(guò)率的全面評(píng)估。

- 指令遵循

要求MLLMs生成嚴(yán)格遵循給定指令或指令的輸出。

例如查詢輸入通常結(jié)合了定義目標(biāo)和格式的任務(wù)指令，以及提供多模態(tài)上下文的特定任務(wù)實(shí)例。對(duì)于每個(gè)指令收集了指令條件字幕，這些字幕不僅提供圖像的一般描述，還強(qiáng)調(diào)與給定指令相關(guān)的特定信息。

- 幻覺(jué)

視覺(jué)幻覺(jué)（VH）指的是在視覺(jué)問(wèn)答期間模型生成關(guān)于圖像的錯(cuò)誤細(xì)節(jié)的實(shí)例，包括錯(cuò)誤的前提、上下文不足和解釋視覺(jué)數(shù)據(jù)，幻覺(jué)發(fā)生在模型提供錯(cuò)誤答案時(shí)，適當(dāng)?shù)捻憫?yīng)應(yīng)該是“我不知道”。

可以通過(guò)測(cè)量模型響應(yīng)中幻覺(jué)對(duì)象的頻率來(lái)評(píng)估幻覺(jué)。

為了提高可信度并解決MLLMs中的幻覺(jué)，BEfore-AFter幻覺(jué)數(shù)據(jù)集（BEAF）引入了四個(gè)關(guān)鍵指標(biāo)：真理解（TU）、無(wú)知（IG）、固執(zhí)己見(jiàn)（SB）和猶豫不決（ID）

TU評(píng)估模型是否正確回答了關(guān)于移除對(duì)象的問(wèn)題；

IG在給出錯(cuò)誤答案時(shí)測(cè)量無(wú)知；
SB評(píng)估模型堅(jiān)持初始答案的傾向；
SBp和SBn表示一致的“是”或“否”響應(yīng)；
ID跟蹤與移除對(duì)象無(wú)關(guān)的問(wèn)題的答案的不必要變化。

- 安全性

安全性任務(wù)確保MLLMs的響應(yīng)不會(huì)導(dǎo)致有害或非法的結(jié)果。LLM需要從安全回答、謹(jǐn)慎回答或拒絕回答中選擇。

對(duì)于毒性評(píng)估可以提供了輸入，如NSFW圖像（例如，暴力或露骨內(nèi)容）與字幕查詢配對(duì)，以評(píng)估模型傾向于生成有害響應(yīng)的趨勢(shì)。

對(duì)于越獄，它涉及測(cè)試模型對(duì)旨在繞過(guò)安全協(xié)議的提示的抵抗力（例如，帶有嵌入文本截圖的圖像詢問(wèn)非法查詢），并衡量模型是否以不違反安全指南的方式適當(dāng)響應(yīng)。

- 可信度

任務(wù)通過(guò)提供圖像與事實(shí)性或誤導(dǎo)性文本查詢配對(duì)的輸入來(lái)評(píng)估MLLMs，并評(píng)估它們響應(yīng)的準(zhǔn)確性。

例如專注于面部反欺騙和面部偽造檢測(cè)任務(wù)，要求MLLMs根據(jù)不同模態(tài)（例如，RGB、深度圖、紅外圖像）的挑戰(zhàn)性輸入，準(zhǔn)確識(shí)別真實(shí)與假面部。

此外還可以引入了多屬性思維鏈范式，通過(guò)分析多個(gè)屬性（例如，形狀、顏色、紋理）來(lái)增強(qiáng)推理，以實(shí)現(xiàn)更可靠和全面的決策。

- 健壯性

MLLMs被給予圖像，并被要求回答正面問(wèn)題以評(píng)估視覺(jué)理解，并回答誤導(dǎo)性問(wèn)題以測(cè)試對(duì)欺騙性提示的健壯性，從多個(gè)選擇中選擇正確答案。

根據(jù)模型的響應(yīng)如何專注于本質(zhì)的核心特征，同時(shí)忽略不相關(guān)、誤導(dǎo)性的偶然特征，評(píng)估其對(duì)跨模態(tài)偶然偏見(jiàn)的抵抗力。

2. 面向模態(tài)

- 僅文本

應(yīng)用傳統(tǒng)的圖像字幕指標(biāo)，例如ROUGE和METEOR，以及基于LLM的評(píng)估。

- 僅視覺(jué)

Inception Score（IS）和CLIP分?jǐn)?shù)這樣的指標(biāo)衡量與地ground truth的視覺(jué)保真度和多樣性。

為了評(píng)估風(fēng)格一致性和重建準(zhǔn)確性，采用像結(jié)構(gòu)相似性指數(shù)度量（SSIM）和峰值信噪比（PSNR）這樣的指標(biāo)。

- 跨模態(tài)

確保不同模態(tài)間內(nèi)容一致性和敘事連貫性至關(guān)重要，跟交錯(cuò)圖像-文本生成比較類似。

利用MLLMs評(píng)估圖像和文本之間的連貫性或一致性，通過(guò)檢查風(fēng)格、實(shí)體、內(nèi)容趨勢(shì)等。

四、應(yīng)用任務(wù)

1. 交互式?jīng)Q策制定智能體

這個(gè)任務(wù)將環(huán)境和智能體被建模為部分可觀察的馬爾可夫決策過(guò)程（POMDP）：E = (S, A, ?, T)

智能體接收狀態(tài)st ∈ S的部分觀察ot ∈ ?，采取行動(dòng)at ∈ A，并根據(jù)函數(shù)T : S × A → S轉(zhuǎn)換到新?tīng)顟B(tài)，旨在完成像網(wǎng)頁(yè)導(dǎo)航或信息檢索這樣的任務(wù)。

2. 具身決策制定智能體

該任務(wù)概述任務(wù)目標(biāo)的語(yǔ)言指令以及進(jìn)行人類水平的規(guī)劃，根據(jù)視覺(jué)輸入確定下一個(gè)合適的行動(dòng)。這種視覺(jué)輸入由顯示過(guò)去幀的視頻序列組成，這些幀跟蹤任務(wù)進(jìn)展，最后一幀代表當(dāng)前的自我中心視圖。

3. 機(jī)器人應(yīng)用

對(duì)模型響應(yīng)進(jìn)行判斷，將模型的響應(yīng)分類為“A”（正確），“B”（錯(cuò)誤）或“C”（不確定）。

4. 自動(dòng)駕駛

引入圖形視覺(jué)問(wèn)答（GVQA），其中推理任務(wù)被構(gòu)建為問(wèn)題-答案對(duì)內(nèi)的有向圖，與傳統(tǒng)的自動(dòng)駕駛視覺(jué)問(wèn)答不同，GVQA利用問(wèn)題-答案之間的邏輯依賴關(guān)系來(lái)增強(qiáng)回答過(guò)程。

本篇文把目前多模態(tài)大模型的評(píng)測(cè)方向和指標(biāo)進(jìn)行了一個(gè)羅列總結(jié)，大家可以在挑選大模型的時(shí)候基于自己想要完成的任務(wù)，進(jìn)行特定方向的評(píng)測(cè)~

參考文獻(xiàn)

[1] A Survey on Multimodal Benchmarks: In the Era of Large AI Models

文轉(zhuǎn)載自公眾號(hào)瓦力算法學(xué)研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/FtcTO-2AKOddLiO453yBGg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽
多模態(tài)大模型

已于2024-12-20 14:56:08修改

贊

收藏

回復(fù)

分享

微博

QQ

微信

舉報(bào)
舉報(bào)

微信掃碼分享

刪除帖子
刪除取消

回復(fù)

相關(guān)推薦

14 項(xiàng)任務(wù)測(cè)下來(lái)，GPT4V、Gemini等多模態(tài)大模型竟都沒(méi)什么視覺(jué)感知能力？

輕薄滴假象 ? 2422瀏覽 ? 0回復(fù)
ChemBench：大語(yǔ)言模型化學(xué)能力評(píng)測(cè)數(shù)據(jù)集

戀戀青鳥(niǎo) ? 3876瀏覽 ? 0回復(fù)
應(yīng)用程序任務(wù)驅(qū)動(dòng)：詳細(xì)解析LLM的評(píng)估指標(biāo)

51CTO內(nèi)容精選 ? 3098瀏覽 ? 0回復(fù)
模型更新，評(píng)測(cè)集優(yōu)化：多模態(tài)大模型評(píng)測(cè)升級(jí)！

戀戀青鳥(niǎo) ? 4910瀏覽 ? 0回復(fù)
Cantor?：激發(fā)MLLM的多模態(tài)思維鏈

AIRoobt ? 3625瀏覽 ? 0回復(fù)
多模態(tài)大型語(yǔ)言模型（MLLM）綜述

AIRoobt ? 5159瀏覽 ? 0回復(fù)
Web2Code：適用于多模態(tài)大模型的大規(guī)模網(wǎng)頁(yè)轉(zhuǎn)代碼數(shù)據(jù)集與評(píng)估框架

sbf_2000 ? 4079瀏覽 ? 0回復(fù)
模型圖文多模態(tài)能力評(píng)測(cè)結(jié)果全公開(kāi)

戀戀青鳥(niǎo) ? 7582瀏覽 ? 0回復(fù)
多模態(tài)與偽多模態(tài)大模型

AI探索時(shí)代 ? 2163瀏覽 ? 0回復(fù)
多模態(tài)大模型數(shù)據(jù)分析與實(shí)踐

zhcs333 ? 3752瀏覽 ? 0回復(fù)
詳解大規(guī)?；A(chǔ)模型中的幻覺(jué)問(wèn)題（幻覺(jué)檢測(cè)、緩解、任務(wù)、數(shù)據(jù)集和評(píng)估指標(biāo)）

angel ? 4341瀏覽 ? 0回復(fù)
詳解大規(guī)?；A(chǔ)模型中的幻覺(jué)問(wèn)題（幻覺(jué)檢測(cè)、緩解、任務(wù)、數(shù)據(jù)集和評(píng)估指標(biāo)）

angel ? 4256瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評(píng)測(cè)基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢(shì)

十一月雨_55 ? 8195瀏覽 ? 0回復(fù)
Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考

arnoldzhw ? 2960瀏覽 ? 0回復(fù)
大語(yǔ)言模型評(píng)測(cè)中的評(píng)價(jià)指標(biāo)：方法、基準(zhǔn)和最佳實(shí)踐

芝士AI吃魚(yú) ? 7840瀏覽 ? 0回復(fù)
多模態(tài)大模型在表格解析任務(wù)上效果如何？親身經(jīng)歷全是淚！

NLP工作站 ? 1551瀏覽 ? 0回復(fù)
【模型測(cè)試】大模型評(píng)測(cè)工具OpenCompass使用方法總結(jié)

一起AI技術(shù) ? 2103瀏覽 ? 0回復(fù)
11張圖全面總結(jié) MCP、A2A、Function Calling 架構(gòu)設(shè)計(jì)間關(guān)系

玄姐聊AGI ? 2634瀏覽 ? 0回復(fù)
多模態(tài)MLLM都是怎么實(shí)現(xiàn)的—如何保持text2video的連續(xù)一致性

熵減AI ? 354瀏覽 ? 0回復(fù)

shizhi02

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

大模型面經(jīng)：RAG與Long context“相愛(ài)相殺”背景下，如何設(shè)計(jì)最優(yōu)解決方案？ 2025-04-09 12:17:30發(fā)布
ZeroHSI-一種零樣本的四維人類-場(chǎng)景交互合成方法 2025-03-24 13:12:04發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)
王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)
Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)
Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)
只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：多模態(tài)大模型數(shù)據(jù)構(gòu)造方法

下一篇： OmniTokenizer-視覺(jué)tokenizer生成

社區(qū)精華內(nèi)容

目錄

Copyright ? 2005-2025 51CTO.COM 京ICP證060544版權(quán)所有未經(jīng)許可請(qǐng)勿轉(zhuǎn)載

客服

感谢您访问我们的网站，您可能还对以下资源感兴趣：
自拍偷在线精品自拍偷