自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ACL 2024 Oral|我們離真正的多模態(tài)思維鏈推理還有多遠(yuǎn)?

人工智能 新聞
研究者們引入了一個(gè)新的基準(zhǔn),旨在推動(dòng)多領(lǐng)域、多步和多模態(tài)思維鏈的研究。研究者們的實(shí)驗(yàn)和分析表明,盡管現(xiàn)有的 VLLMs 在某些任務(wù)上表現(xiàn)優(yōu)異,但在更復(fù)雜的多模態(tài)推理任務(wù)上仍有很大改進(jìn)空間。

該文章的第一作者陳麒光,目前就讀于哈工大賽爾實(shí)驗(yàn)室。他的主要研究方向包括大模型思維鏈、跨語(yǔ)言大模型等。

在過(guò)去的幾年中,大型語(yǔ)言模型(Large Language Models, LLMs)在自然語(yǔ)言處理(NLP)領(lǐng)域取得了突破性的進(jìn)展。這些模型不僅能夠理解復(fù)雜的語(yǔ)境,還能夠生成連貫且邏輯嚴(yán)謹(jǐn)?shù)奈谋尽?/span>

然而,隨著科技的發(fā)展和應(yīng)用場(chǎng)景的多樣化,單一文本模態(tài)的能力顯然已經(jīng)不能滿足現(xiàn)代需求。人們?nèi)找嫫诖軌蛱幚砗屠斫舛喾N模態(tài)信息(如圖像、視頻、音頻等)的智能系統(tǒng),以應(yīng)對(duì)更復(fù)雜的任務(wù)和場(chǎng)景。研究者們開(kāi)始嘗試將文本 CoT 的能力擴(kuò)展到多模態(tài)思維鏈推理領(lǐng)域,以應(yīng)對(duì)更加復(fù)雜和多樣化的任務(wù)需求。

最早的多模態(tài)思維鏈研究之一是由 Lu 等人 [1] 引入的 ScienceQA 基準(zhǔn),該基準(zhǔn)結(jié)合了視覺(jué)和語(yǔ)言信息,推動(dòng)了多模態(tài)思維鏈(Multi-modal Chain of Thought, MCoT)的研究。ScienceQA 數(shù)據(jù)集的出現(xiàn),使得研究者們能夠在一個(gè)統(tǒng)一的框架下評(píng)估多模態(tài)模型的思維鏈推理能力。

進(jìn)一步地,Zhang 等人 [2] 的研究更是將 MCoT 的性能推向了一個(gè)新高,使得模型在 ScienceQA 數(shù)據(jù)集上的表現(xiàn)超過(guò)了人類的水平 (93%>88%)。然而,當(dāng)前的多模態(tài)思維鏈研究是否真正解決了所有挑戰(zhàn)?隨著 ScienceQA 等基準(zhǔn)測(cè)試的成績(jī)不斷刷新,我們是否可以認(rèn)為多模態(tài)推理問(wèn)題已經(jīng)迎刃而解?

研究者們通過(guò)深入分析發(fā)現(xiàn),當(dāng)前的多模態(tài)思維鏈基準(zhǔn)仍然存在嚴(yán)重的問(wèn)題,導(dǎo)致對(duì)模型實(shí)際能力的高估。當(dāng)前的多模態(tài)思維鏈基準(zhǔn)仍面臨以下三個(gè)嚴(yán)重的問(wèn)題:視覺(jué)模態(tài)推理缺失僅有單步視覺(jué)模態(tài)推理以及領(lǐng)域覆蓋不足。

這些問(wèn)題嚴(yán)重制約了多模態(tài)思維鏈領(lǐng)域的發(fā)展。因此,研究者提出了一個(gè)新的基準(zhǔn)

圖片(Multi-Domain Multi-step Multi-modal Chain-of-Thought),旨在解決上述問(wèn)題,并推動(dòng)多領(lǐng)域、多步和多模態(tài)思維鏈的進(jìn)步。研究者們還進(jìn)行了全面的評(píng)估,涉及豐富的多模態(tài)推理設(shè)置與方法。

研究者們還發(fā)現(xiàn)當(dāng)前的多模態(tài)大模型在 圖片 上的表現(xiàn)存在巨大的性能缺陷,盡管它們?cè)谝郧暗膫鹘y(tǒng)多模態(tài)思維鏈基準(zhǔn)上表現(xiàn)優(yōu)異。最后,研究團(tuán)隊(duì)希望 圖片 能夠成為一個(gè)有價(jià)值的資源,為多領(lǐng)域、多步和多模態(tài)思維鏈的研究提供開(kāi)創(chuàng)性的基礎(chǔ)。

圖片


  • 榜單地址:https://lightchen233.github.io/M3CoT.github.io/leaderboard.html
  • 論文地址:https://arxiv.org/abs/2405.16473
  • 代碼地址:https://github.com/LightChen233/M3CoT

動(dòng)機(jī)

盡管在 MCoT 研究領(lǐng)域取得了顯著進(jìn)展,但現(xiàn)有基準(zhǔn)仍然存在諸多不足:

1. 視覺(jué)模態(tài)推理缺失:模型往往可以僅基于文本模態(tài)生成推理和答案,這并不能真實(shí)反映多模態(tài) CoT 模型的能力。

2. 單步視覺(jué)模態(tài)推理:比如說(shuō),只需要看到單次圖片中的 “羽毛” 便可直接獲得答案。而在實(shí)際應(yīng)用中,多步推理更為常見(jiàn)和必要,要求模型在推理的過(guò)程中動(dòng)態(tài)的多次結(jié)合多模態(tài)信息進(jìn)行綜合推理。

3. 領(lǐng)域缺失:對(duì)于思維鏈來(lái)說(shuō),常識(shí)推理和數(shù)學(xué)推理是該領(lǐng)域的重要組成部分,而現(xiàn)有基準(zhǔn)缺乏對(duì)常識(shí)和數(shù)學(xué)等重要領(lǐng)域的覆蓋,限制了多模態(tài) CoT 能力的綜合評(píng)估。

圖片

針對(duì)以上問(wèn)題,研究者們開(kāi)發(fā)了一個(gè)新基準(zhǔn)圖片,并希望推動(dòng)多領(lǐng)域、多步和多模態(tài)思維鏈的研究與發(fā)展。

圖片

數(shù)據(jù)構(gòu)建過(guò)程

圖片

圖片 的構(gòu)建涉及如下四個(gè)關(guān)鍵階段:

  • 視覺(jué)模態(tài)推理缺失樣本移除:首先,為解決視覺(jué)模態(tài)推理缺失的問(wèn)題,圖片 利用自動(dòng)和手動(dòng)相結(jié)合的方式移除了那些無(wú)需圖像即可得出答案的樣本。
  • 多步多模態(tài)樣本構(gòu)建:這一階段中,為了保證基準(zhǔn)滿足多步多模態(tài)的要求,圖片首先自動(dòng)的去除了推理路徑過(guò)短的樣本,隨后通過(guò)手動(dòng)去除和優(yōu)化樣本,確保每一個(gè)樣本確實(shí)需要跨模態(tài)的多步推理。
  • 多模態(tài) CoT 領(lǐng)域增強(qiáng):此外,圖片通過(guò)引入數(shù)學(xué)和常識(shí)領(lǐng)域的數(shù)據(jù),將 LaTeX 代碼轉(zhuǎn)為圖片,并利用大模型生成更多的問(wèn)題、推理路徑和答案,增強(qiáng)了基準(zhǔn)的多樣性和挑戰(zhàn)性。
  • 質(zhì)量檢查:為了保證數(shù)據(jù)集的質(zhì)量,圖片實(shí)施了多輪人工審核和自動(dòng)檢測(cè),確保數(shù)據(jù)的一致性和準(zhǔn)確性。

主流多模態(tài)大語(yǔ)言模型評(píng)測(cè)結(jié)果

研究者們?cè)诙鄠€(gè)大型視覺(jué)語(yǔ)言模型(VLLMs)上進(jìn)行了廣泛的實(shí)驗(yàn),包括 Kosmos-2、InstructBLIP、LLaVA-V1.5、CogVLM、Gemini 和 GPT4V 等。研究者們還探索了一些提示策略,如直接提交樣本、思維鏈提示(CoT)[3] 以及描述性提示(Desp-CoT)[4] 和場(chǎng)景圖思維鏈提示策略(CCoT)[5]。

實(shí)驗(yàn)結(jié)果與結(jié)論如下所示:

  • 開(kāi)源模型與 GPT4V 仍有差距:盡管這些模型在現(xiàn)有基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,但在 圖片上的表現(xiàn)仍有顯著差距。尤其是當(dāng)前的開(kāi)源 VLLMs 在多步多模態(tài)推理方面表現(xiàn)不佳,與 GPT4V 相比存在顯著差距。
  • GPT4V 與人類仍有差距:此外,盡管 GPT4V 在 圖片 上的表現(xiàn)優(yōu)于其他 VLLMs,但與人類表現(xiàn)相比仍存在顯著差距。這表明,當(dāng)前的 VLLMs 在處理復(fù)雜的多模態(tài)推理任務(wù)時(shí)仍需進(jìn)一步改進(jìn)。
  • 多模態(tài)思維鏈涌現(xiàn)現(xiàn)象:視覺(jué)大模型在參數(shù)級(jí)別超過(guò) 100 億(≥13B)時(shí)表現(xiàn)出思維鏈涌現(xiàn)現(xiàn)象。

圖片

分析

此外,為了回答如何能夠在 圖片 上獲得更好的表現(xiàn)。研究者們提供了更全面的分析,從而揭示了當(dāng)前 VLLMs 在多步多模態(tài)推理方面的顯著不足,為未來(lái)的優(yōu)化提供了方向。


  • 單步推理任務(wù)的表現(xiàn)遠(yuǎn)優(yōu)于多步推理任務(wù)。模型在解決多步多模態(tài)推理時(shí)性能與單步多模態(tài)推理有接近 30% 的差距,且隨步驟數(shù)增加,性能遞減。這表明模型在處理復(fù)雜多步驟推理時(shí)仍存在困難。

    圖片


  • 提高模型生成的推理過(guò)程質(zhì)量對(duì)于提升 圖片 的表現(xiàn)至關(guān)重要。通過(guò)評(píng)估多維度的推理質(zhì)量,研究者們觀察到推理質(zhì)量的提升與 圖片 的性能呈現(xiàn)指數(shù)級(jí)相關(guān)關(guān)系。提升多模態(tài)推理的邏輯質(zhì)量是解決 圖片 的關(guān)鍵瓶頸之一。


  • 多模態(tài)信息交互的增加能夠顯著提升模型的推理性能。由于 圖片 要求推理時(shí)動(dòng)態(tài)的包含多個(gè)跨模態(tài)推理步驟,則至少有 2 步跨模態(tài)推理,而現(xiàn)有模型推理過(guò)程中,平均的跨模態(tài)推理步驟數(shù)小于 1。這說(shuō)明未來(lái)的研究應(yīng)注重提高推理過(guò)程的質(zhì)量和多模態(tài)信息的交互,以解決當(dāng)前模型在 圖片 上的表現(xiàn)不足。

圖片

探索

在此基礎(chǔ)上,研究者們進(jìn)一步探究了當(dāng)前各種常用的多模態(tài)方法與設(shè)置,探究是否能夠有效的解決 圖片 中的問(wèn)題。

工具使用探索

在多模態(tài)推理中,工具使用被認(rèn)為是提高模型性能的一種有效策略。研究者們?cè)趯?shí)驗(yàn)中評(píng)估了多種工具使用方法,包括 HuggingGPT、VisualChatGPT、IdealGPT 和 Chameleon 等模型。

文本大模型使用多模態(tài)工具在 圖片 上表現(xiàn)不佳:實(shí)驗(yàn)結(jié)果表明,盡管這些工具在單模態(tài)任務(wù)中表現(xiàn)良好,但在 圖片 基準(zhǔn)上的表現(xiàn)仍存在顯著差距。例如,HuggingGPT 在處理復(fù)雜的多步推理任務(wù)時(shí),由于缺乏對(duì)視覺(jué)信息的有效利用,表現(xiàn)較為遜色。此外,VisualChatGPT 和 IdealGPT 在處理需要多模態(tài)交互的任務(wù)時(shí),表現(xiàn)也未能達(dá)到預(yù)期。這些結(jié)果表明,當(dāng)前的工具使用框架需要進(jìn)一步改進(jìn),以更好地整合和利用多模態(tài)信息。

圖片

上下文學(xué)習(xí)探索

在上下文學(xué)習(xí)方面,研究者們探索了不同的示例策略對(duì)模型性能的影響。具體而言,研究者們?cè)u(píng)估了純文本示例以檢測(cè)模型在多模態(tài)推理時(shí)是否會(huì)進(jìn)行文本形式的學(xué)習(xí),同時(shí)還評(píng)估了多模態(tài)示例以檢測(cè)模型在多模態(tài)推理時(shí)是否會(huì)利用多模態(tài)示例進(jìn)行上下文學(xué)習(xí)。

純文本示例無(wú)法提高 圖片 上的性能:實(shí)驗(yàn)結(jié)果顯示,對(duì)于純文本示例來(lái)說(shuō),這些樣本數(shù)量對(duì)模型性能影響幾乎可以忽略不計(jì),這說(shuō)明,純粹的文本形式的模仿并不足以解決 圖片 問(wèn)題。

圖像和文本交錯(cuò)的多模態(tài)示例甚至可能會(huì)損害 圖片 上的性能:對(duì)于多模態(tài)示例來(lái)說(shuō),上下文學(xué)習(xí)僅僅能夠提高較大模型的能力。然而,對(duì)于一些訓(xùn)練過(guò)多模態(tài)交互數(shù)據(jù)的模型來(lái)說(shuō),甚至?xí)S著樣本數(shù)量增加而出現(xiàn)性能下降。因此,研究者們認(rèn)為,未來(lái)需要將包含邏輯的更高質(zhì)量的圖像和文本交錯(cuò)示例用于上下文學(xué)習(xí)的訓(xùn)練,并增強(qiáng)多模態(tài)大模型的多模態(tài)交互能力,才能夠在一定程度上改善模型的表現(xiàn)。

圖片

指令微調(diào)探索

為了進(jìn)一步提高模型在 圖片 上的表現(xiàn),研究者們進(jìn)行了微調(diào)實(shí)驗(yàn)。

指令微調(diào)能夠顯著增強(qiáng)傳統(tǒng)視覺(jué)語(yǔ)言模型(VLMs)的性能:指令微調(diào)使傳統(tǒng)視覺(jué)語(yǔ)言模型超越零樣本視覺(jué)大模型,這就是我們的數(shù)據(jù)集在提高 VLM 有效性方面的價(jià)值。經(jīng)過(guò)微調(diào)的 VLM(最低為 44.85%)優(yōu)于大多數(shù)具有零樣本提示的開(kāi)源 VLLM(最高為 38.86%)。

指令微調(diào)能夠進(jìn)一步地增強(qiáng)大型視覺(jué)語(yǔ)言模型的性能:通過(guò)在 圖片 數(shù)據(jù)集上進(jìn)行微調(diào),LLaVA-V1.5-13B 模型的整體準(zhǔn)確率提高了近 20%,并接近了 GPT4V 的水平。

因此,研究者們建議未來(lái)的研究可以更多地關(guān)注指令微調(diào)技術(shù),以進(jìn)一步提升多模態(tài)推理模型的表現(xiàn)。

圖片

結(jié)論及展望

研究者們引入了一個(gè)新的基準(zhǔn) 圖片,旨在推動(dòng)多領(lǐng)域、多步和多模態(tài)思維鏈的研究。研究者們的實(shí)驗(yàn)和分析表明,盡管現(xiàn)有的 VLLMs 在某些任務(wù)上表現(xiàn)優(yōu)異,但在更復(fù)雜的多模態(tài)推理任務(wù)上仍有很大改進(jìn)空間。通過(guò)提出 圖片,研究者們希望能夠重新評(píng)估現(xiàn)有的進(jìn)展,并通過(guò)指出新的挑戰(zhàn)和機(jī)會(huì),激發(fā)未來(lái)的研究。研究者們期待 圖片 能夠成為一個(gè)有價(jià)值的資源,為多領(lǐng)域、多步和多模態(tài)思維鏈的研究提供開(kāi)創(chuàng)性的基礎(chǔ)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2021-10-13 22:41:24

人工智能數(shù)據(jù)信息技術(shù)

2011-07-21 08:53:42

HTML 5

2015-11-30 11:02:00

5G通信技術(shù)

2022-04-20 12:19:35

400G中國(guó)電信中國(guó)移動(dòng)

2019-07-09 16:25:42

區(qū)塊鏈數(shù)字貨幣比特幣

2018-10-15 10:59:56

2024-11-11 11:05:00

大語(yǔ)言模型系統(tǒng)

2018-09-30 11:20:07

人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2023-03-02 10:31:01

6G

2018-08-30 10:14:20

代碼開(kāi)發(fā)機(jī)器

2021-03-25 20:23:09

人工智能AI肺結(jié)核

2020-10-15 08:58:38

人工智能機(jī)器學(xué)習(xí)技術(shù)

2011-12-30 09:22:40

2019-10-12 13:57:29

5G

2016-08-03 15:35:14

云計(jì)算云計(jì)算發(fā)展趨勢(shì)

2016-07-20 13:08:59

云計(jì)算

2025-03-25 09:06:11

2013-08-15 11:01:22

2012-08-31 10:07:34

VMware

2018-09-27 15:42:38

人工智能看病醫(yī)生
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)