自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)LLM視覺(jué)推理能力堪憂,浙大領(lǐng)銜用GPT-4合成數(shù)據(jù)構(gòu)建多模態(tài)基準(zhǔn)

人工智能
LLM的數(shù)學(xué)推理能力缺陷得到了很多研究的關(guān)注,但最近浙大、中科院等機(jī)構(gòu)的學(xué)者們提出,先進(jìn)模型在視覺(jué)推理方面同樣不足。為此他們提出了一種多模態(tài)的視覺(jué)推理基準(zhǔn),并設(shè)計(jì)了一種新穎的數(shù)據(jù)合成方法。

無(wú)論是語(yǔ)言模型還是視覺(jué)模型,似乎都很難完成更抽象層次上的理解和推理任務(wù)。

語(yǔ)言模型已經(jīng)可以寫詩(shī)寫小說(shuō)了,但是依舊算不對(duì)9.11和9.9比大小的問(wèn)題。

同樣的問(wèn)題也出現(xiàn)在視覺(jué)模型中,它們能完美理解自然景色或人物照片,卻無(wú)法處理各種圖表任務(wù),甚至看表讀時(shí)間都是難題。

如果要將AI系統(tǒng)用在更多專業(yè)領(lǐng)域,這些能力缺陷就顯得極為突出。

最近,浙江大學(xué)、中科院軟件研究所、上??萍即髮W(xué)等機(jī)構(gòu)就聯(lián)合提出了一種新的多模態(tài)基準(zhǔn),專門衡量模型對(duì)抽象圖像的理解能力和視覺(jué)推理能力。

圖片圖片

論文地址:https://arxiv.org/pdf/2407.07053

數(shù)據(jù)集共包含11,193個(gè)帶有相關(guān)問(wèn)題的抽象圖像,涵蓋了儀表板、路線圖、圖表、表格、流程圖、關(guān)系圖、視覺(jué)謎題和2D平面圖等8大類別,此外還有額外的62,476條數(shù)據(jù)用于微調(diào)模型。

經(jīng)過(guò)測(cè)試,人類在該基準(zhǔn)上可以達(dá)到至少82.1%的準(zhǔn)確率,但Claude 3.5 Sonnet和GPT-4o等頂流模型的成績(jī)卻遠(yuǎn)遠(yuǎn)落后于人類,分別只有64.7%和59.9%。

圖片圖片

目前全部數(shù)據(jù)已經(jīng)上傳至HuggingFace倉(cāng)庫(kù)。

圖片圖片

倉(cāng)庫(kù)地址:https://huggingface.co/datasets/zwq2018/Multi-modal-Self-instruct

此外,作者也將數(shù)據(jù)構(gòu)建數(shù)據(jù)所用的代碼上傳到了GitHub。

圖片圖片

代碼地址:https://github.com/zwq2018/Multi-modal-Self-instruct

構(gòu)建數(shù)據(jù)集

作為新提出的基準(zhǔn)測(cè)試,重頭戲自然是數(shù)據(jù)集的構(gòu)建過(guò)程。

作者在論文中指出,想要采集到合適的抽象圖像-文本對(duì),既需要大量人力,也十分耗費(fèi)時(shí)間。

那么使用合成數(shù)據(jù)呢?

同樣也不容易,因?yàn)槲覀冃枰氖嵌嗄B(tài)數(shù)據(jù),但LLM無(wú)法直接生成圖像,DALL-E、Stable Diffusion等圖像生成模型又無(wú)法同步生成文本。

一個(gè)直覺(jué)的解決方案是將二者結(jié)合在一起,直接生成<圖像,問(wèn)題,答案>形式的數(shù)據(jù)。

但文生圖模型實(shí)際上很難對(duì)圖像細(xì)節(jié)做到細(xì)微精準(zhǔn)的控制,尤其是生成僅由幾何形狀組成的抽象圖像,更何況其中大部分還需要包含數(shù)字和文字。

鑒于以上問(wèn)題,作者提出了一種以代碼為中心的「自我指導(dǎo)」(self-instruct)策略進(jìn)行圖像和相關(guān)文本的同步合成,整個(gè)過(guò)程只有語(yǔ)言模型——GPT-4-Turbo的參與,沒(méi)有用到圖像生成模型。(圖2)

圖片圖片

首先指導(dǎo)LLM,針對(duì)某個(gè)日常情景,提出一種視覺(jué)創(chuàng)意。這個(gè)過(guò)程中,作者給LLM提供了一些in-context示例,使生成結(jié)果盡可能涵蓋全部8個(gè)類別。

然后模型根據(jù)自己提出的創(chuàng)意,生成所需的數(shù)據(jù)和代碼以繪制圖像。

比如對(duì)于餅狀圖,LLM就需要先「捏造」數(shù)據(jù),設(shè)計(jì)出每個(gè)類型對(duì)應(yīng)的百分比數(shù)值。在代碼生成中,作者激勵(lì)模型使用Matplotlib或ECharts等代碼庫(kù),顯著降低了代碼復(fù)雜度。

執(zhí)行代碼并渲染好圖像后,LLM會(huì)繼續(xù)進(jìn)行「自我指導(dǎo)」,根據(jù)視覺(jué)內(nèi)容,加上之前所用的視覺(jué)創(chuàng)意、數(shù)據(jù)和代碼作為prompt,生成多個(gè)高質(zhì)量的<問(wèn)題,答案>文本對(duì)。

除了為每個(gè)問(wèn)題生成答案,作者還提示LLM生成能解釋答案的「原理」(rationale),以便用于訓(xùn)練模型,起到類似于CoT的作用。

整個(gè)構(gòu)建過(guò)程的流水線如下圖所示:

圖片圖片

這種「以代碼為中心」的方式不僅更容易保證圖像的細(xì)節(jié)、質(zhì)量和多樣性,也讓LLM更容易生成相關(guān)文本。

數(shù)據(jù)合成過(guò)程所用的模型是GPT-4-Turbo,但合成后還經(jīng)過(guò)Llava-1.5的初篩,以保證圖像的美觀程度、布局合理性以及文本可讀性等。

最終構(gòu)建的測(cè)試集共包含3.658張圖像和11,193條指令,涵蓋了儀表板、路線圖、圖表、表格、流程圖、關(guān)系圖、視覺(jué)謎題和2D平面圖等8個(gè)類別。

圖片圖片

數(shù)據(jù)集進(jìn)行了10%的隨機(jī)抽樣,并讓人類驗(yàn)證答案的正確性,發(fā)現(xiàn)數(shù)據(jù)集的質(zhì)量有一定的保證。

為了能進(jìn)一步評(píng)估合成數(shù)據(jù)的質(zhì)量,作者還為圖表、表格和路線圖這三個(gè)任務(wù)構(gòu)建了額外的訓(xùn)練集,共包含62,476條指令(圖1)。

圖片圖片

基準(zhǔn)測(cè)試

論文共對(duì)12個(gè)模型進(jìn)行了測(cè)試,詳細(xì)結(jié)果如表A1所示,其中人類所得分?jǐn)?shù)來(lái)自于兩個(gè)本科生分?jǐn)?shù)的平均。

圖片

其中得分最高的是Claude 3.5 Sonnet,平均準(zhǔn)確率為64.74%;GPT-4o緊隨其后,準(zhǔn)確率為59.99%,都與人類平均水平82.1%相去甚遠(yuǎn)。

作者發(fā)現(xiàn),在圖表、關(guān)系圖、2D平面圖中,模型經(jīng)常在抽象概念或空間關(guān)系上出錯(cuò)。

8個(gè)類別的抽象圖像中,模型表現(xiàn)最差的當(dāng)屬「路線圖」類。Claude 3.5 Sonnet平均準(zhǔn)確率為59.24%,其余模型均為未超過(guò)40%。

在「路線圖」和「視覺(jué)謎題」兩類圖像任務(wù)中,開(kāi)源和閉源模型的差距尤為明顯。

模型微調(diào)

除了構(gòu)建基準(zhǔn),論文發(fā)現(xiàn),用這些合成數(shù)據(jù)訓(xùn)練模型可以顯著提高其視覺(jué)推理能力。

相比之前的Vanilla Llava-1.5-7B,用62K條數(shù)據(jù)經(jīng)過(guò)4小時(shí)LoRA微調(diào)后的模型,在3類圖像任務(wù)上都有非常顯著的提升。尤其是「路線圖」類別,準(zhǔn)確率飆升67.4%,超過(guò)了GPT-4V和Claude-3-Sonnet(表2)。

雖然模型在微調(diào)后出現(xiàn)性能提升屬于正?,F(xiàn)象,但這種微調(diào)效率可以側(cè)面證明合成數(shù)據(jù)的潛力,尤其是在質(zhì)量、有效性和多樣性方面。

除了在原基準(zhǔn)上有所進(jìn)步,微調(diào)后的模型在ChatQA、MathVista這樣弱相關(guān)任務(wù)上也有不同程度的分?jǐn)?shù)提升(表4)。

這意味著,在合成數(shù)據(jù)上的訓(xùn)練可以提升模型的通用視覺(jué)推理能力,從而泛化到其他任務(wù),而非僅僅是擬合訓(xùn)練場(chǎng)景。

圖片圖片

結(jié)論與限制

論文最重要的貢獻(xiàn)在于指出了當(dāng)前多模態(tài)LLM在視覺(jué)推理方面的次優(yōu)表現(xiàn),并構(gòu)建了合成數(shù)據(jù)組成的基準(zhǔn)測(cè)試集,表明合成數(shù)據(jù)訓(xùn)練是一個(gè)有前景的解決方案。

與此同時(shí),作者指出了該研究存在的三方面限制:

- 數(shù)據(jù)合成過(guò)程嚴(yán)重依賴LLM的代碼合成和推理能力,因此論文只使用了GPT-4等閉源模型。隨著Llama 3等開(kāi)源模型逐漸提升性能,未來(lái)可以利用開(kāi)源模型合成數(shù)據(jù)以減少成本

- 本項(xiàng)工作主要用代碼合成8類的抽象圖像,例如表格和地圖,未來(lái)可以繼續(xù)擴(kuò)展到用代碼控制機(jī)器人仿真器,生成特定的房屋布局和結(jié)構(gòu)

- 我們認(rèn)為視覺(jué)編碼器是當(dāng)前LLM的瓶頸,尤其是對(duì)于抽象圖表而言,因此未來(lái)提升編碼器圖像分辨率可以增強(qiáng)LLM的細(xì)粒度認(rèn)知能力

參考資料:

https://the-decoder.com/study-reveals-major-weaknesses-in-ais-ability-to-understand-diagrams-and-abstract-visuals/

https://arxiv.org/abs/2407.07053

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2025-01-08 08:21:16

2023-05-08 10:14:07

模型AI

2024-05-20 08:20:00

OpenAI模型

2024-12-18 18:57:58

2024-01-11 16:24:12

人工智能RAG

2023-03-10 13:30:01

微軟人工智能

2023-11-07 18:08:03

GPT-4模型

2023-06-02 13:39:00

GPT-3開(kāi)源GPU

2023-03-10 13:03:09

人工智能模型

2023-09-19 13:48:31

AI數(shù)據(jù)

2024-01-02 09:16:31

GPT-4推理

2024-11-13 09:39:13

2024-06-28 18:13:05

2024-03-01 11:58:26

MLLMs大語(yǔ)言模型人工智能

2024-10-21 13:20:00

視頻數(shù)據(jù)集

2025-03-23 22:05:22

2023-07-23 18:55:20

ChatGPTGPT-4

2024-12-17 08:05:34

大型語(yǔ)言模型MetaAILLM

2025-02-27 10:08:19

2025-01-02 11:01:45

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)