自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="hnnqd"><rp id="hnnqd"></rp></style>

<style id="hnnqd"></style>

^{<thead id="hnnqd"></thead>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

3000多條數(shù)據(jù)里選出200條效果反而更好，MiniGPT-4被配置相同的模型超越了

作者：機(jī)器之心 2023-08-28 13:36:00

人工智能新聞

今年四月誕生的多模態(tài)大型語言模型 MiniGPT-4 不僅能看圖聊天，還能利用手繪草圖建網(wǎng)站，可以說是功能強(qiáng)大。而在預(yù)訓(xùn)練之后的微調(diào)階段，該模型使用了 3000 多個數(shù)據(jù)。確實很少，但上海交通大學(xué)清源研究院和里海大學(xué)的一個聯(lián)合研究團(tuán)隊認(rèn)為還可以更少，因為這些數(shù)據(jù)中大部分質(zhì)量都不高。他們設(shè)計了一個數(shù)據(jù)選擇器，從中選出了 200 個數(shù)據(jù)，然后訓(xùn)練得到了 InstructionGPT-4 模型，其表現(xiàn)竟

在生成細(xì)節(jié)豐富和精確的圖像描述方面，GPT-4 已經(jīng)展現(xiàn)出了強(qiáng)大超凡的能力，其標(biāo)志著一個語言和視覺處理新時代的到來。

因此，類似于 GPT-4 的多模態(tài)大型語言模型（MLLM）近來異軍突起，成為了一個炙手可熱的新興研究領(lǐng)域，其研究核心是將強(qiáng)大的 LLM 用作執(zhí)行多模態(tài)任務(wù)的認(rèn)知框架。MLLM 出人意料的卓越表現(xiàn)不僅超越了傳統(tǒng)方法，更使其成為了實現(xiàn)通用人工智能的潛在途徑之一。

為了創(chuàng)造出好用的 MLLM，需要使用大規(guī)模的配對的圖像 - 文本數(shù)據(jù)以及視覺 - 語言微調(diào)數(shù)據(jù)來訓(xùn)練凍結(jié)的 LLM（如 LLaMA 和 Vicuna）與視覺表征（如 CLIP 和 BLIP-2）之間的連接器（如 MiniGPT-4、LLaVA 和 LLaMA-Adapter）。

MLLM 的訓(xùn)練通常分為兩個階段：預(yù)訓(xùn)練階段和微調(diào)階段。預(yù)訓(xùn)練的目的是讓 MLLM 獲得大量知識，而微調(diào)則是為了教會模型更好地理解人類意圖并生成準(zhǔn)確的響應(yīng)。

為了增強(qiáng) MLLM 理解視覺 - 語言和遵循指令的能力，近期出現(xiàn)了一種名為指令微調(diào)（instruction tuning）的強(qiáng)大微調(diào)技術(shù)。該技術(shù)有助于將模型與人類偏好對齊，從而讓模型在各種不同的指令下都能生成人類期望的結(jié)果。在開發(fā)指令微調(diào)技術(shù)方面，一個頗具建設(shè)性的方向是在微調(diào)階段引入圖像標(biāo)注、視覺問答（VQA）和視覺推理數(shù)據(jù)集。InstructBLIP 和 Otter 等之前的技術(shù)的做法是使用一系列視覺 - 語言數(shù)據(jù)集來進(jìn)行視覺指令微調(diào)，也得到了頗具潛力的結(jié)果。

但是，人們已經(jīng)觀察到：常用的多模態(tài)指令微調(diào)數(shù)據(jù)集包含大量低質(zhì)量實例，即其中的響應(yīng)是不正確或不相關(guān)的。這樣的數(shù)據(jù)具有誤導(dǎo)性，并會對模型的性能表現(xiàn)造成負(fù)面影響。

這一問題促使研究人員開始探究這一可能性：能否使用少量高質(zhì)量的遵循指令數(shù)據(jù)來獲得穩(wěn)健的性能表現(xiàn)？

近期的一些研究得到了鼓舞人心的成果，表明這個方向是有潛力的。比如 Zhou et al. 提出了 LIMA ，這是一個使用人類專家精挑細(xì)選出的高質(zhì)量數(shù)據(jù)微調(diào)得到的語言模型。該研究表明，即使使用數(shù)量有限的高質(zhì)量遵循指令數(shù)據(jù)，大型語言模型也可以得到讓人滿意的結(jié)果。所以，研究人員得出結(jié)論：在對齊方面，少即是多（Less is More）。然而，對于如何為微調(diào)多模態(tài)語言模型選擇合適的高質(zhì)量數(shù)據(jù)集，之前還沒有一個清晰的指導(dǎo)方針。

上海交通大學(xué)清源研究院和里海大學(xué)的一個研究團(tuán)隊填補(bǔ)了這一空白，提出了一個穩(wěn)健有效的數(shù)據(jù)選擇器。這個數(shù)據(jù)選擇器能夠自動識別并過濾低質(zhì)量視覺 - 語言數(shù)據(jù)，從而確保模型訓(xùn)練所使用的都是最相關(guān)和信息最豐富的樣本。

論文地址：https://arxiv.org/abs/2308.12067

研究者表示，這項研究關(guān)注的重點(diǎn)是探索少量但優(yōu)質(zhì)的指令微調(diào)數(shù)據(jù)對微調(diào)多模態(tài)大型語言模型的功效。除此之外，這篇論文還引入了幾個專為評估多模態(tài)指令數(shù)據(jù)的質(zhì)量而設(shè)計的新指標(biāo)。在圖像上執(zhí)行譜聚類之后，數(shù)據(jù)選擇器會計算一個加權(quán)分?jǐn)?shù)，其組合了 CLIP 分?jǐn)?shù)、GPT 分?jǐn)?shù)、獎勵分?jǐn)?shù)和每個視覺 - 語言數(shù)據(jù)的答案長度。

通過在用于微調(diào) MiniGPT-4 所用的 3400 個原始數(shù)據(jù)上使用該選擇器，研究者發(fā)現(xiàn)這些數(shù)據(jù)大部分都有低質(zhì)量的問題。使用這個數(shù)據(jù)選擇器，研究者得到了一個小得多的精選數(shù)據(jù)子集 —— 僅有 200 個數(shù)據(jù)，只有原始數(shù)據(jù)集的 6%。然后他們使用 MiniGPT-4 一樣的訓(xùn)練配置，微調(diào)得到了一個新模型：InstructionGPT-4。

研究者表示這是一個激動人心的發(fā)現(xiàn)，因為其表明：在視覺 - 語言指令微調(diào)中，數(shù)據(jù)的質(zhì)量比數(shù)量更重要。此外，這種更加強(qiáng)調(diào)數(shù)據(jù)質(zhì)量的變革提供了一個能提升 MLLM 微調(diào)的更有效的新范式。

研究者進(jìn)行了嚴(yán)格的實驗，對已微調(diào) MLLM 的實驗評估集中于七個多樣化且復(fù)雜的開放域多模態(tài)數(shù)據(jù)集，包括 Flick-30k、ScienceQA、 VSR 等。他們在不同的多模態(tài)任務(wù)上比較了使用不同數(shù)據(jù)集選取方法（使用數(shù)據(jù)選擇器、對數(shù)據(jù)集隨機(jī)采樣、使用完整數(shù)據(jù)集）而微調(diào)得到的模型的推理性能，結(jié)果展現(xiàn)了 InstructionGPT-4 的優(yōu)越性。

此外還需說明：研究者用于評估的評價者是 GPT-4。具體而言，研究者使用了 prompt 將 GPT-4 變成了評價者，其可以使用 LLaVA-Bench 中的測試集來比較 InstructionGPT-4 和原始 MiniGPT-4 的響應(yīng)結(jié)果。

結(jié)果發(fā)現(xiàn)，盡管與 MiniGPT-4 所用的原始指令遵循數(shù)據(jù)相比，InstructionGPT-4 使用的微調(diào)數(shù)據(jù)僅有 6% 那么一點(diǎn)點(diǎn)，但后者在 73% 的情況下給出的響應(yīng)都相同或更好。

這篇論文的主要貢獻(xiàn)包括：

通過選擇 200 個（約 6%）高質(zhì)量的指令遵循數(shù)據(jù)來訓(xùn)練 InstructionGPT-4，研究者表明可以為多模態(tài)大型語言模型使用更少的指令數(shù)據(jù)來實現(xiàn)更好的對齊。
文中提出了一種數(shù)據(jù)選擇器，其使用了一種可解釋的簡單原則來選取用于微調(diào)的高質(zhì)量多模態(tài)指令遵循數(shù)據(jù)。這種方法力求在數(shù)據(jù)子集的評估和調(diào)整中實現(xiàn)有效性和可移植性。
研究者通過實驗表明這種簡單技術(shù)能夠很好地應(yīng)對不同任務(wù)。相比于原始的 MiniGPT-4，僅使用 6% 已過濾數(shù)據(jù)微調(diào)得到的 InstructionGPT-4 在多種任務(wù)上都取得了更優(yōu)表現(xiàn)。

方法

這項研究的目標(biāo)是提出一種簡單且可移植的數(shù)據(jù)選擇器，使其能自動從原始微調(diào)數(shù)據(jù)集中精選出一個子集。為此，研究者定義了一個選取原則，該原則關(guān)注的重點(diǎn)是多模態(tài)數(shù)據(jù)集的多樣化和質(zhì)量。下面將簡單介紹一下。

選取原則

為了有效地訓(xùn)練 MLLM，選取有用的多模態(tài)指令數(shù)據(jù)是至關(guān)重要的。而為了選出最優(yōu)的指令數(shù)據(jù)，研究者提出了兩大關(guān)鍵原則：多樣性和質(zhì)量。對于多樣性，研究者采用的方法是對圖像嵌入進(jìn)行聚類，以將數(shù)據(jù)分成不同的組別。為了評估質(zhì)量，研究者采用了一些用于高效評估多模態(tài)數(shù)據(jù)的關(guān)鍵指標(biāo)。

數(shù)據(jù)選擇器

給定一個視覺 - 語言指令數(shù)據(jù)集和一個預(yù)訓(xùn)練 MLLM（如 MiniGPT-4 和 LLaVA），數(shù)據(jù)選擇器的最終目標(biāo)是識別出一個用于微調(diào)的子集并且使得該子集能為預(yù)訓(xùn)練 MLLM 帶來提升。

為了選出這個子集并確保其多樣性，研究者首先是使用一個聚類算法將原始數(shù)據(jù)集分成多個類別。

為了確保所選出的多模態(tài)指令數(shù)據(jù)的質(zhì)量，研究者制定了一套用于評估的指標(biāo)，如下表 1 所示。

表 2 則給出了在計算最終分?jǐn)?shù)時，每個不同分?jǐn)?shù)的權(quán)重。

算法 1 展示了數(shù)據(jù)選擇器的整個工作流程。

實驗

實驗評估中所使用的數(shù)據(jù)集如下表 3 所示。

基準(zhǔn)分?jǐn)?shù)

表 4 比較了 MiniGPT-4 基準(zhǔn)模型、使用隨機(jī)采樣的數(shù)據(jù)微調(diào)得到的 MiniGPT-4 以及使用數(shù)據(jù)選擇器微調(diào)得到的 InstructionGPT-4 的表現(xiàn)。

可以觀察到，InstructionGPT-4 的平均表現(xiàn)是最好的。具體來說，InstructionGPT-4 在 ScienceQA 的表現(xiàn)超過基準(zhǔn)模型 2.12%，在 OKVQA 和 VCR-OC 上則分別超過基準(zhǔn)模型 2.49% 和 4.19%。

此外，InstructionGPT-4 在除 VSR 之外的所有其它任務(wù)上都優(yōu)于用隨機(jī)樣本訓(xùn)練的模型。通過在一系列任務(wù)上評估和對比這些模型，可以辨別出它們各自的能力，并確定新提出的數(shù)據(jù)選擇器的效能 —— 數(shù)據(jù)選擇器能有效識別高質(zhì)量數(shù)據(jù)。

這樣的全面分析表明：明智的數(shù)據(jù)選擇可以提升模型在各種不同任務(wù)上的零樣本性能。

GPT-4 評估

LLM 本身存在固有的位置偏見，對此可參閱機(jī)器之心文章《語言模型悄悄偷懶？新研究：上下文太長，模型會略過中間不看》。因此研究者采取了措施來解決這一問題，具體來說就是同時使用兩種排布響應(yīng)的順序來執(zhí)行評估，即將 InstructionGPT-4 生成的響應(yīng)放在 MiniGPT-4 生成的響應(yīng)之前或之后。為了制定明確的評判標(biāo)準(zhǔn)，他們采用了「贏-平-輸」（Win-Tie-Lose）框架：

1) 贏：InstructionGPT-4 在兩種情況下都贏或贏一次平一次；

2) 平：InstructionGPT-4 與 MiniGPT-4 平局兩次或贏一次輸一次；

3) 輸：InstructionGPT-4 輸兩次或輸一次平一次。

圖 1 展示了這種評估方法的結(jié)果。

在 60 個問題上，InstructionGPT-4 贏 29 局，輸 16 局，其余 15 局平局。這足以證明在響應(yīng)質(zhì)量上，InstructionGPT-4 明顯優(yōu)于 MiniGPT-4。

消融研究

表 5 給出了消融實驗的分析結(jié)果，從中可以看出聚類算法和各種評估分?jǐn)?shù)的重要性。

演示

為了深入了解 InstructionGPT-4 在理解視覺輸入和生成合理響應(yīng)方面的能力，研究者還對 InstructionGPT-4 和 MiniGPT-4 的圖像理解和對話能力進(jìn)行了對比評估。該分析基于一個顯眼的實例，涉及到對圖像的描述以及進(jìn)一步的理解，結(jié)果見表 6。

InstructionGPT-4 更擅長提供全面的圖像描述和識別圖像中有趣的方面。與 MiniGPT-4 相比，InstructionGPT-4 更有能力識別圖像中存在的文本。在這里，InstructionGPT-4 能夠正確指出圖像中有一個短語：Monday, just Monday.

更多細(xì)節(jié)請參見原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營