自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

趕超Gemini Pro，提升推理、OCR能力的LLaVA-1.6太強(qiáng)了

作者：機(jī)器之心 2024-02-01 12:43:00

人工智能新聞

現(xiàn)在，研究團(tuán)隊(duì)宣布推出 LLaVA-1.6，主要改進(jìn)了模型在推理、OCR 和世界知識(shí)方面的性能。LLaVA-1.6 甚至在多項(xiàng)基準(zhǔn)測(cè)試中超越了 Gemini Pro。

去年 4 月，威斯康星大學(xué)麥迪遜分校、微軟研究院和哥倫比亞大學(xué)研究者共同發(fā)布了 LLaVA（Large Language and Vision Assistant）。盡管 LLaVA 是用一個(gè)小的多模態(tài)指令數(shù)據(jù)集訓(xùn)練的，卻在一些樣本上展示了與 GPT-4 非常相似的推理結(jié)果。10 月，LLaVA-1.5 重磅發(fā)布，通過對(duì)原始 LLaVA 的簡單修改，在 11 個(gè)基準(zhǔn)上刷新了 SOTA。

現(xiàn)在，研究團(tuán)隊(duì)宣布推出 LLaVA-1.6，主要改進(jìn)了模型在推理、OCR 和世界知識(shí)方面的性能。LLaVA-1.6 甚至在多項(xiàng)基準(zhǔn)測(cè)試中超越了 Gemini Pro。

demo 地址：https://llava.hliu.cc/
項(xiàng)目地址：https://github.com/haotian-liu/LLaVA

與 LLaVA-1.5 相比，LLaVA-1.6 有如下幾個(gè)改進(jìn)：

將輸入圖像分辨率提升 4 倍，支持三種寬高比，最高可達(dá) 672x672、336x1344、1344x336 分辨率。這使得 LLaVA-1.6 能夠掌握更多的視覺細(xì)節(jié)。
通過改進(jìn)的視覺指令調(diào)整數(shù)據(jù)混合，LLaVA-1.6 獲得了更好的視覺推理和 OCR 能力。
更好的視覺對(duì)話，更多場(chǎng)景，覆蓋不同應(yīng)用。LLaVA-1.6 掌握了更多世界知識(shí)，具備更好的邏輯推理能力。
使用 SGLang 進(jìn)行高效部署和推理。

圖源：https://twitter.com/imhaotian/status/1752621754273472927

LLaVA-1.6 保持了 LLaVA-1.5 的極簡設(shè)計(jì)和數(shù)據(jù)效率，它復(fù)用了 LLaVA-1.5 的預(yù)訓(xùn)練連接器，并且仍然使用不到 1M 的視覺指令調(diào)優(yōu)樣本。最大的 34B 模型使用 32 個(gè) A100 在大約 1 天內(nèi)完成了訓(xùn)練。LLaVA-1.6 使用 130 萬個(gè)數(shù)據(jù)樣本，計(jì)算 / 訓(xùn)練數(shù)據(jù)成本約為其他方法的 100-1000 分之一。

與 CogVLM 或 Yi-VL 等開源 LMM 相比，LLaVA-1.6 實(shí)現(xiàn)了 SOTA 性能。與商用產(chǎn)品相比，LLaVA-1.6 在選定的基準(zhǔn)測(cè)試中可以媲美 Gemini Pro，并且優(yōu)于 Qwen-VL-Plus。

值得一提的是，LLaVA-1.6 展現(xiàn)出強(qiáng)大的零樣本（zero-shot）中文能力，它在多模態(tài)基準(zhǔn) MMBench-CN 上取得了 SOTA 性能。

方法改進(jìn)

動(dòng)態(tài)高分辨率

研究團(tuán)隊(duì)以高分辨率設(shè)計(jì) LLaVA-1.6 模型，旨在保持其數(shù)據(jù)效率。當(dāng)提供高分辨率圖像和保留細(xì)節(jié)的表征時(shí)，模型感知圖像中復(fù)雜細(xì)節(jié)的能力會(huì)顯著提高。它減少了面對(duì)低分辨率圖像時(shí)的模型幻覺，即猜測(cè)想象的視覺內(nèi)容。

數(shù)據(jù)混合

高質(zhì)量的用戶指令數(shù)據(jù)。該研究對(duì)高質(zhì)量視覺指令遵循數(shù)據(jù)的定義取決于兩個(gè)主要標(biāo)準(zhǔn)：首先，任務(wù)指令的多樣性，確保充分代表現(xiàn)實(shí)場(chǎng)景中可能遇到的廣泛用戶意圖，特別是在模型部署階段。其次，響應(yīng)的優(yōu)先級(jí)至關(guān)重要，旨在征求有利的用戶反饋。

因此，該研究考慮了兩個(gè)數(shù)據(jù)源：

現(xiàn)有的 GPT-V 數(shù)據(jù) （LAION-GPT-V 和 ShareGPT-4V）；

為了進(jìn)一步促進(jìn)更多場(chǎng)景下更好的視覺對(duì)話，研究團(tuán)隊(duì)收集了一個(gè)涵蓋不同應(yīng)用的小型 15K 視覺指令調(diào)優(yōu)數(shù)據(jù)集，仔細(xì)過濾了可能存在隱私問題或可能有害的樣本，并使用 GPT-4V 生成響應(yīng)。

多模態(tài)文檔 / 圖表數(shù)據(jù)。(1) 從訓(xùn)練數(shù)據(jù)中刪除 TextCap，因?yàn)檠芯繄F(tuán)隊(duì)意識(shí)到 TextCap 使用與 TextVQA 相同的訓(xùn)練圖像集。這使得研究團(tuán)隊(duì)能夠在評(píng)估 TextVQA 時(shí)更好地了解模型的零樣本 OCR 能力。為了保持并進(jìn)一步提高模型的 OCR 能力，該研究用 DocVQA 和 SynDog-EN 替換了 TextCap。(2) 借助 Qwen-VL-7B-Chat，該研究進(jìn)一步添加了 ChartQA、DVQA 和 AI2D，以更好地理解圖和圖表。

研究團(tuán)隊(duì)還表示除了 Vicuna-1.5（7B 和 13B），還考慮采用更多 LLM 方案，包括 Mistral-7B 和 Nous-Hermes-2-Yi-34B，以使 LLaVA 能夠支持更廣泛的用戶和更多的場(chǎng)景。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="suw2k"><s id="suw2k"></s></sub>