自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

威大哥大等聯(lián)合發(fā)文!最新多模態(tài)大模型LLaVA問世,水平直逼GPT-4

人工智能 新聞
微軟&哥大聯(lián)合發(fā)表視覺指令微調(diào)論文,LLaVA出爐!

視覺指令微調(diào)火了。

這篇論文名為Visual Instruction Tuning,由威斯康星大學(xué)麥迪遜分校,微軟研究院和哥倫比亞大學(xué)共同出品。

作者包括Haotian Liu,Chunyuan Li,Qingyang Wu和Yong Jae Lee。

圖片

同時(shí),研究人員也在GitHub上開源了他們的代碼、模型和數(shù)據(jù)集。論文也發(fā)布在了Arxiv上。

講解

那么LLaVA的功能究竟是什么呢?如果一頭扎進(jìn)論文,不熟悉的朋友可能會(huì)有些陌生。

我們先看看LLaVA自己怎么說。

圖片

以上回答生成自LLaVA的Chatbot,我輸入的問題是,LLaVA的功能是什么,用戶該如何利用它?

回答如下:

LLaVA是一個(gè)大語言和視覺助手,在UW Madison WAIV實(shí)驗(yàn)室經(jīng)受的訓(xùn)練。LLaVA被設(shè)計(jì)出來的目的,就是幫助用戶處理各類任務(wù),方法則是借助自然語言理解的能力和視覺內(nèi)容分析的能力。

LLaVA的主要功能包括:

· 以文本為基礎(chǔ)的任務(wù):LLaVA可以處理并分析文本,允許用戶問問題,LLaVA可以和用戶交談,或者完成用戶輸入的任務(wù),比如說提煉文件概要,情感分析,實(shí)體識(shí)別等等。

· 以圖像為基礎(chǔ)的任務(wù):LLaVA可以分析圖像,描述圖像,進(jìn)行物體識(shí)別,分析理解場(chǎng)景。

用戶如果想更好地應(yīng)用LLaVA,可以直接和LLaVA進(jìn)行交談,就像和人類之間對(duì)話一樣。盡可能多的提供細(xì)節(jié),LLaVA就會(huì)生成出一個(gè)更完善的答案。

同時(shí)應(yīng)該記住,說到底LLaVA是一個(gè)機(jī)器學(xué)習(xí)模型,是一個(gè)AI工具。只要是工具,就有其限制。LLaVA不一定每一次都能完美地回答用戶輸入的問題。

當(dāng)然,LLaVA也在不斷學(xué)習(xí)和完善,其功能也會(huì)越來越強(qiáng)大。

總的來說,從LLaVA的回答中可以看出,在Chatbot這方面,和GPT的功能差不了太多。但是LLaVA可以處理一些有關(guān)圖像的任務(wù)。

表現(xiàn)出彩

研究人員在Arxiv的論文中詳細(xì)介紹了LLaVA的技術(shù)細(xì)節(jié)。

要知道使用機(jī)器生成的指令跟隨數(shù)據(jù)對(duì)大型語言模型(LLMs)進(jìn)行指令微調(diào),提高了新任務(wù)的零點(diǎn)能力,但這個(gè)想法在多模態(tài)領(lǐng)域的探索較少。

在論文中,研究人員首次嘗試使用僅有語言的GPT-4來生成多模態(tài)語言圖像的指令跟隨數(shù)據(jù)。

通過對(duì)這種生成的數(shù)據(jù)進(jìn)行指令調(diào)整,研究人員引入了LLaVA:這是一個(gè)大型語言和視覺助手,是一個(gè)端到端的訓(xùn)練有素的大型多模態(tài)模型,它連接了一個(gè)視覺編碼器和LLM,用于通用的視覺和語言理解。

圖片

早期實(shí)驗(yàn)表明,LLaVA展示了令人印象深刻的多模態(tài)聊天能力,有時(shí)在未見過的圖像/指令上都能輸出多模態(tài)GPT-4的表現(xiàn),在合成的多模態(tài)指令跟隨數(shù)據(jù)集上與GPT-4相比,獲得了85.1%的相對(duì)分?jǐn)?shù)。

當(dāng)對(duì)Science雜志進(jìn)行微調(diào)時(shí),LLaVA和GPT-4的協(xié)同作用達(dá)到了92.53%的新的最先進(jìn)的準(zhǔn)確性。

研究人員公開了GPT-4生成的視覺指令調(diào)整的數(shù)據(jù)、模型和代碼庫。

多模態(tài)模型

首先厘清定義。

大型多模態(tài)模型指的就是一種基于機(jī)器學(xué)習(xí)技術(shù)的模型,能夠處理和分析多種輸入類型,如文本和圖像。

這些模型設(shè)計(jì)用于處理更廣泛的任務(wù),并且能夠理解不同形式的數(shù)據(jù)。通過將文本和圖像作為輸入,這些模型可以提高理解和編解釋的能力,從而生成更準(zhǔn)確和相關(guān)的回答。

人類通過視覺和語言等多種渠道與世界互動(dòng),因?yàn)槊總€(gè)單獨(dú)的渠道在代表和傳達(dá)某些世界概念方面都有獨(dú)特的優(yōu)勢(shì),從而有利于更好地理解世界。

而人工智能的核心愿望之一是開發(fā)一個(gè)通用的助手,能夠有效地遵循多模態(tài)的視覺和語言指令,與人類的意圖一致,完成各種真實(shí)世界的任務(wù)。

因此,開發(fā)者社區(qū)見證了對(duì)開發(fā)語言增強(qiáng)的基礎(chǔ)視覺模型的新興趣,在開放世界的視覺理解方面具有強(qiáng)大的能力,如分類、檢測(cè)、分割、描述,以及視覺生成和編輯。

在這些功能中,每個(gè)任務(wù)都由一個(gè)單一的大型視覺模型獨(dú)立解決,在模型設(shè)計(jì)中隱含考慮了任務(wù)指令。

此外,語言只被用來描述圖像內(nèi)容。雖然這允許語言在將視覺信號(hào)映射到語言語義方面發(fā)揮重要作用——這是人類交流的常見渠道。但這會(huì)導(dǎo)致模型通常具有固定的界面,互動(dòng)性和對(duì)用戶指令的適應(yīng)性有限。

而大型語言模型(LLM)表明,語言可以發(fā)揮更廣泛的作用:通用助手的通用界面,各種任務(wù)指令可以明確地用語言表示,并引導(dǎo)端到端訓(xùn)練有素的神經(jīng)助手切換到感興趣的任務(wù)來解決它。

例如,最近ChatGPT和GPT-4的成功,證明了這種LLM在遵循人類指令方面的能力,并激發(fā)了人們對(duì)開發(fā)開源LLM的巨大興趣。

LLaMA就是一個(gè)開源的LLM,其性能與GPT-3相當(dāng)。正在進(jìn)行的工作利用各種機(jī)器生成的高質(zhì)量指令跟隨樣本來提高LLM的對(duì)齊能力,與專有LLM相比,報(bào)告了令人印象深刻的性能。重要的是,這一行的工作是純文本的。

在本文中,研究人員提出了視覺指令調(diào)整,這是將指令調(diào)整擴(kuò)展到多模態(tài)空間的首次嘗試,它為建立一個(gè)通用的視覺助手鋪平了道路。具體來說,論文的主要內(nèi)容包括:

多模態(tài)的指令跟隨數(shù)據(jù)。一個(gè)關(guān)鍵的挑戰(zhàn)是缺乏視覺語言指令-跟隨數(shù)據(jù)。我們提出了一個(gè)數(shù)據(jù)改革的觀點(diǎn)和管道,使用ChatGPT/GPT-4將圖像-文本對(duì)轉(zhuǎn)換為適當(dāng)?shù)闹噶?跟隨格式。

大型多模態(tài)模型。研究人員開發(fā)了一個(gè)大型多模態(tài)模型(LMM),通過連接CLIP的開放集視覺編碼器和語言解碼器LaMA,并在生成的教學(xué)視覺——語言數(shù)據(jù)上對(duì)它們進(jìn)行端到端的微調(diào)。實(shí)證研究驗(yàn)證了使用生成的數(shù)據(jù)進(jìn)行LMM指令調(diào)諧的有效性,并為建立一個(gè)通用的指令跟隨的視覺代理提出了實(shí)用的建議。通過GPT 4,研究小組在Science QA多模態(tài)推理數(shù)據(jù)集上取得了最先進(jìn)的性能。

開源。研究小組向公眾發(fā)開了以下內(nèi)容:生成的多模態(tài)指令數(shù)據(jù)、用于數(shù)據(jù)生成和模型訓(xùn)練的代碼庫、模型檢查點(diǎn),以及一個(gè)視覺聊天演示。

成果展示

圖片

可以看到,LLaVA能處理各類問題,且生成的回答既全面又富有邏輯。

LLaVA表現(xiàn)出一些接近GPT-4水平的多模態(tài)能力,在視覺聊天方面,GPT-4相對(duì)評(píng)分85%。

而在推理問答方面,LLaVA甚至達(dá)到了新SoTA——92.53%,擊敗多模態(tài)思維鏈。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-09-19 13:48:31

AI數(shù)據(jù)

2024-06-17 12:39:37

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2023-07-23 18:55:20

ChatGPTGPT-4

2023-06-05 12:32:48

模型論文

2023-03-21 15:23:52

模型測(cè)試

2024-04-19 09:17:33

AI模型

2023-05-08 10:14:07

模型AI

2023-10-17 12:34:04

2024-04-19 14:52:13

MetaGPT-4模型

2023-06-08 08:09:43

2023-09-07 13:25:00

AI模型

2024-05-09 08:33:33

2024-01-03 12:56:39

2025-01-08 08:21:16

2024-04-01 08:00:00

AI模型

2023-08-14 17:38:58

百度文心一言大模型評(píng)測(cè)

2022-07-14 15:08:23

AI模型

2024-10-14 14:10:00

大模型AI開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)