自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

開源版SearchGPT來(lái)了,兩張3090就可復(fù)現(xiàn),超越Perplexity付費(fèi)版

人工智能 新聞
港中文MMLab、上海AI Lab、騰訊團(tuán)隊(duì)簡(jiǎn)易實(shí)現(xiàn)了Vision Search Assistant,模型設(shè)計(jì)簡(jiǎn)單,只要兩張RTX3090就可復(fù)現(xiàn)。

OpenAI推出SearchGPT沒(méi)幾天,開源版本也來(lái)了。

港中文MMLab、上海AI Lab、騰訊團(tuán)隊(duì)簡(jiǎn)易實(shí)現(xiàn)了Vision Search Assistant,模型設(shè)計(jì)簡(jiǎn)單,只要兩張RTX3090就可復(fù)現(xiàn)。

圖片

Vision Search Assistant(VSA)以視覺(jué)語(yǔ)言模型(VLM)為基礎(chǔ),巧妙地將Web搜索能力融入其中,讓VLM內(nèi)部的知識(shí)得到實(shí)時(shí)更新,使其更加靈活和智能。

目前,VSA已經(jīng)針對(duì)通用圖像進(jìn)行了實(shí)驗(yàn),可視化和量化結(jié)果良好。但不同類別的圖像各具特色,還可以針對(duì)不同種類的圖像(比如表格、醫(yī)學(xué)等)構(gòu)建出更為特定的VSA應(yīng)用。

更令人振奮的是,VSA的潛力并不僅限于圖像處理。還有更廣闊的可探索空間,比如視頻、3D模型和聲音等領(lǐng)域,期待能將多模態(tài)研究推向新的高度。

圖片

讓VLM處理未見過(guò)的圖像和新概念

大型語(yǔ)言模型(LLM)的出現(xiàn)讓人類可以利用模型的強(qiáng)大零樣本問(wèn)答能力來(lái)獲取陌生知識(shí)。

在此基礎(chǔ)上,檢索增強(qiáng)生成(RAG)等技術(shù)進(jìn)一步提高了LLM在知識(shí)密集型、開放域問(wèn)答任務(wù)中的表現(xiàn)。然而,VLM在面對(duì)未見過(guò)的圖像和新概念時(shí),它們往往不能利用好來(lái)自互聯(lián)網(wǎng)的最新多模態(tài)知識(shí)。

現(xiàn)有的 Web Agent主要依賴于對(duì)用戶問(wèn)題的檢索,并總結(jié)檢索返回的HTML文本內(nèi)容,因此它們?cè)谔幚砩婕皥D像或其他視覺(jué)內(nèi)容的任務(wù)時(shí)存在明顯的局限性,即視覺(jué)信息被忽視或處理不充分。

為了解決這一問(wèn)題,團(tuán)隊(duì)提出了Vision Search Assistant。Vision Search Assistant以VLM模型為基礎(chǔ),能夠回答有關(guān)未見過(guò)的圖像或新概念的問(wèn)題,其行為類似人類在互聯(lián)網(wǎng)上進(jìn)行搜索并解決問(wèn)題的過(guò)程,包括:

  • 理解查詢
  • 決定應(yīng)該關(guān)注圖像中的哪些對(duì)象并推斷對(duì)象之間的相關(guān)性
  • 逐對(duì)象生成查詢文本
  • 根據(jù)查詢文本和推斷出的相關(guān)性分析搜索引擎返回的內(nèi)容
  • 判斷獲得的視覺(jué)和文本信息是否足以生成答案,或者它應(yīng)該迭代和改進(jìn)上述過(guò)程
  • 結(jié)合檢索結(jié)果,回答用戶的問(wèn)題

視覺(jué)內(nèi)容描述

視覺(jué)內(nèi)容描述模塊被用來(lái)提取圖像中對(duì)象級(jí)的描述和對(duì)象之間的相關(guān)性,其流程如下圖所示。

首先利用開放域的檢測(cè)模型來(lái)獲取值得關(guān)注的圖像區(qū)域。緊接著對(duì)每一個(gè)檢測(cè)到的區(qū)域,使用VLM獲取對(duì)象級(jí)的文本描述。

最后,為了更全面地表達(dá)視覺(jué)內(nèi)容,利用VLM進(jìn)一步關(guān)聯(lián)不同的視覺(jué)區(qū)域以獲得不同對(duì)象的更精確描述。

圖片

具體地,令用戶輸入圖片為,用戶的問(wèn)題為??赏ㄟ^(guò)一個(gè)開放域的檢測(cè)模型獲取個(gè)感興趣的區(qū)域:

然后利用預(yù)訓(xùn)練的VLM模型分別描述這個(gè)區(qū)域的視覺(jué)內(nèi)容:

為了讓不同區(qū)域的信息關(guān)聯(lián)起來(lái),提高描述的精度,可將區(qū)域與其它區(qū)域的描述拼接,讓VLM對(duì)區(qū)域的描述進(jìn)行矯正:

至此,從用戶輸入獲得了與之高度相關(guān)的個(gè)視覺(jué)區(qū)域的精確描述。

Web知識(shí)搜索:“搜索鏈”

Web知識(shí)搜索的核心是名為“搜索鏈”的迭代算法,旨在獲取相關(guān)視覺(jué)描述的綜合性的Web知識(shí),其流程如下圖所示。

圖片

在Vision Search Assistant中利用LLM來(lái)生成與答案相關(guān)的子問(wèn)題,這一LLM被稱為“Planing Agent”。搜索引擎返回的頁(yè)面會(huì)被同樣的LLM分析、選擇和總結(jié),被稱為“Searching Agent”。通過(guò)這種方式,可以獲得與視覺(jué)內(nèi)容相關(guān)的Web知識(shí)。

具體地,由于搜索是對(duì)每個(gè)區(qū)域的視覺(jué)內(nèi)容描述分別進(jìn)行的,因此以區(qū)域?yàn)槔?,并省略這個(gè)上標(biāo),即。該模塊中使用同一個(gè)LLM模型構(gòu)建決策智能體(Planning Agent)和搜索智能體(Searching Agent)。決策智能體控制整個(gè)搜索鏈的流程,搜索智能體與搜索引擎交互,篩選、總結(jié)網(wǎng)頁(yè)信息。

以第一輪迭代為例,決策智能體將問(wèn)題拆分成個(gè)搜索子問(wèn)題并交由搜索智能體處理。搜索智能體會(huì)將每一個(gè)交付搜索引擎,得到頁(yè)面集合。搜索引擎會(huì)閱讀頁(yè)面摘要并選擇與問(wèn)題最相關(guān)的頁(yè)面集合(下標(biāo)集為),具體方法如下:

協(xié)同生成

最終基于原始圖像、視覺(jué)描述、Web知識(shí),利用VLM回答用戶的問(wèn)題,其流程如下圖所示。具體而言,最終的回答為:

圖片

實(shí)驗(yàn)結(jié)果

開放集問(wèn)答可視化對(duì)比

下圖中比較了新事件(前兩行)和新圖像(后兩行)的開放集問(wèn)答結(jié)果。

將Vision Search Assistant和Qwen2-VL-72B以及InternVL2-76B進(jìn)行了比較,不難發(fā)現(xiàn),Vision Search Assistant 擅長(zhǎng)生成更新、更準(zhǔn)確、更詳細(xì)的結(jié)果。

例如,在第一個(gè)樣例中,Vision Search Assistant對(duì)2024年Tesla公司的情況進(jìn)行了總結(jié),而Qwen2-VL局限于2023年的信息,InternVL2明確表示無(wú)法提供該公司的實(shí)時(shí)情況。

圖片

開放集問(wèn)答評(píng)估

在開放集問(wèn)答評(píng)估中,總共通過(guò)10位人類專家進(jìn)行了比較評(píng)估,評(píng)估內(nèi)容涉及7月15日至9月25日期間從新聞中收集的100個(gè)圖文對(duì),涵蓋新穎圖像和事件的所有領(lǐng)域。

人類專家從真實(shí)性、相關(guān)性和支持性三個(gè)關(guān)鍵維度進(jìn)行了評(píng)估。

如下圖所示,與Perplexity.ai Pro和GPT-4-Web相比,Vision Search Assistant在所有三個(gè)維度上都表現(xiàn)出色。

圖片

  • 事實(shí)性:Vision Search Assistant得分為68%,優(yōu)于Perplexity.ai Pro(14%)和 GPT-4-Web(18%)。這一顯著領(lǐng)先表明,Vision Search Assistant 始終提供更準(zhǔn)確、更基于事實(shí)的答案。
  • 相關(guān)性:Vision Search Assistant 的相關(guān)性得分為80%,在提供高度相關(guān)的答案方面表現(xiàn)出顯著優(yōu)勢(shì)。相比之下,Perplexity.ai Pro和GPT-4-Web分別達(dá)到11%和9%,顯示出在保持網(wǎng)絡(luò)搜索時(shí)效性方面存在顯著差距。
  • 支持性:Vision Search Assistant在為其響應(yīng)提供充分證據(jù)和理由方面也優(yōu)于其他模型,支持性得分為63%。Perplexity.ai Pro和GPT-4-Web分別以19%和24%的得分落后。這些結(jié)果凸顯了Vision Search Assistant 在開放集任務(wù)中的卓越表現(xiàn),特別是在提供全面、相關(guān)且得到良好支持的答案方面,使其成為處理新圖像和事件的有效方法。

封閉集問(wèn)答評(píng)估

在LLaVA W基準(zhǔn)進(jìn)行閉集評(píng)估,其中包含60個(gè)問(wèn)題,涉及VLM在野外的對(duì)話、細(xì)節(jié)和推理能力。

使用GPT-4o(0806)模型進(jìn)行評(píng)估,使用LLaVA-1.6-7B作為基線模型,該模型在兩種模式下進(jìn)行了評(píng)估:標(biāo)準(zhǔn)模式和使用簡(jiǎn)單Google圖片搜索組件的“樸素搜索”模式。

此外還評(píng)估了LLaVA-1.6-7B的增強(qiáng)版本,該版本配備搜索鏈模塊。

如下表所示,Vision Search Assistant在所有類別中均表現(xiàn)出最強(qiáng)的性能。具體而言,它在對(duì)話類別中獲得了73.3%的得分,與LLaVA模型相比略有提升,提升幅度為+0.4%。在細(xì)節(jié)類別中,Vision Search Assistant以79.3%的得分脫穎而出,比表現(xiàn)最好的LLaVA變體高出 +2.8%。

在推理方面,VSA方法比表現(xiàn)最佳的LLaVA模型高出+10.8%。這表明Vision Search Assistant對(duì)視覺(jué)和文本搜索的高級(jí)集成極大地增強(qiáng)了其推理能力。

Vision Search Assistant的整體性能為84.9%,比基線模型提高+6.4%。這表明Vision Search Assistant在對(duì)話和推理任務(wù)中都表現(xiàn)出色,使其在野外問(wèn)答能力方面具有明顯優(yōu)勢(shì)。

圖片

論文:https://arxiv.org/abs/2410.21220
主頁(yè):https://cnzzx.github.io/VSA/
代碼:https://github.com/cnzzx/VSA

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-08-01 13:20:00

2024-07-26 09:29:38

2019-07-16 08:57:15

kafka應(yīng)用Broker

2012-06-11 15:03:46

Chrome瀏覽器Windows 8

2023-02-23 15:29:21

BitTorrent開源

2009-09-08 10:45:32

數(shù)據(jù)中心LinuxLinux操作系統(tǒng)

2021-03-23 15:21:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-08-14 14:30:00

AI訓(xùn)練

2023-09-03 19:43:46

htmxJavaScript網(wǎng)絡(luò)

2013-05-10 09:31:06

程序員

2024-04-01 13:04:00

AI訓(xùn)練

2020-07-06 14:42:36

業(yè)務(wù)架構(gòu)IT架構(gòu)直播

2024-09-19 13:34:27

AI開源模型

2025-04-10 09:42:51

2014-02-11 10:19:43

FlappyBlockFlappyBird手游

2009-11-04 09:58:08

LinuxSkype開源

2009-05-15 11:17:52

Oracle更新

2017-05-04 11:09:21

互聯(lián)網(wǎng)

2022-06-23 15:48:02

AI開源GitHub

2011-11-15 13:58:23

Fedora 16評(píng)測(cè)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)