自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)模型免微調(diào)接入互聯(lián)網(wǎng),即插即用新框架,效果超閉源商用方案

人工智能 新聞
眾所周知,大模型的訓(xùn)練和微調(diào)會(huì)消耗大量計(jì)算資源和時(shí)間,這意味著頻繁更新大模型的參數(shù)是不切實(shí)際的。

一個(gè)5月份完成訓(xùn)練的大模型,無法對《黑神話·悟空》游戲內(nèi)容相關(guān)問題給出準(zhǔn)確回答。

這是大模型的老毛病了。

因?yàn)椤逗谏裨挕?月才上市,訓(xùn)練數(shù)據(jù)里沒有它的相關(guān)知識(shí)。

圖片

眾所周知,大模型的訓(xùn)練和微調(diào)會(huì)消耗大量計(jì)算資源和時(shí)間,這意味著頻繁更新大模型的參數(shù)是不切實(shí)際的。

然而,現(xiàn)實(shí)世界中的信息是實(shí)時(shí)產(chǎn)生的且不斷變化的。這使得大模型在完成訓(xùn)練后,對于后續(xù)新產(chǎn)生的信息感到陌生,所以無法提供準(zhǔn)確可靠的反饋。

為此,上海人工智能實(shí)驗(yàn)室、北京理工大學(xué)、浙江大學(xué)、香港大學(xué)聯(lián)合提出即插即用的SearchLVLMs框架,可以無縫整合任意的多模態(tài)大模型。

該框架在推理階段對大模型進(jìn)行互聯(lián)網(wǎng)檢索增強(qiáng),使得大模型無需微調(diào)即可對實(shí)時(shí)信息進(jìn)行準(zhǔn)確的反饋。

圖片

研究團(tuán)隊(duì)提出首個(gè)輔助多模態(tài)大模型對實(shí)時(shí)信息進(jìn)行反饋的開源檢索增強(qiáng)框架SearchLVLMs。

該框架主要包括查詢生成、搜索引擎調(diào)用、分層過濾三個(gè)部分。

以視覺問答為例,該框架會(huì)基于問題和圖片生成查詢關(guān)鍵詞,并調(diào)用搜索引擎查找相關(guān)信息,再由粗到細(xì)地對檢索結(jié)果進(jìn)行過濾,得到對回答該問題有幫助的信息。

這些信息會(huì)以prompt的形式在推理階段提供給模型,以輔助回答。

同時(shí),團(tuán)隊(duì)提出一個(gè)數(shù)據(jù)生成框架UDK-VQA,它可以自動(dòng)生成依賴實(shí)時(shí)信息進(jìn)行回答的視覺問答數(shù)據(jù)。

基于此框架,數(shù)據(jù)集可以完成動(dòng)態(tài)更新,以保證測試數(shù)據(jù)的時(shí)效性。

目前已有UDK-VQA-240401-30、UDK-VQA-240816-20兩個(gè)版本的數(shù)據(jù)集,涉及到的時(shí)間跨度分別是2024年4月1日-2024年4月31日和2024年8月16日-2024年9月5日。

研究者在超過15個(gè)開源、閉源模型上進(jìn)行了實(shí)驗(yàn),包括GPT-4o、Gemini 1.5 Pro、InternVL-1.5、LLaVA-1.6等。

在UDK-VQA數(shù)據(jù)集上的回答準(zhǔn)確率,則配備了SearchLVLMs的SOTA LVLMs超過了自帶互聯(lián)網(wǎng)檢索增強(qiáng)的GPT-4o模型35%。

圖片

開源框架SearchLVLMs

SearchLVLMs框架主要由三部分組成:

  • 查詢生成
  • 搜索引擎調(diào)用
  • 分層過濾

在查詢生成階段,需要對問題和圖像進(jìn)行充分地理解,以轉(zhuǎn)化為適用于搜索引擎的文本查詢。

對于問題而言,直接使用手工設(shè)計(jì)的prompt調(diào)用LLM得到問題查詢詞。

對于圖像而言,調(diào)用必應(yīng)視覺搜索得到包含該圖像或與該圖像相關(guān)的網(wǎng)頁,提取這些網(wǎng)頁的題目/快照的最長公共子串作為圖像查詢詞。

在搜索引擎調(diào)用階段,用戶可以根據(jù)問題類型自主選擇調(diào)用的搜索引擎類別。

比如:對于實(shí)時(shí)性較強(qiáng)的新聞相關(guān)問題,可以選擇調(diào)用必應(yīng)新聞搜索;對于常識(shí)性問題,可以選擇調(diào)用必應(yīng)通用搜索。

調(diào)用搜索引擎后會(huì)得到多個(gè)網(wǎng)頁的題目、摘要和鏈接。

在分層過濾階段,首先調(diào)用網(wǎng)頁過濾器對得到的網(wǎng)頁進(jìn)行初篩,基于網(wǎng)頁的題目和摘要對這些網(wǎng)頁進(jìn)行重排。

對于排序靠前的網(wǎng)頁,使用爬蟲獲取網(wǎng)頁的文本內(nèi)容,每三句切分成一個(gè)片段,使用內(nèi)容過濾器對這些片段進(jìn)行重排。

對于排序靠前的片段,基于CLIP特征對它們進(jìn)行聚類,選擇離每個(gè)聚類中心的最近的片段,以避免內(nèi)容重復(fù)片段對大模型預(yù)測帶來的誤導(dǎo)。

被選擇的片段被直接拼接在一起,用于提示大模型。

其中,網(wǎng)頁過濾器和內(nèi)容過濾器是兩個(gè)獨(dú)立訓(xùn)練的LLaVA-1.5模型,作用是為網(wǎng)頁/片段進(jìn)行打分——網(wǎng)頁/片段對于回答該問題的幫助程度。

為了訓(xùn)練這兩個(gè)過濾器,也為了測試大模型對實(shí)時(shí)信息的反饋能力,研究團(tuán)隊(duì)進(jìn)一步提出了一個(gè)數(shù)據(jù)生成框架——UDK-VQA,如下圖所示。

圖片

五個(gè)步驟完成數(shù)據(jù)生成

UDK-VQA數(shù)據(jù)生成主要遵循五個(gè)步驟:

分別是查詢搜集、問題生成、圖像分配、偽標(biāo)注生成、人為驗(yàn)證。

第一步,查詢搜集。

查詢搜集主要包括兩方面,一方面是從谷歌每日搜索趨勢上爬取熱門搜索詞,另一方面是人為搜集一些熱門搜索詞來對前者進(jìn)行補(bǔ)充。

第二步,問題生成。

研究人員首先根據(jù)搜集到的搜索詞調(diào)用搜索引擎得到相關(guān)的新聞,將新聞內(nèi)容進(jìn)行切分,得到多個(gè)內(nèi)容片段。

然后要求GPT根據(jù)內(nèi)容片段自問自答,得到<問題,答案>的集合。

在第三步圖像分配階段,團(tuán)隊(duì)會(huì)提取出問題中的實(shí)體,使用圖片搜索引擎得到實(shí)體的圖片,并將問題中的實(shí)體單詞替換為其上分位詞,與圖片一起組成視覺問答樣本。

第四步,偽標(biāo)注生成。

為了訓(xùn)練網(wǎng)頁過濾器和內(nèi)容過濾器,需要對網(wǎng)頁/片段進(jìn)行打分。

對于一個(gè)視覺問答樣本和一個(gè)網(wǎng)頁/片段,研究者基于兩個(gè)原則進(jìn)行打分:

① 如果該樣本是基于該網(wǎng)頁/片段生成的,分?jǐn)?shù)為1.0。

② 如果該樣本不是基于該網(wǎng)頁/片段生成的,使用5個(gè)開源模型在該網(wǎng)頁/片段下嘗試回答該樣本,根據(jù)模型回答的正確率進(jìn)行打分。

基于這樣的偽標(biāo)注方法,研究人員構(gòu)造了~80w樣本用于訓(xùn)練。

最后一步,人為驗(yàn)證。

構(gòu)造測試集時(shí),研究者對第3步得到的視覺問答樣本進(jìn)行了人為篩選,確保測試樣本的正確性。

為了避免訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)需要參考相似的實(shí)時(shí)信息,在構(gòu)造訓(xùn)練集和測試集時(shí),研究過程中使用不同時(shí)間區(qū)間的谷歌每日搜索趨勢來爬取熱門搜索詞。

下圖中(a)、(b)、(c)分別展示了訓(xùn)練樣本、測試樣本和測試樣本的分布。

圖片

基于數(shù)據(jù)生成框架UDK-VQA,很容易可以構(gòu)造出需要實(shí)時(shí)信息進(jìn)行回答的視覺問答樣本。

研究團(tuán)隊(duì)聲明會(huì)不斷更新測試集,保證測試樣本的時(shí)效性。

目前,研究人員已經(jīng)構(gòu)造了兩個(gè)版本的測試集,分別涉及到2024年5月份和2024年9月份的信息。

實(shí)驗(yàn)結(jié)果與結(jié)論

SearchLVLMs框架團(tuán)隊(duì)在UDK-VQA上測試了15個(gè)現(xiàn)有的LVLMs,主要實(shí)驗(yàn)結(jié)果如下表所示。

其中,Raw表示模型的原始版本(沒有檢索增強(qiáng)功能)、Long-Context (LC)表示將搜索引擎返回的網(wǎng)頁爬取內(nèi)容后,直接拼接起來提示模型,IAG表示使用了模型內(nèi)嵌的互聯(lián)網(wǎng)檢索增強(qiáng)能力。

Gen.、Cham.和CLIP→FID (C→F)分別表示[1]、[2]和[3]中的方法。

圖片

從實(shí)驗(yàn)結(jié)果中可以有以下發(fā)現(xiàn):

1、接收長上下文輸入可以一定程度上避免對搜索引擎的返回內(nèi)容進(jìn)行二次篩選。

Gemini Pro 1.5 (LC)的性能高于內(nèi)嵌互聯(lián)網(wǎng)檢索增強(qiáng)的GPT-4V和GPT-4o,但是長上下文會(huì)引入額外的計(jì)算消耗,并引入一些不必要的信息對模型造成誤導(dǎo)。

經(jīng)過SearchLVLMs的分層過濾模型進(jìn)行二次篩選還有,可以進(jìn)一步提升模型性能。

2、具備檢索增強(qiáng)能力的閉源商用模型在性能上顯著高于不具備檢索增強(qiáng)能力的開源模型。

GPT-4V和GPT-4o由于內(nèi)嵌互聯(lián)網(wǎng)檢索增強(qiáng)模塊,在準(zhǔn)確率上大幅領(lǐng)先開源模型,如LLaVA-1.6和InternVL-1.5,差距約為20%~30%。

3、SearchLVLMs框架可以整合任意的多模態(tài)大模型,并大幅度提高它們對于依賴實(shí)時(shí)信息的問題的回答能力。

無論是在閉源商用模型Gemini 1.5 Pro、GPT-4o、GPT-4V,還是開源SOTA模型LLaVA-1.6和InternVL-1.5上,SearchLVLMs均能帶來超過50%的性能提升。

4、SearchLVLMs帶來的性能提升,遠(yuǎn)高于已有方法。

研究對比了檢索增強(qiáng)方法Gen.、C→F和調(diào)用搜索引擎來輔助回答的框架Cham.,SearchLVLMs在應(yīng)對實(shí)時(shí)信息檢索任務(wù)時(shí),表現(xiàn)出明顯的優(yōu)越性。

5、使用SearchLVLMs整合開源模型,性能可以大幅超過內(nèi)嵌互聯(lián)網(wǎng)檢索增強(qiáng)能力的閉源商用模型。

InternVL-1.5+SearchLVLMs的準(zhǔn)確率為92.9%,遠(yuǎn)高于GPT-4o(IAG)的57.8%。

這一發(fā)現(xiàn)表明,開源模型具有巨大的潛力,SearchLVLMs在性能、可定制性和透明度上具有顯著的優(yōu)勢。

文章鏈接: https://arxiv.org/abs/2405.14554

項(xiàng)目主頁:https://nevermorelch.github.io/SearchLVLMs.github.io/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-11-12 10:20:00

模型數(shù)據(jù)

2025-02-05 23:21:32

2009-09-22 13:43:11

2024-12-30 00:01:00

多模態(tài)大模型Python

2022-05-12 13:39:48

AI研究模型

2013-06-10 15:35:00

2009-11-04 14:59:58

互聯(lián)網(wǎng)接入

2009-11-05 10:44:12

互聯(lián)網(wǎng)接入

2012-06-12 10:34:34

移動(dòng)互聯(lián)網(wǎng)上市

2024-09-26 17:54:10

2025-04-03 10:29:06

2025-03-19 09:30:00

2009-08-19 16:59:51

美國西蒙光纜結(jié)構(gòu)綜合布線

2009-11-06 15:48:51

互聯(lián)網(wǎng)接入

2022-04-15 18:00:00

微軟云端DC

2012-09-19 15:23:06

2015-06-24 15:35:54

2019-09-23 16:06:50

物聯(lián)網(wǎng)大數(shù)據(jù)IOT

2009-11-04 09:34:28

互聯(lián)網(wǎng)接入

2009-11-02 18:04:59

互聯(lián)網(wǎng)接入
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號