自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)AI搜索引擎最強(qiáng)設(shè)計(jì),趕超商業(yè)!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學(xué)、字節(jié)、北大、斯坦福、商湯

原創(chuàng) 精選
人工智能
雖然語言大模型可以更好地掌握用戶意圖、從原始Web信息中總結(jié)符合上下文語境的答案的能力,但這種僅限于文本查詢和解釋文本W(wǎng)eb內(nèi)容的形式,極大地限制了用戶的查詢場(chǎng)景和產(chǎn)品的想象空間。

編輯 | 言征

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

有了多模態(tài)大模型(LMM)之后,之前那種OCR“以圖搜圖”的方式已經(jīng)不再Fashion了。

然而,遺憾的是,雖然今年AI搜索很火、多模態(tài)很火,但是多模態(tài)的AI搜索進(jìn)展卻進(jìn)展緩慢。

香港中文大學(xué)、字節(jié)跳動(dòng)、上海人工智能實(shí)驗(yàn)室、北京大學(xué)、斯坦福大學(xué)、商湯科技的一眾研發(fā)人員開始著手研究多模態(tài)搜索引擎的可行性了。

他們精心設(shè)計(jì)了一種零樣本的方法,可以讓LMM化身“多模態(tài)搜索引擎”。

重點(diǎn)來了,他們還進(jìn)一步提出并解答了一個(gè)大家可能都難以回答的命題:如何評(píng)價(jià)一款多模態(tài)大模型作為搜索引擎的潛力?

圖片圖片

一、多模態(tài)AI搜索引擎

提到多模態(tài)AI搜索引擎,大家會(huì)不會(huì)想到之前的“以圖搜圖”?看圖識(shí)花、淘寶中的看圖搜商品等等,但這些還不是多模態(tài)AI搜索。

想象這樣換一個(gè)場(chǎng)景,假設(shè)現(xiàn)在有多枚獎(jiǎng)牌,想知道它們的具體名稱。一個(gè)多模態(tài)AI搜索引擎能夠?qū)⑦@些獎(jiǎng)牌的照片與從互聯(lián)網(wǎng)上檢索到的圖像和文本交織表進(jìn)行匹配,從而識(shí)別出每一枚獎(jiǎng)牌。相比之下,純文本搜索引擎既無法接收照片進(jìn)行搜索,也無法理解這種交織的表格。

而面對(duì)這種復(fù)雜的圖、表、文交織呈現(xiàn)的Web內(nèi)容,即便是LLM也只能望洋興嘆:

雖然語言大模型可以更好地掌握用戶意圖、從原始Web信息中總結(jié)符合上下文語境的答案的能力,但這種僅限于文本查詢和解釋文本W(wǎng)eb內(nèi)容的形式,極大地限制了用戶的查詢場(chǎng)景和產(chǎn)品的想象空間。

這時(shí)候,就需要多模態(tài)大模型(LMM)上場(chǎng)解決了。

二、三個(gè)步驟讓LMM成為多模態(tài)搜索引擎

近一年以來,多模態(tài)成為了大模型發(fā)展的主旋律之一,GPT-4o、Sora、Qwen-VL等模型爭相發(fā)布,基于大型多模態(tài)模型LMM的產(chǎn)品應(yīng)用如可靈、Character.AI等產(chǎn)品也給業(yè)界帶來了經(jīng)驗(yàn)的視覺效果,但是,它們?cè)鯓硬拍苡米鞫嗄B(tài)的 AI 搜索引擎呢?

香港中文大學(xué)聯(lián)合一眾知名大學(xué)、企業(yè)精心設(shè)計(jì)了一套流水線,讓市面上不管是閉源的GPT-4o、開源的Qwen,還是商用的Perplexity Pro,都統(tǒng)統(tǒng)經(jīng)過三個(gè)步驟,化身成為可以理解視覺Web內(nèi)容的多模態(tài)AI搜索引擎。

MMSearch-EngineMMSearch-Engine

AI搜索過程是一個(gè)復(fù)雜的過程,這期間涉及到LMMs與傳統(tǒng)搜索引擎之間的多輪交互。

三、開發(fā)團(tuán)隊(duì)究竟是如何設(shè)計(jì)的呢?

首先,研究團(tuán)隊(duì)利用LMMs的圖像理解能力,整合了兩種類型的視覺數(shù)據(jù)——第一類,使用Google Lens(一種OCR工具)從圖像中搜索信息;第二類視覺數(shù)據(jù),則是檢索到的網(wǎng)站截圖,目的是保留網(wǎng)站內(nèi)容的原始格式。

那么,LMM到底如何與搜索引擎協(xié)同工作?該流程包括三個(gè)連續(xù)階段:

圖片圖片

1. 重新查詢(Requery)。用戶直接輸入的查詢可能包含對(duì)圖像中某些信息的引用,如圖1所示的新聞財(cái)經(jīng)示例。由于傳統(tǒng)搜索引擎僅接受文本輸入,因此LMM需要將圖像內(nèi)容轉(zhuǎn)換為文本,并將其與查詢結(jié)合,以向搜索引擎提出有效的問題。

此外,原始用戶查詢有時(shí)可能含糊不清或效率低下,因此LMM還必須重新構(gòu)造查詢以使其更清晰。如果用戶查詢包含圖像,則將Google Lens的圖像搜索結(jié)果截圖納入其中。

研究人員將用戶查詢、用戶圖像和圖像搜索截圖視為查詢的基本信息。這些信息將在流程中的每一輪都輸入給LMM。在重新查詢階段,研究人員需要提示LMM向傳統(tǒng)搜索引擎輸出一個(gè)重新構(gòu)建的查詢。

2.重新排序(Rerank)。將重新構(gòu)建的查詢發(fā)送給搜索引擎API(如DuckDuckGo),以檢索前K個(gè)相關(guān)網(wǎng)站。根據(jù)重新構(gòu)建查詢的質(zhì)量,并非所有檢索到的網(wǎng)站都必然與查詢回答相關(guān)。因此,研究人員會(huì)提示LMM選擇一個(gè)信息量最大的網(wǎng)站進(jìn)行答案摘要。

由于LMM的上下文長度限制和網(wǎng)站內(nèi)容的廣泛性,僅提供每個(gè)網(wǎng)站的必要信息(包括標(biāo)題、摘要和網(wǎng)頁頂部部分的截圖),這里稱之為簡要結(jié)果,這些將作為LMM重新排序的輸入。

需要注意的實(shí),這里包含截圖有兩個(gè)目的。首先,截圖提供了一個(gè)視覺線索來評(píng)估網(wǎng)頁的可信度,因?yàn)榻M織良好的網(wǎng)站往往比充斥著廣告的網(wǎng)站更值得信賴。此外,截圖可能包含重要的視覺信息。例如,它可能包含與查詢圖像相似或相同的圖像。

3. 摘要(Summarization)。首先抓取選定的網(wǎng)站以收集所有可用信息。解析HTML以獲取原始文本內(nèi)容,并捕獲網(wǎng)站的整頁截圖。

然而,存在兩個(gè)問題:原始內(nèi)容往往冗長且雜亂無章,而整頁截圖中由于網(wǎng)站上的廣告塊,大量區(qū)域是空白的。這兩個(gè)問題導(dǎo)致輸入令牌中填充了大量不相關(guān)信息。

為了提高數(shù)據(jù)效率,研究人員在將截圖和內(nèi)容輸入給LMM之前,先對(duì)截圖進(jìn)行瘦身并檢索相關(guān)內(nèi)容。對(duì)于整頁截圖,則識(shí)別空白區(qū)域并迭代地將其移除。

對(duì)于文本內(nèi)容,我們應(yīng)用一個(gè)文本嵌入模型從原始內(nèi)容中檢索最多2K個(gè)與重新構(gòu)建查詢相關(guān)的令牌。所以,這里將瘦身后的截圖和檢索到的內(nèi)容定義為完整的網(wǎng)站內(nèi)容。

最后,研究人員將完整的網(wǎng)站內(nèi)容、網(wǎng)站標(biāo)題、網(wǎng)站摘要以及查詢信息輸入給LMM,以總結(jié)答案。

圖片圖片

四、評(píng)估多模態(tài)搜索能力,靠這兩招

這還沒完,讓LMM具備了多模態(tài)搜索的能力后,如何評(píng)估這種能力的強(qiáng)弱呢?

這里涉及到兩個(gè)主要難題:評(píng)估數(shù)據(jù)集和如何打分。

數(shù)據(jù)集方面,研究人員在此基礎(chǔ)上引入了一個(gè)評(píng)測(cè)數(shù)據(jù)集 \dataset,這是一個(gè)全面的評(píng)估基準(zhǔn),用于評(píng)估 LMM 的多模態(tài)搜索性能。

該數(shù)據(jù)集包含 300 個(gè)手動(dòng)收集的實(shí)例,跨越 14 個(gè)子字段,與當(dāng)前 LMM 的訓(xùn)練數(shù)據(jù)不重疊,確保只能在搜索中獲得正確答案。通過使用 MMSearch-Engine,通過執(zhí)行三個(gè)單獨(dú)的任務(wù)(requery、rerank 和 summarization)和一個(gè)具有挑戰(zhàn)性的端到端任務(wù)來評(píng)估 LMM,該任務(wù)具有完整的搜索過程。

圖片圖片

圖片圖片

而在打分方面,研究團(tuán)隊(duì)沒有簡單粗暴地來進(jìn)行一場(chǎng)端到端的黑盒打分策略,而是采取了對(duì)三個(gè)核心搜索步驟上進(jìn)行多輪逐步的策略,因?yàn)閮H對(duì)最終答案的端到端評(píng)估不足以揭示模型在每個(gè)核心搜索步驟中的不足。例如,模型所犯的錯(cuò)誤可能發(fā)生在摘要過程中,但也可能是由于在重新排名階段選擇了不正確的網(wǎng)站。

根據(jù)這四個(gè)打分,研究人員為最終結(jié)果設(shè)計(jì)了一個(gè)整體的得分。

圖片圖片

圖片圖片

研究人員對(duì)閉源和開源 LMM 進(jìn)行了廣泛全面的實(shí)驗(yàn)。在所有測(cè)試模型中,帶有 MMSearch-Engine 的 GPT-4o 取得了最好的結(jié)果,在端到端任務(wù)中超過了商業(yè)產(chǎn)品 Perplexity Pro,證明了這種“三步驟流水線”方法的有效性。

與此同時(shí),為了徹底研究多模態(tài)搜索能力,通過上文提到的評(píng)估策略在數(shù)據(jù)集 \dataset 上得到了了不同模型的評(píng)估結(jié)果。

圖片圖片

五、結(jié)論:閉源依舊強(qiáng)大,開源Qwen居首

1.任意分辨率的輸入僅提供輕微的改進(jìn)或沒有改進(jìn)

在測(cè)試的 LMM 中,有四種型號(hào),即 InternLM-XC2.5、InternVL2、mPlug-Owl3 和 Idefic3,均支持低分辨率 (LowRes) 和任意分辨率輸入 (AnyRes)。正如人們所料,AnyRes 輸入可以更好地實(shí)現(xiàn)圖像的 OCR 和感知。然而,與 LowRes 性能與 AnyRes 性能之間的差異相比,我們只觀察到輕微甚至沒有增強(qiáng)。

以 mPlug-Owl3 為例,AnyRes input 在總分上比 LowRes input 高出 1.8%,端到端高出 2.7%,rerank 高出 0.2%。雖然它在重新查詢和摘要方面分別落后于 LowRes 0.8% 和 1.7%。這表明 OCR 和感知質(zhì)量不會(huì)成為搜索性能的瓶頸。相反,次優(yōu)性能似乎源于 LMM 本身缺乏強(qiáng)大的搜索功能。

2.當(dāng)前的 LMM 在 requery 和 rerank 方面仍然存在重大缺陷

將端到端任務(wù)的平均分?jǐn)?shù)與摘要任務(wù)的平均分?jǐn)?shù)進(jìn)行比較,就會(huì)發(fā)現(xiàn),無論是在閉源模型還是開源模型中,摘要分?jǐn)?shù)都始終以很大的優(yōu)勢(shì)超過端到端任務(wù)。

論文認(rèn)為,雖然摘要任務(wù) input 始終包含答案,但端到端任務(wù)的第三輪 input 質(zhì)量取決于模型在前幾輪中的 requery 和 rerank 質(zhì)量。這種性能差距的大小反映了模型的摘要能力與其重新查詢和重新排名任務(wù)的能力之間的差異。差異越大,能力差距越大。觀察結(jié)果中發(fā)現(xiàn):大多數(shù)開源模型的差距超過 14%,而閉源模型都在 10% 以下。

這表明所有當(dāng)前的 LMM 都需要改進(jìn)其 requery 和 rerank 能力,尤其是對(duì)于開源模型。

值得注意的是,Qwen2-VL-72B 的差距為 10.5%,也低于 14%,凸顯了它在其他開源 LMM 中的優(yōu)越性。

圖片圖片

3.閉源 LMM 在整體性能上優(yōu)于開源 LMM

在最終得分方面,閉源 LMM 的性能始終優(yōu)于開源 LMM。GPT-4o 獲得了 62.3% 的最高總分,展示了卓越的零樣本多模態(tài)搜索能力。雖然 Qwen2-VL-72B 在開源模型中處于領(lǐng)先地位,但它仍然落后于 GPT-4o 9.6%。在最具挑戰(zhàn)性的端到端任務(wù)中,性能差距擴(kuò)大到 11.3%,對(duì)于 7B 開源 LMM 進(jìn)一步擴(kuò)大到 20.1%。這些顯著的差異凸顯了開源模型的巨大改進(jìn)空間。

4.使用MMSearch-Engine,SoTA LMM 在端到端任務(wù)中超越了商業(yè) AI 搜索引擎

我們還評(píng)估了 Perplexity 的專業(yè)版,一個(gè)著名的商業(yè) AI 搜索引擎,接受圖像和文本查詢。Perplexity pro 可以接受用戶查詢中的圖像和文本。令人驚訝的是,盡管 Perplexity 還利用了 GPT-4o 和 Claude 3.5 Sonnet 等 SoTA LMM,但它在端到端任務(wù)中的性能在很大程度上低于配備相同模型的 MMSearch-Engine。

更值得注意的是,MMSearch-Engine 甚至可以通過開源 LMM Qwen2-VL-72B 超越 Perplexity。

這表明MMSearch-Engine 為多模態(tài) AI 搜索引擎提供了更好的開源方案。性能差距驗(yàn)證了 MMSearch-Engine 的設(shè)計(jì)有效性,并突出了在我們的管道中測(cè)試各種 LMM 的價(jià)值,因?yàn)樵谑褂脧?qiáng)大的 LMM 時(shí),管道確實(shí)可以實(shí)現(xiàn)卓越的性能。

此外,論文還指出使用強(qiáng)大的圖像搜索步驟的重要性。

圖片圖片

圖片圖片

結(jié)果實(shí)例結(jié)果實(shí)例

六、多模態(tài)AI搜索引擎,何時(shí)才會(huì)到來

進(jìn)入2024以來,“尋找PMF”、“如何利用大模型的能力打造產(chǎn)品”成為了業(yè)界的主流角逐點(diǎn)。而搜索作為與AI天生最容易結(jié)合的、最值得關(guān)注的賽道之一,我們欣喜地看到了香港中文大學(xué)、字節(jié)跳動(dòng)、北京大學(xué)、商湯科技、斯坦福大學(xué)等眾多國內(nèi)外學(xué)術(shù)界、產(chǎn)業(yè)界的研究人員走到了一起,并為多模態(tài)搜索引擎的賽道提出了一種可行的設(shè)計(jì)框架。

雖然目前看,即便是GPT-4o,也難以達(dá)到人類實(shí)用的效果,但“三個(gè)步驟”設(shè)計(jì)流水線和評(píng)估LMM的多模態(tài)搜索潛力的方法,值得各位借鑒。畢竟,我們可以看到使用MMSearch,SOTA模型的性能已經(jīng)超過了商業(yè)的Perplexity Pro,這是一個(gè)可喜的成績。

參考鏈接:

https://arxiv.org/pdf/2409.12959v1

https://mmsearch.github.io/

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2024-08-30 14:35:00

2025-01-03 10:55:22

2025-03-12 10:38:05

2023-08-30 13:23:00

模型訓(xùn)練

2024-02-01 13:03:00

AI模型

2024-08-07 13:00:00

2022-10-09 10:11:02

AI神經(jīng)網(wǎng)絡(luò)

2024-08-13 13:50:00

數(shù)據(jù)模型

2023-03-15 10:35:16

GPTAI

2023-06-06 14:09:32

模型開源

2024-04-08 12:18:57

訓(xùn)練AI

2023-10-16 12:43:00

模型評(píng)測(cè)

2017-11-28 14:18:29

2024-07-08 08:00:00

2023-09-21 12:31:54

AI數(shù)據(jù)

2024-06-28 18:13:05

2024-05-20 08:20:00

OpenAI模型

2019-12-16 14:33:01

AI人工智能斯坦福

2025-03-06 08:50:44

2024-09-02 09:25:00

AI研究
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)