自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tr id="w6jxj"><span id="w6jxj"></span></tr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

多模態(tài)大模型事實正確性評估：o1最強(qiáng)，模型普遍過于自信，最擅長現(xiàn)代建筑/工程技術(shù)/科學(xué)

作者：量子位 2025-02-24 09:12:00

人工智能新聞

據(jù)介紹，這是第一個系統(tǒng)性地衡量視覺大模型事實準(zhǔn)確性的中文評測集，可以全面探測模型在各個領(lǐng)域的視覺識別能力和知識水平。

OpenAI o1視覺能力還是最強(qiáng)，模型們普遍“過于自信”！

這個結(jié)果來自首個面向事實知識的中文視覺問答基準(zhǔn)ChineseSimpleVQA。

該基準(zhǔn)測試包含2200個高質(zhì)量問題，覆蓋了8個主要話題和56個子話題，這些問題涉及從人文到科學(xué)和工程等多個領(lǐng)域，由淘天集團(tuán)未來生活實驗室團(tuán)隊推出。

據(jù)介紹，這是第一個系統(tǒng)性地衡量視覺大模型事實準(zhǔn)確性的中文評測集，可以全面探測模型在各個領(lǐng)域的視覺識別能力和知識水平。

也是繼提出Chinese SimpleQA 和Chinese SafetyQA之后，淘天集團(tuán)算法技術(shù)未來生活實驗室團(tuán)隊再次提出面向多模態(tài)大模型的事實知識評測基準(zhǔn)。

1100幅圖片和2200個問答對作為終版數(shù)據(jù)集

Chinese SimpleVQA貢獻(xiàn)了一個嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)構(gòu)建流程，其將視覺事實性解耦為兩個部分：

觀察世界（即主體識別）
發(fā)現(xiàn)知識

這種解耦方法方便分析多模態(tài)大模型的知識邊界及執(zhí)行機(jī)制。

具體來說，Chinese SimpleQA的構(gòu)主要分為自動化問答對生成和質(zhì)量控制兩個階段：

第一階段，QA對生成。

為了創(chuàng)建基于事實知識的視覺問答對，研究者從維基百科的“每日圖片”欄目收集了6546個圖文對，每張圖片對應(yīng)一個平均長度為723個字的百科類文本。

問答對的構(gòu)建主要包括以下三個流程：

對象識別問題：識別圖片中的主要對象并提出相關(guān)問題。
知識問題生成：基于識別對象的百科文本，提出更深入的知識問題。
合并問答：整合視覺和知識問題，形成復(fù)雜的兩跳問題。

在自動生成問答對時，需要遵循包括問題應(yīng)僅基于圖片信息、答案唯一且明確、基于事實知識及其難度等要求。

同時，需要保留每張圖片的首尾問答對作為最終評測集。

第二階段，質(zhì)量控制。

包括自動驗證。

研究團(tuán)隊開發(fā)了一種多輪自動化方法驗證生成的問答對，重新生成或過濾不符合標(biāo)準(zhǔn)的問題。

通過該過程，該步共保留了5009幅圖片和10018個合格的問答對。

難度篩選。

為了提升基準(zhǔn)的難度和識別模型的知識邊界，作者們過濾掉了簡單問題。

具體來說，如果某個問題能被四個強(qiáng)大模型，即GPT-4o (0806)、Claude 3.5 Sonnet、Gemini 1.5 Pro和Qwen-VL-Max全部正確回答，則認(rèn)為該問題過于簡單并被淘汰。

該步保留了3058幅圖片和6116個問答對。

人工驗證。

由23名標(biāo)注人員進(jìn)行數(shù)據(jù)驗證和重寫，確保問答對符合標(biāo)準(zhǔn)；6名工程師進(jìn)行復(fù)核和篩選，確保數(shù)據(jù)高質(zhì)量。

主要操作包括：1）驗證并重寫不符合標(biāo)準(zhǔn)的問題或答案；2）替換不合格或不具代表性的圖片；3）通過搜索引擎核實答案的準(zhǔn)確性。不符合標(biāo)準(zhǔn)的對被淘汰。

在這個步驟中，僅保留人工標(biāo)注與自動驗證完全一致的問答對。

數(shù)據(jù)脫敏。

為確保數(shù)據(jù)安全，研究者將最終數(shù)據(jù)集提交給6位安全審計員進(jìn)行全面審查；每條數(shù)據(jù)至少由2位審計員交叉檢查，只有通過審查的數(shù)據(jù)才被保留。

經(jīng)過上述處理后，最終挑選了1100幅圖片和2200個問答對作為終版數(shù)據(jù)集。

o1-preview表現(xiàn)最佳

Benchmark構(gòu)建完成后，團(tuán)隊對13個閉源模型和21個開源模型的全面評測和分析，并分別給出這些模型在圖像主體識別和知識擴(kuò)展問題上的排名情況。

其中，最佳表現(xiàn)模型為o1-preview。

結(jié)果顯示，o1-preview在識別問題和知識擴(kuò)展問題上表現(xiàn)最佳，其次是Gemini-2.0-pro-flash和Gemini-1.5-pro。

在注重中文能力的模型中，Qwen-VL系列表現(xiàn)最為突出。

此外，研究團(tuán)隊還觀察到三個現(xiàn)象：

知識擴(kuò)展難于主體識別：模型在知識擴(kuò)展類問題上的表現(xiàn)與識別問題上的準(zhǔn)確率呈正相關(guān)。且圖像識別準(zhǔn)確率通常更高。這表明在一些模型能正確識別對象的情況下，獲取深層次擴(kuò)展知識的能力受限。

知識能力隨模型規(guī)模提升：一般情況下，同一系列的模型規(guī)模越大，表現(xiàn)越優(yōu)。例如，Qwen2-VL系列從2B增至72B后，最終問題的準(zhǔn)確率從29.0%提升至50.6%。

幻覺問題仍是挑戰(zhàn)：大多數(shù)受測模型的錯誤率（IN）高于不嘗試回答的比率（NA），這表明模型更傾向于自信地提供錯誤信息。幻覺問題仍是多模態(tài)大模型領(lǐng)域的一個重要挑戰(zhàn)。

同時研究測試顯示，ChinesesimpleVQA具有評估魯棒性，在使用不同的評測模型時（即使評測模型和受測模型是同一個），受測模型的排名保持穩(wěn)定。

以下為部分研究發(fā)現(xiàn)摘錄：

更擅長哪種知識？

Chinese Simple VQA中的問題通常需要更專業(yè)的知識，這也考驗了模型的知識深度。

下圖給出了Top10排名的模型，在8個話題下的表現(xiàn)。

結(jié)果表明，這些模型在現(xiàn)代建筑、工程技術(shù)和科學(xué)等主題上表現(xiàn)優(yōu)異，在其他主題上稍遜一籌。

更缺乏哪種能力？

下圖分析了各模型的出錯時機(jī)。

結(jié)果顯示，對o1-preview、Gemini-1.5-pro、Caude3.5-sonet2和Qwen-vl-max來說，主要出錯時機(jī)（占比超過50%）來源于知識擴(kuò)展階段。

而其他模型，則在圖像識別階段開始表現(xiàn)不佳。

是否過于自信？

一個理想校準(zhǔn)模型的置信水平（%）應(yīng)與預(yù)測準(zhǔn)確性精確匹配。

研究通過提示模型在回答問題的同時給出其置信度（范圍0到100），并探索了模型的事實準(zhǔn)確性與置信度之間的關(guān)系。

結(jié)果顯示，o1-preview表現(xiàn)最佳。

但總體而言，大部分模型的表現(xiàn)遠(yuǎn)低于理想對齊線，這表明即使回答錯誤，模型也傾向于過于自信。

是否具有能力邊界？

下圖曲線展示了隨著推理次數(shù)增加，模型答案準(zhǔn)確性（Best-of-N）的變化。

可以看出，大部分模型在1到30次嘗試范圍內(nèi)，準(zhǔn)確性隨推理次數(shù)增加而明顯提高。

然而，當(dāng)推理次數(shù)超過30次時，模型表現(xiàn)趨于穩(wěn)定。

這表明模型難以通過不停的探索而持續(xù)找到準(zhǔn)確的知識，也代表著模型的知識能力邊界。

共5大特點

Chinese SimpleVQA主要有五個特點：

第一，多跳評估。

解耦視覺模型知識能力評估步驟，包括圖片主體識別和知識評估。

這種多跳評估策略讓使用者可以深入分析視覺大模型（LVLMs）的能力邊界和執(zhí)行機(jī)制。

第二，多樣性。

評測集共有2200條高質(zhì)量問答對，涵蓋了8個知識類別及56個細(xì)分主題，包括“自然”“科學(xué)”“工程技術(shù)”“人文社會”“生活、文化與藝術(shù)”等。

第三，高質(zhì)量。

ChineseSimpleVQA擁有嚴(yán)格的構(gòu)建流程，包括自動驗證、難度篩選和人工驗證。

共有23位標(biāo)注同學(xué)和6位算法同學(xué)進(jìn)行質(zhì)量把控，以及6位安全審查員進(jìn)行數(shù)據(jù)風(fēng)險審查。

第四，靜態(tài)一致性。

ChineseSimpleVQA具有持久可用性，所有的參考答案將不隨時間而發(fā)生改變。

第五，易于評估。

所有問題和答案均采用簡短格式，方便快速評估。

此外，ChineseSimpleVQA提供一鍵評測腳本以協(xié)助研究人員開展工作。

One More Thing

該項目核心作者包括顧紀(jì)豪，王瑛瑤，不皮。

研究團(tuán)隊來自淘天集團(tuán)算法技術(shù)-未來生活實驗室，該實驗室聚焦大模型、多模態(tài)等 AI 技術(shù)方向，致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類AI Native應(yīng)用。

arXiv：https://arxiv.org/pdf/2502.11718v1
https://arxiv.org/abs/2411.07140
https://arxiv.org/abs/2412.15265
項目主頁：https://chinesesimplevqa.github.io/ChieseSimpleVQA.github.io/
GitHub：https://github.com/OpenStellarTeam/ChineseSimpleQA

責(zé)任編輯：張燕妮來源：量子位

視覺模型 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營