自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="bmtxa"><p id="bmtxa"></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

GPT-4系列模型，在文檔理解中的多維度評測

發(fā)布于 2024-6-18 12:11

瀏覽

0收藏

著名云數(shù)據(jù)平臺Snowflake的研究人員發(fā)布了一篇論文，主要對OpenAI的GPT-4系列模型進行了研究，查看其文本生成、圖像理解、文檔摘要等能力。

在DocVQA、InfographicsVQA、SlideVQA和DUDE數(shù)據(jù)集上對GPT-4、GPT-4 V、GPT-4 Turbo V +OCR等進行了多維度測試。

結(jié)果顯示，使用GPT-4去執(zhí)行解讀文檔任務(wù)時，無法達到滿意的效果。這是因為，文檔理解不僅是對文本的解析，還涉及到對文檔布局、圖片視覺內(nèi)容的理解、推理和整合。

GPT-4系列模型，在文檔理解中的多維度評測-AI.x社區(qū)

使用GPT-4 V去執(zhí)行時評測數(shù)據(jù)有了很大的改善，當(dāng)使用GPT-4 Turbo V+第三方OCR（光學(xué)字符識別）視覺引擎時，例如，Tesseract、Azure Cognitive 、Amazon Textract等，可明顯提升大模型的視覺理解能力。

可能存在數(shù)據(jù)污染

?

研究人員在DocVQA和InfographicsVQA兩個數(shù)據(jù)集測試GPT-4系列模型時，發(fā)現(xiàn)它并不是完全理解測試問題，而是之前在預(yù)訓(xùn)練過程中接觸過該數(shù)據(jù)集給出了看似正確的答案，可能存在數(shù)據(jù)污染的現(xiàn)象。

這是因為，DocVQA和InfographicsVQA兩個數(shù)據(jù)集在GPT-4之前就已經(jīng)發(fā)布，有可能在GPT-4模型訓(xùn)練時被包含在內(nèi)。如果這些數(shù)據(jù)集真的被包含在訓(xùn)練數(shù)據(jù)中，那么模型在這些數(shù)據(jù)集上的高得分可能并不代表其真正的理解能力，而只是對訓(xùn)練數(shù)據(jù)的一種記憶。

GPT-4系列模型，在文檔理解中的多維度評測-AI.x社區(qū)

為了解開這個謎題，研究人員采用了一種“指導(dǎo)性指令”的技術(shù)。這種方法通過在模型的輸入提示中加入特定的數(shù)據(jù)集名稱，來檢查模型是否能夠根據(jù)數(shù)據(jù)集的特定特征給出不同的答案。

例如，如果模型在接收到“回答DocVQA數(shù)據(jù)集測試分割中的問題”的指令后，給出了與接收到“回答SQuAD數(shù)據(jù)集測試分割中的問題”的指令不同的答案，這可能表明模型對不同數(shù)據(jù)集有特定的反應(yīng)。

GPT-4系列模型，在文檔理解中的多維度評測-AI.x社區(qū)

在進行數(shù)據(jù)污染分析時，當(dāng)在提示中明確提及數(shù)據(jù)集名稱時，模型的性能有所提高，這可能意味著模型在訓(xùn)練時已經(jīng)接觸過這些數(shù)據(jù)集，因此在評估時能夠給出更加符合預(yù)期的答案。

此外，即使是使用不同的數(shù)據(jù)集名稱進行誤導(dǎo)性的指導(dǎo)，也可能會改變模型的輸出，這進一步表明模型的輸出受到了預(yù)訓(xùn)練數(shù)據(jù)的影響。

OCR能提升模型的視覺性能

?

在測試的實驗中，研究者還發(fā)現(xiàn)，當(dāng)GPT-4 Turbo V結(jié)合了第三方OCR引擎識別的文本和文檔圖像輸入時，其在文檔理解任務(wù)上的表現(xiàn)有了顯著提升。

這種提升在SlideVQA和DUDE數(shù)據(jù)集上尤為明顯，能夠達到最先進的性能水平。這表明OCR技術(shù)在增強模型對文檔的視覺理解方面發(fā)揮了重要作用。

GPT-4系列模型，在文檔理解中的多維度評測-AI.x社區(qū)

這是因為，OCR能夠?qū)D像中的文本內(nèi)容轉(zhuǎn)換為機器可讀的格式，從而使模型能夠直接處理文本信息。

在文檔理解任務(wù)中，這意味著模型不僅能夠“看到”文檔中的文本，還能夠“理解”這些文本的含義。

但不同的OCR例如，Tesseract、Azure Cognitive Services和Amazon Textract。在不同的測試數(shù)據(jù)集上表現(xiàn)也各不相同。這表明在實際應(yīng)用中，開發(fā)者可以根據(jù)應(yīng)用場景來選擇不同的OCR來搭配使用。

本文轉(zhuǎn)自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/Zf9aUxjMPwTW9EOsoSBeAw??

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

80M參數(shù)打平GPT-4！蘋果發(fā)超強上下文理解模型，聰明版Siri馬上就來

duhorse ? 2434瀏覽 ? 0回復(fù)
首個開源世界模型！百萬級上下文，長視頻理解吊打GPT-4，UC伯克利華人一作

duhorse ? 2943瀏覽 ? 0回復(fù)
超越GPT-4！最強大模型 Claude 3 完全解讀

開發(fā)者阿橙 ? 5733瀏覽 ? 0回復(fù)
GPT-4 Turbo更新：視覺能力+無限制使用

echo_ning ? 3770瀏覽 ? 0回復(fù)
蘋果推出理解、轉(zhuǎn)化模型ReALM，性能超GPT-4

Aceryt ? 2590瀏覽 ? 0回復(fù)
在12個視頻理解任務(wù)中，Mamba先打敗了Transformer

輕薄滴假象 ? 3128瀏覽 ? 0回復(fù)
使用LLMLingua-2壓縮GPT-4和Claude提示

51CTO內(nèi)容精選 ? 2193瀏覽 ? 0回復(fù)
生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

51CTO內(nèi)容精選 ? 3024瀏覽 ? 0回復(fù)
GPT-4o熱潮來襲：探索圖生文本的奧秘（多模態(tài)大模型系列之一）

魚蟲子 ? 6227瀏覽 ? 0回復(fù)
GPT-4o 到底有多強？模型圖文多模態(tài)能力評測結(jié)果全公開

戀戀青鳥 ? 7570瀏覽 ? 0回復(fù)
如何通過壓縮提示降低GPT-4的成本

51CTO內(nèi)容精選 ? 2406瀏覽 ? 0回復(fù)
超越文本，GPT-4在虹膜生物識別的創(chuàng)新應(yīng)用

Aceryt ? 2067瀏覽 ? 0回復(fù)
OpenAI官方揭秘GPT-4的秘密武器- 指令的藝術(shù)

ermulong ? 2032瀏覽 ? 0回復(fù)
超越GPT-4！LoRA技術(shù)引領(lǐng)大型語言模型新革命

AI論文解讀 ? 2862瀏覽 ? 0回復(fù)
GPT-4和GPT-4V能否像人類一樣進行抽象推理

lintoms ? 1659瀏覽 ? 0回復(fù)
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準測試中超越了 GPT-4o

Halo咯咯 ? 1.0w瀏覽 ? 0回復(fù)
不用魔法，直接訪問微軟 Copilot GPT-4

丟翅膀的魚 ? 1104瀏覽 ? 0回復(fù)
十大PDF解析工具在不同文檔類別中的比較研究

大模型自然語言處理 ? 848瀏覽 ? 0回復(fù)
大模型數(shù)據(jù)預(yù)處理——關(guān)于復(fù)雜文檔在大模型應(yīng)用中的解決方案

AI探索時代 ? 519瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強吉卜力版本來啦 6天前發(fā)布
字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5 7天前發(fā)布

熱門推薦

微軟開源DeepSeek-R1魔改版：響應(yīng)99%敏感提示，風(fēng)險降50% 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： DeepSeek Coder V2開源發(fā)布，首超GPT4-Turbo代碼能力

下一篇： ChatGPT等模型瘋狂訓(xùn)練，最快2026年消耗盡公開文本數(shù)據(jù)

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="tjfwc"></blockquote>}