自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<samp id="obwmg"></samp>

<pre id="obwmg"></pre>

<pre id="obwmg"><option id="obwmg"></option></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

谷歌發(fā)布最新「讀屏」AI！PaLM 2-S自動(dòng)生成數(shù)據(jù)，多項(xiàng)理解任務(wù)刷新SOTA

作者：新智元 2024-03-05 09:22:36

人工智能新聞

谷歌在語言和聲控計(jì)算機(jī)界面的漫長(zhǎng)道路上又邁出了重要一步。最新ScreenAI視覺語言模型，能夠完成各種屏幕QA問答、總結(jié)摘要等任務(wù)。

每個(gè)人想要的大模型，是真·智能的那種......

這不，谷歌團(tuán)隊(duì)就做出來了一個(gè)強(qiáng)大的「讀屏」AI。

研究人員將其稱為ScreenAI，是一種理解用戶界面和信息圖表的全新視覺語言模型。

論文地址：https://arxiv.org/pdf/2402.04615.pdf

ScreenAI的核心是一種新的屏幕截圖文本表示方法，可以識(shí)別UI元素的類型和位置。

值得一提的是，研究人員使用谷歌語言模型PaLM 2-S生成了合成訓(xùn)練數(shù)據(jù)，以訓(xùn)練模型回答關(guān)屏幕信息、屏幕導(dǎo)航和屏幕內(nèi)容摘要的問題。

舉個(gè)栗子，比如打開一音樂APP頁面，可以詢問「有幾首歌時(shí)長(zhǎng)少于30秒」？

ScreenAI便給出了簡(jiǎn)單的答案：1。

再比如命令ScreenAI打開菜單，就可以選中。

架構(gòu)靈感來源——PaLI

圖1中展示了ScreenAI模型架構(gòu)。研究人員受到了PaLI系列模型架構(gòu)（由一個(gè)多模態(tài)編碼器塊組成）的啟發(fā)。

該編碼器塊包含一個(gè)類似ViT的視覺編碼器和一個(gè)消費(fèi)圖像（consuming image）和文本輸入的mT5語言編碼器，后接一個(gè)自回歸解碼器。

輸入圖像通過視覺編碼器轉(zhuǎn)化為一系列嵌入，這些嵌入與輸入文本嵌入結(jié)合，一起輸入mT5語言編碼器。

編碼器的輸出傳遞給解碼器，生成文本輸出。

這種泛化公式能夠使用相同的模型架構(gòu)，解決各種視覺和多模態(tài)任務(wù)。這些任務(wù)可以重新表述為文本+圖像（輸入）到文本（輸出）的問題。

與文本輸入相比，圖像嵌入構(gòu)成了多模態(tài)編碼器輸入長(zhǎng)度的重要部分。

簡(jiǎn)而言之，該模型采用圖像編碼器和語言編碼器提取圖像與文本特征，將二者融合后輸入解碼器生成文本。

這種構(gòu)建方式可以廣泛適用于圖像理解等多模態(tài)任務(wù)。

另外，研究人員還進(jìn)一步擴(kuò)展了PaLI的編碼器-解碼器架構(gòu)，以接受各種圖像分塊模式。

原始的PaLI架構(gòu)只接受固定網(wǎng)格模式的圖像塊來處理輸入圖像。然而，研究人員在屏幕相關(guān)領(lǐng)域遇到的數(shù)據(jù)，跨越了各種各樣的分辨率和寬高比。

為了使單個(gè)模型能夠適應(yīng)所有屏幕形狀，有必要使用一種適用于各種形狀圖像的分塊策略。

為此，谷歌團(tuán)隊(duì)借鑒了Pix2Struct中引入的一種技術(shù)，允許根據(jù)輸入圖像形狀和預(yù)定義的最大塊數(shù)，生成任意網(wǎng)格形狀的圖像塊，如圖1所示。

這樣能夠適應(yīng)各種格式和寬高比的輸入圖像，而無需對(duì)圖像進(jìn)行填充或拉伸以固定其形狀，從而使模型更通用，能夠同時(shí)處理移動(dòng)設(shè)備（即縱向）和臺(tái)式機(jī)（即橫向）的圖像格式。

模型配置

研究人員訓(xùn)練了3種不同大小的模型，包含670M、2B和5B參數(shù)。

對(duì)于670M和2B參數(shù)模型，研究人員從視覺編碼器和編碼器-解碼器語言模型的預(yù)訓(xùn)練單峰檢查點(diǎn)開始。

對(duì)于5B參數(shù)模型，從 PaLI-3的多模態(tài)預(yù)訓(xùn)練檢查點(diǎn)開始，其中ViT與基于UL2的編碼器-解碼器語言模型一起訓(xùn)練。

表1中可以看到視覺和語言模型之間的參數(shù)分布情況。

自動(dòng)數(shù)據(jù)生成

研究人員稱，模型開發(fā)的預(yù)訓(xùn)練階段很大程度上，取決于對(duì)龐大且多樣化的數(shù)據(jù)集的訪問。

然而手動(dòng)標(biāo)注廣泛的數(shù)據(jù)集是不切實(shí)際的，因此谷歌團(tuán)隊(duì)的策略是——自動(dòng)數(shù)據(jù)生成。

這種方法利用專門的小模型，每個(gè)模型都擅長(zhǎng)高效且高精度地生成和標(biāo)記數(shù)據(jù)。

與手動(dòng)標(biāo)注相比，這種自動(dòng)化方法不僅高效且可擴(kuò)展，而且還確保了一定程度的數(shù)據(jù)多樣性和復(fù)雜性。

第一步是讓模型全面了解文本元素、各種屏幕組件及其整體結(jié)構(gòu)和層次結(jié)構(gòu)。這種基礎(chǔ)理解對(duì)于模型準(zhǔn)確解釋各種用戶界面并與之交互的能力至關(guān)重要。

這里，研究人員通過爬蟲應(yīng)用程序和網(wǎng)頁，從各種設(shè)備（包括臺(tái)式機(jī)、移動(dòng)設(shè)備和平板電腦）收集了大量屏幕截圖。

然后，這些屏幕截圖會(huì)使用詳細(xì)的標(biāo)簽進(jìn)行標(biāo)注，這些標(biāo)簽描述了UI 元素、它們的空間關(guān)系以及其他描述性信息。

此外，為了給預(yù)訓(xùn)練數(shù)據(jù)注入更大的多樣性，研究人員還利用語言模型的能力，特別是PaLM 2-S分兩個(gè)階段生成QA對(duì)。

首先生成之前描述的屏幕模式。隨后，作者設(shè)計(jì)一個(gè)包含屏幕模式的提示，指導(dǎo)語言模型生成合成數(shù)據(jù)。

經(jīng)過幾次迭代后，可以確定一個(gè)有效生成所需任務(wù)的提示，如附錄C所示。

為了評(píng)估這些生成響應(yīng)的質(zhì)量，研究人員對(duì)數(shù)據(jù)的一個(gè)子集進(jìn)行了人工驗(yàn)證，以確保達(dá)到預(yù)定的質(zhì)量要求。

該方法在圖2中進(jìn)行了描述，大大提升預(yù)訓(xùn)練數(shù)據(jù)集的深度與廣度。

通過利用這些模型的自然語言處理能力，結(jié)合結(jié)構(gòu)化的屏幕模式，便可以模擬各種用戶交互和情景。

兩組不同任務(wù)

接下來，研究人員為模型定義了兩組不同的任務(wù)：一組初始的預(yù)訓(xùn)練任務(wù)和一組后續(xù)的微調(diào)任務(wù)。

這兩組的區(qū)別主要在于兩個(gè)方面：

- 真實(shí)數(shù)據(jù)的來源：對(duì)于微調(diào)任務(wù)，標(biāo)記由人類評(píng)估者提供或驗(yàn)證。對(duì)于預(yù)訓(xùn)練任務(wù)，標(biāo)記是使用自監(jiān)督學(xué)習(xí)方法推斷的或使用其他模型生成的。

- 數(shù)據(jù)集的大小：通常預(yù)訓(xùn)練任務(wù)包含大量的樣本，因此，這些任務(wù)用于通過更擴(kuò)展的一系列步驟來訓(xùn)練模型。

表2顯示所有預(yù)訓(xùn)練任務(wù)的摘要。

在混合數(shù)據(jù)中，數(shù)據(jù)集按其大小按比例加權(quán)，每個(gè)任務(wù)允許的最大權(quán)重。

將多模態(tài)源納入多任務(wù)訓(xùn)練中，從語言處理到視覺理解和網(wǎng)頁內(nèi)容分析，使模型能夠有效處理不同的場(chǎng)景，并增強(qiáng)其整體多功能性和性能。

研究人員在微調(diào)期間使用各種任務(wù)和基準(zhǔn)來估計(jì)模型的質(zhì)量。表3總結(jié)了這些基準(zhǔn)，包括現(xiàn)有的主要屏幕、信息圖表和文檔理解基準(zhǔn)。

實(shí)驗(yàn)結(jié)果

圖4顯示了ScreenAI模型的性能，并將其與各種與屏幕和信息圖形相關(guān)的任務(wù)上的最新SOT結(jié)果進(jìn)行了比較。

可以看到，ScreenAI在不同任務(wù)上取得的領(lǐng)先性能。

在表4中，研究人員呈現(xiàn)了使用OCR數(shù)據(jù)的單任務(wù)微調(diào)結(jié)果。

對(duì)于QA任務(wù)，添加OCR可以提高性能（例如Complex ScreenQA、MPDocVQA和InfoVQA上高達(dá)4.5%）。

然而，使用OCR會(huì)稍微增加輸入長(zhǎng)度，從而導(dǎo)致整體訓(xùn)練速度更慢。它還需要在推理時(shí)獲取OCR結(jié)果。

另外，研究人員使用以下模型規(guī)模進(jìn)行了單任務(wù)實(shí)驗(yàn)：6.7億參數(shù)、20億參數(shù)和50億參數(shù)。

在圖4中可以觀察到，對(duì)于所有任務(wù)，增加模型規(guī)模都可以改進(jìn)性能，在最大規(guī)模下的改進(jìn)還沒有飽和。

對(duì)于需要更復(fù)雜的視覺文本和算術(shù)推理的任務(wù)（例如InfoVQA、ChartQA和Complex ScreenQA），20億參數(shù)模型和50億參數(shù)模型之間的改進(jìn)明顯大于6.7億參數(shù)模型和20億參數(shù)模型。

最后，圖5顯示了，對(duì)于長(zhǎng)寬比>1.0的圖像（橫向模式圖像），pix2struct分割策略明顯優(yōu)于固定網(wǎng)格分割。

對(duì)于縱向模式圖像，趨勢(shì)相反，但固定網(wǎng)格分割僅稍微好一些。

鑒于研究人員希望ScreenAI模型能夠在不同長(zhǎng)寬比的圖像上使用，因此選擇使用pix2struct分割策略。

谷歌研究人員表示，ScreenAI模型還需要在一些任務(wù)上進(jìn)行更多研究，以縮小與GPT-4和Gemini等更大模型的差距。

責(zé)任編輯：張燕妮來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<nav id="t8wrv"></nav>

<style id="t8wrv"></style>

<pre id="t8wrv"><span id="t8wrv"><center id="t8wrv"></center></span></pre>

<var id="t8wrv"><fieldset id="t8wrv"><th id="t8wrv"></th></fieldset></var>