自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型

發(fā)布于 2025-4-22 07:09
瀏覽
0收藏

為什么需要 GUI 視覺定位技術(shù)?

1.1 數(shù)字時(shí)代的效率革命

圖形用戶界面(Graphical User Interface, GUI)智能體正在重塑人機(jī)交互方式。這類智能體通過模仿人類的視覺感知能力,可以直接"看懂"屏幕內(nèi)容并執(zhí)行操作指令。微軟亞洲研究院團(tuán)隊(duì)的研究表明,相比依賴 HTML 等 GUI 元數(shù)據(jù)的傳統(tǒng)方法(存在平臺(tái)依賴性和實(shí)現(xiàn)差異問題),基于視覺的方法具有更廣泛的適用性。例如,在跨平臺(tái)操作場(chǎng)景中,視覺智能體可以統(tǒng)一處理 Windows、Web 和移動(dòng)端界面,而無需針對(duì)每個(gè)平臺(tái)開發(fā)特定解析器。

1.2 現(xiàn)有技術(shù)的三大瓶頸

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型-AI.x社區(qū)圖片

研究團(tuán)隊(duì)在分析現(xiàn)有 GUI 視覺定位技術(shù)時(shí)發(fā)現(xiàn)了三個(gè)關(guān)鍵挑戰(zhàn):

? 元素屏幕比失衡:現(xiàn)有基準(zhǔn)測(cè)試中的按鈕等元素尺寸通常占據(jù)屏幕的 1%-5%,而真實(shí)桌面環(huán)境(如 1080p/1440p 分辨率)中元素占比往往小于 0.5%。這種差異導(dǎo)致模型在測(cè)試環(huán)境表現(xiàn)良好,但在實(shí)際應(yīng)用中定位小元素時(shí)準(zhǔn)確率驟降。例如,在 1440p 分辨率下,"保存"按鈕可能僅占屏幕面積的 0.2%。

? 元素類型不平衡:現(xiàn)有數(shù)據(jù)集過度集中于文本按鈕(占比超過 60%),而復(fù)選框、單選框等長尾元素占比不足 5%。這種不平衡導(dǎo)致模型難以識(shí)別功能性圖標(biāo),如 Photoshop 工具欄中的"魔棒工具"圖標(biāo),盡管這些圖標(biāo)在專業(yè)軟件中至關(guān)重要。

? 隱含指令理解困難:用戶常基于元素功能而非可見文本發(fā)出指令。例如說"保存文檔"而非"點(diǎn)擊左上角第三個(gè)圖標(biāo)",現(xiàn)有模型對(duì)此類指令的理解準(zhǔn)確率不足 40%。這種認(rèn)知鴻溝嚴(yán)重限制了 GUI 智能體的實(shí)際應(yīng)用價(jià)值。

1.3 數(shù)據(jù)標(biāo)注的成本困局

構(gòu)建高質(zhì)量的 GUI 定位數(shù)據(jù)集面臨雙重挑戰(zhàn):

? 標(biāo)注人員需要同時(shí)理解界面元素功能(如區(qū)分"提交"按鈕和"保存"按鈕)

? 用戶操作意圖(如理解"完成注冊(cè)"對(duì)應(yīng)的具體操作)。

這種復(fù)合型標(biāo)注任務(wù)使得單個(gè)樣本標(biāo)注成本高達(dá) 2-3 美元,而訓(xùn)練一個(gè)實(shí)用模型通常需要百萬級(jí)樣本量。例如,標(biāo)注一個(gè)電商結(jié)賬頁面可能需要識(shí)別 10-15 個(gè)交互元素,并生成 20 種以上的自然語言指令變體。

二、UI-E2I-Synth 技術(shù)解析

2.1 三步合成流水線

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型-AI.x社區(qū)圖片

UI-E2I-Synth(User Interface Element-to-Instruction Synthesis,用戶界面元素到指令合成)采用分階段處理策略,將復(fù)雜的指令生成任務(wù)分解為三個(gè)關(guān)鍵步驟:

2.1.1. 原始數(shù)據(jù)收集與解析

系統(tǒng)從網(wǎng)頁、Windows 和 Android 平臺(tái)采集截圖-元數(shù)據(jù)對(duì),通過啟發(fā)式解析器提取元素的三個(gè)核心屬性:類型(如按鈕/輸入框)、內(nèi)容(如文本標(biāo)簽)和邊界框坐標(biāo)。這種結(jié)構(gòu)化處理為后續(xù)步驟提供了可靠的基礎(chǔ)數(shù)據(jù),例如從網(wǎng)頁 DOM(Document Object Model)中解析出的搜索框元素會(huì)被標(biāo)記為"Inputfield"類型。

2.1.2. 指代表達(dá)生成

利用 GPT-4o 生成兩種元素描述方式:

? 顯式表達(dá):直接描述可見特征(如"藍(lán)色搜索按鈕")

? 隱含表達(dá):通過功能或上下文關(guān)系間接描述(如"頁面頂部的返回箭頭")

2.1.3. 指令合成

將用戶操作分解為動(dòng)作類型(點(diǎn)擊/輸入)、動(dòng)作內(nèi)容(輸入文本)和元素對(duì)象三個(gè)參數(shù)。通過參數(shù)化組合生成自然的第一人稱指令,如"在用戶名輸入框填寫'admin'"。相比直接生成,這種方法使指令準(zhǔn)確率顯著提高。

3. 效果評(píng)估

3.1 新基準(zhǔn)測(cè)試 UI-I2E-Bench

研究團(tuán)隊(duì)構(gòu)建的 UI-I2E-Bench 基準(zhǔn)測(cè)試包含 1,477 條指令,具有三大創(chuàng)新特性。

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型-AI.x社區(qū)圖片

? 首先,該基準(zhǔn)采用更接近真實(shí)場(chǎng)景的元素屏幕比(element-to-screen ratio),平均比現(xiàn)有基準(zhǔn)小 37%。測(cè)試元素在屏幕中的占比更接近實(shí)際使用場(chǎng)景,如上圖所示,現(xiàn)有基準(zhǔn)中的元素比例明顯大于常見的 1080p 和 1440p 桌面顯示器標(biāo)準(zhǔn)。這種設(shè)計(jì)能更準(zhǔn)確地評(píng)估模型在真實(shí)環(huán)境中的表現(xiàn)。

? 其次,基準(zhǔn)實(shí)現(xiàn)了元素類型的平衡分布,非文本元素(如圖標(biāo)、輸入框等)占比達(dá)到 23%。如上圖右側(cè)所示,現(xiàn)有基準(zhǔn)中文本按鈕占據(jù)主導(dǎo)地位,而 UI-I2E-Bench 通過精心設(shè)計(jì)的數(shù)據(jù)采樣策略,確保了各類 GUI 元素的均衡覆蓋。例如,對(duì)于復(fù)選框這類依賴周邊元素定義功能的組件,基準(zhǔn)中給予了合理權(quán)重。

? 第三項(xiàng)創(chuàng)新是顯式/隱含指令分類標(biāo)注,其中隱含指令占比達(dá) 42%。比如,當(dāng)用戶說"返回頂部"時(shí),這屬于需要理解功能語義的隱含指令;而"點(diǎn)擊藍(lán)色返回按鈕"則是直接描述視覺特征的顯式指令。這種區(qū)分有助于評(píng)估模型不同層次的認(rèn)知能力。

3.2 模型性能對(duì)比

在跨平臺(tái)測(cè)試中,使用合成數(shù)據(jù)訓(xùn)練的 UI-I2E-VLM-7B 模型展現(xiàn)出顯著優(yōu)勢(shì)。UI-I2E-VLM-7B 在所有基準(zhǔn)測(cè)試中均表現(xiàn)出色,超越了之前的最先進(jìn)模型 OS-Atlas-7B,平均性能提高了9.7%。

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型-AI.x社區(qū)圖片

模型對(duì)隱含指令的理解準(zhǔn)確率提升 12.1%,這得益于合成數(shù)據(jù)中對(duì)功能語義的強(qiáng)化訓(xùn)練。

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型-AI.x社區(qū)圖片

模型在資源效率方面表現(xiàn)突出,僅使用 OS-Atlas 72%的訓(xùn)練數(shù)據(jù)量就取得更好效果。如上表所示,這種優(yōu)勢(shì)在長尾元素識(shí)別上尤為明顯:圖標(biāo)識(shí)別準(zhǔn)確率提升 18.3%,輸入框定位精度提升 14.6%。

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型-AI.x社區(qū)圖片

如上圖,隨著元素屏幕比減?。丛馗。?,模型性能優(yōu)勢(shì)逐漸擴(kuò)大,在最小比例區(qū)間(<0.03)仍保持 65%以上的準(zhǔn)確率。

3.3 實(shí)際應(yīng)用驗(yàn)證

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型-AI.x社區(qū)圖片

將模型集成到 OSWorld 實(shí)時(shí) GUI 智能體測(cè)試環(huán)境后,任務(wù)成功率比純 GPT-4o 方案提升 23.4%。

這種提升源于兩方面:

? 一是合成數(shù)據(jù)包含各類專業(yè)軟件的界面樣本

? 二是指令生成時(shí)模擬了真實(shí)用戶的操作邏輯。

例如在"登錄郵箱"任務(wù)中,模型會(huì)先定位登錄模塊再尋找輸入框,展現(xiàn)出層級(jí)理解能力。

3.4 失敗案例分析

研究團(tuán)隊(duì)對(duì)典型錯(cuò)誤進(jìn)行了系統(tǒng)歸類(如下圖所示):

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型-AI.x社區(qū)圖片

上圖展示了UI-I2E-VLM在UI-I2E-Bench上的常見錯(cuò)誤,包括:

? 由于知識(shí)有限而未能識(shí)別無文本的圖標(biāo)。

? 行或列內(nèi)元素的錯(cuò)誤定位。

? 空間關(guān)系的誤解。

? 層級(jí)關(guān)系的誤解。

? 錯(cuò)誤分類元素類型,例如將復(fù)選框與相鄰文本混淆。

3.5 測(cè)評(píng)榜單

作者已經(jīng)公開發(fā)布了測(cè)評(píng)榜單:https://colmon46.github.io/i2e-bench-leaderboard/

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型-AI.x社區(qū)圖片

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型-AI.x社區(qū)

本文轉(zhuǎn)載自???大語言模型論文跟蹤???,作者:HuggingAGI

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦