字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5
字節(jié)跳動開源了多模態(tài)AI Agent UI-TARS的最新1.5版本。
與上一代相比,1.5版本在計算機使用、瀏覽器使用和手機使用等基準測試中均表現(xiàn)非常出色。
在計算機使用方面,OSworld測試得分為42.5,高于OpenAI CUA的36.4、Claude 3.7的28以及之前的最高水平38.1(200步);Windows Agent Arena(50步)得分為42.1,遠超之前的29.8。
瀏覽器使用方面,WebVoyager得分為84.8,接近OpenAI CUA和之前最高水平的87,Online-Mind2web得75.8,優(yōu)于OpenAI CUA的71、Claude 3.7的62.9和之前的71。手機使用方面,Android World得64.2,高于之前的59.5。
開源地址:??https://github.com/bytedance/UI-TARS??
笑臉:??https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B??
而在 GUI 定位方面,UI-TARS-1.5 相比之前的最高水平有顯著提升,尤其在具有挑戰(zhàn)性的 ScreenSpotPro 基準測試中表現(xiàn)突出。
ScreenSpot-V2測試得 94.2,高于 OpenAI CUA 的 87.9、Claude 3.7 的 87.6 和之前的 91.6;ScreenSpotPro 為61.6,遠超 OpenAI CUA的23.4、Claude 3.7的27.7和之前的43.6。
在推理時間方面,隨著推理時間的延長,UI-TARS-1.5 呈現(xiàn)出良好的擴展趨勢。盡管UI-TARS-1.5 并非專為Deep-research任務(wù)設(shè)計,例如,在互聯(lián)網(wǎng)上進行多步驟信息搜索研究,但在兩個近期具有挑戰(zhàn)性的網(wǎng)頁瀏覽基準測試中表現(xiàn)出了強大的通用性。
在 SimpleQA 測試中,UI-TARS-1.5為83.8,優(yōu)于GPT-4.5的60,略低于 帶有搜索功能GPT-4o 90;BrowseComp為2.3,高于GPT4.5的0.6和GPT-4o的1.9。
游戲領(lǐng)域是評估多模態(tài)智能體復(fù)雜推理、決策和適應(yīng)能力的關(guān)鍵測試環(huán)境,游戲需要直觀的常識推理和戰(zhàn)略遠見,是測試和展示多模態(tài)智能體高級認知能力的理想基準。
為評估 UI-TARS-1.5 的游戲能力,研究人員從poki選取了 14 款不同的游戲,每個模型在每個游戲中最多允許 1000 個交互步驟來生成執(zhí)行軌跡,并進行多次運行。
結(jié)果顯示,UI-TARS-1.5 在這些游戲中均取得了100的成績,而 OpenAI CUA 和 Claude 3.7 在部分游戲中得分為 0 或較低。游戲的長視域特性使其成為評估推理時間可擴展性的理想選擇,UI-TARS-1.5表現(xiàn)出強大的可擴展性和穩(wěn)定性,隨著交互輪次的增加,仍能保持高性能,展現(xiàn)出其穩(wěn)健的設(shè)計和先進的推理能力。
UI-TARS-1.5能獲得如此出色的性能,“統(tǒng)一的動作建模”是其關(guān)鍵創(chuàng)新之一,將語義上等效的動作標準化,從而實現(xiàn)跨平臺的無縫操作和知識遷移。
傳統(tǒng)的GUI自動化工具往往依賴于特定平臺的API或系統(tǒng)級權(quán)限來執(zhí)行操作,這限制了它們的通用性和可擴展性。而UI-TARS的統(tǒng)一動作建模模塊則摒棄了這種依賴,轉(zhuǎn)而采用一種更為通用和靈活的方法。
研究人員首先對各種GUI操作進行了深入分析,識別出它們的共性和差異。他們發(fā)現(xiàn),盡管不同平臺的操作在具體實現(xiàn)上可能有所不同,但在語義上往往是等效的。例如,無論是使用鼠標在Windows系統(tǒng)中點擊一個按鈕,還是在移動設(shè)備上輕觸一個圖標,其核心目的都是觸發(fā)一個特定的功能或事件。
基于這一觀察,研究人員設(shè)計了一個通用的動作空間,將這些操作抽象為一系列基本動作,如“點擊”、“拖動”、“輸入文本”等。這些基本動作在不同平臺上具有相同的語義含義,但可以根據(jù)具體平臺的特性進行適當(dāng)?shù)恼{(diào)整和優(yōu)化。
此外,研究人員還引入了一種“動作軌跡增強”技術(shù),進一步提升了智能體的多步操作能力。在實際應(yīng)用中,許多任務(wù)需要模型執(zhí)行一系列連續(xù)的操作才能完成。例如,在一個電商平臺上購買商品可能需要用戶瀏覽商品頁面、選擇商品規(guī)格、點擊“加入購物車”按鈕、填寫收貨地址等多個步驟。
為了使智能體能夠更好地理解和執(zhí)行這類多步任務(wù),研究團隊在數(shù)據(jù)集中添加了大量包含多個連續(xù)操作的軌跡樣本。這些樣本不僅記錄了每個操作的具體內(nèi)容,還反映了操作之間的邏輯順序和依賴關(guān)系。通過學(xué)習(xí)這些軌跡樣本,模型能夠?qū)W會如何將一系列抽象動作組合起來,以完成復(fù)雜的任務(wù)。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
原文鏈接:??https://mp.weixin.qq.com/s/EAUrcNzx-34vp4dVact2cQ??
