自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

讓Siri不再智障!蘋果定義新的端側(cè)模型,“大大優(yōu)于GPT-4,擺脫文本,可視化模擬屏幕信息,最小參數(shù)模型相

發(fā)布于 2024-4-2 15:28
瀏覽
0收藏

撰稿丨諾亞   

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)       

總被用戶吐槽“有點(diǎn)智障”的Siri有救了!

Siri自誕生以來就是智能語音助手領(lǐng)域的代表之一,但很長(zhǎng)一段時(shí)間里,其表現(xiàn)并不盡如人意。然而,蘋果的人工智能團(tuán)隊(duì)最新發(fā)布的研究成果有望極大地改變現(xiàn)狀。

在相關(guān)的研究論文中,蘋果的AI專家們描述了一個(gè)系統(tǒng),其中Siri不僅可以識(shí)別圖像中的內(nèi)容,還能做更多的事情,變得更智能、更實(shí)用。尤為令人興奮的是,他們認(rèn)為自己研發(fā)的用于實(shí)現(xiàn)這一功能的模型ReALM,其基準(zhǔn)性能優(yōu)于GPT 4.0。

一、動(dòng)機(jī):解決不同實(shí)體的指代解析

蘋果的研究團(tuán)隊(duì)指出:“讓對(duì)話助手能夠理解上下文,包括相關(guān)的內(nèi)容指向,非常關(guān)鍵。能讓用戶根據(jù)他們所看到的屏幕內(nèi)容進(jìn)行提問,是確保真正實(shí)現(xiàn)語音操作體驗(yàn)的重要一步?!?/p>

打個(gè)比方,在人機(jī)交互過程中,用戶常常會(huì)在對(duì)話中提及屏幕上的某個(gè)元素或內(nèi)容,例如指示語音助手撥打電話號(hào)碼、導(dǎo)航至地圖上的特定地點(diǎn)、打開特定應(yīng)用程序或網(wǎng)頁等。如果對(duì)話助手無法理解用戶指令背后的實(shí)體指代,就無法準(zhǔn)確地執(zhí)行這些命令。

而且人類對(duì)話中普遍存在模糊指代的現(xiàn)象,為了實(shí)現(xiàn)自然的人機(jī)交互,以及在用戶與語音助手進(jìn)行關(guān)于屏幕內(nèi)容查詢時(shí)準(zhǔn)確理解語境,指代解析能力至關(guān)重要。

蘋果在論文中提到的名為ReALM(Reference Resolution As Language Modeling)的模型,其優(yōu)勢(shì)就在于,它能夠同時(shí)考慮用戶屏幕上的內(nèi)容和正在進(jìn)行的任務(wù),利用大語言模型解決不同類型實(shí)體(包括對(duì)話實(shí)體和非對(duì)話實(shí)體)的指代解析問題。

盡管傳統(tǒng)的文本模態(tài)不便于處理屏幕上顯示的實(shí)體,但ReALM系統(tǒng)通過將指代解析轉(zhuǎn)化為語言建模問題,并成功運(yùn)用LLMs來處理屏幕上非對(duì)話實(shí)體的指代,極大地推動(dòng)了這一目標(biāo)的達(dá)成。如此一來,便有望達(dá)成高度智能、更加沉浸的用戶體驗(yàn)。

二、重構(gòu):突破傳統(tǒng)文本模態(tài)的限制

傳統(tǒng)的文本模態(tài)不便于處理屏幕上顯示的實(shí)體,是因?yàn)槠聊簧系膶?shí)體通常包含豐富的視覺信息和布局結(jié)構(gòu),例如圖像、圖標(biāo)、按鈕及它們之間的相對(duì)位置關(guān)系等,這些信息在純粹的文本描述中難以完全表達(dá)。

ReALM系統(tǒng)針對(duì)這一挑戰(zhàn),創(chuàng)造性地提出了通過解析屏幕上的實(shí)體及其位置信息來重建屏幕,并生成一種純文本表示,這種文本能可視化地反映屏幕內(nèi)容。

實(shí)體部分會(huì)被特別標(biāo)記,以便語言模型了解實(shí)體出現(xiàn)在何處及其周圍的文本是什么,這樣就能模擬“看到”屏幕上的信息,并在理解和解析屏幕上的指代時(shí)提供必要的上下文信息。這種方法是首次嘗試使用大型語言模型從屏幕內(nèi)容中編碼上下文,克服了傳統(tǒng)文本模態(tài)難以處理的屏幕實(shí)體的問題。

具體來說,ReALM系統(tǒng)為了讓大型語言模型能夠“理解”并處理屏幕上顯示的實(shí)體,采用了以下步驟:

首先,借助上層數(shù)據(jù)檢測(cè)器提取屏幕文本中的實(shí)體,這些實(shí)體會(huì)帶有類型、邊界框以及實(shí)體周圍非實(shí)體文本元素的列表。這意味著,對(duì)于屏幕上每一個(gè)可視化的實(shí)體,系統(tǒng)都會(huì)捕捉其基本信息和它所處的上下文環(huán)境。

然后,ReALM創(chuàng)新地提出了一種算法,通過將實(shí)體及其周圍對(duì)象的邊界框中心點(diǎn)按照垂直(從上至下)和水平(從左至右)的順序排序,并穩(wěn)定排列。若實(shí)體間距離較近,則認(rèn)為它們?cè)谕恍袃?nèi),并用制表符隔開;若距離超出設(shè)定的邊距,則將它們置于下一行。這樣,通過連續(xù)應(yīng)用上述方法,就可以將屏幕內(nèi)容按從左到右、從上到下的方式編碼成純文本格式,有效地保留了實(shí)體間的相對(duì)空間位置關(guān)系。

這樣一來,原本難以直接被LLM處理的屏幕視覺信息轉(zhuǎn)化成了適合語言模型輸入的文本形式,使LLM能夠在處理序列到序列的任務(wù)時(shí),充分考慮到了屏幕實(shí)體的具體位置和上下文,從而實(shí)現(xiàn)對(duì)屏幕實(shí)體的正確識(shí)別和指代解析。

這使得ReALM系統(tǒng)不僅在解決對(duì)話實(shí)體的指代問題上表現(xiàn)出色,而且在處理非對(duì)話類實(shí)體——即屏幕上的實(shí)體時(shí)同樣表現(xiàn)出了顯著的性能提升。

三、細(xì)節(jié):任務(wù)定義和數(shù)據(jù)集

簡(jiǎn)單來,ReALM系統(tǒng)面臨的任務(wù)是,根據(jù)用戶想要執(zhí)行的任務(wù),在給定的實(shí)體集合中,找出與當(dāng)前用戶查詢相關(guān)的實(shí)體。

這個(gè)任務(wù)被構(gòu)造成一個(gè)針對(duì)大型語言模型的選擇題,期望從用戶屏幕展示的實(shí)體中選擇一個(gè)或多個(gè)選項(xiàng)作為答案。當(dāng)然,在某些情況下,答案可能是“都不是”。

事實(shí)上,研究論文將任務(wù)涉及的實(shí)體分為三類:

1. 屏幕實(shí)體:是指當(dāng)前在用戶界面上可見的實(shí)體。

2. 對(duì)話實(shí)體:與對(duì)話內(nèi)容相關(guān)的實(shí)體,可能來自用戶的上一輪發(fā)言(如用戶提到“呼叫媽媽”,則聯(lián)系人列表中“媽媽”的條目就是相關(guān)實(shí)體),也可能由虛擬助手在對(duì)話中提供(如供用戶選擇的地點(diǎn)列表)。

3. 背景實(shí)體:源于后臺(tái)進(jìn)程,不一定直接體現(xiàn)在用戶屏幕顯示或與虛擬助手互動(dòng)中的相關(guān)實(shí)體,例如預(yù)設(shè)會(huì)響起的鬧鐘或正在后臺(tái)播放的音樂。

至于用于訓(xùn)練和測(cè)試ReALM的數(shù)據(jù)集,由合成數(shù)據(jù)和人工標(biāo)注的數(shù)據(jù)組成,同樣可劃分為三類:

其一,對(duì)話數(shù)據(jù)集:包含了與用戶與代理交互相關(guān)的實(shí)體的數(shù)據(jù)點(diǎn)。這些數(shù)據(jù)通過讓評(píng)分員查看含有合成實(shí)體列表的截圖,并要求他們提供明確指向列表中任意選定實(shí)體的查詢來收集。

其二,合成數(shù)據(jù)集:采用模板生成法得到數(shù)據(jù),特別是當(dāng)用戶查詢和實(shí)體類型足以確定指代,無需依賴詳細(xì)描述時(shí),這種方法特別有用。合成數(shù)據(jù)集中也可以包含多個(gè)實(shí)體對(duì)應(yīng)同一查詢的情況。

其三,屏幕數(shù)據(jù)集:主要涵蓋了用戶屏幕上當(dāng)前顯示的實(shí)體的數(shù)據(jù),每一條數(shù)據(jù)都包含用戶查詢、實(shí)體列表以及與該查詢對(duì)應(yīng)的正確實(shí)體(或?qū)嶓w集合)。每個(gè)實(shí)體的信息包括實(shí)體類型和其他屬性,如名稱以及其他與實(shí)體相關(guān)的文本細(xì)節(jié)(例如,鬧鐘的標(biāo)簽和時(shí)間)。

對(duì)于含有屏幕相關(guān)上下文的數(shù)據(jù)點(diǎn),上下文信息以實(shí)體的邊界框以及圍繞該實(shí)體的其他對(duì)象列表的形式提供,同時(shí)附帶這些周邊對(duì)象的類型、文本內(nèi)容和位置等屬性信息。整個(gè)數(shù)據(jù)集的大小根據(jù)類別分為訓(xùn)練集和測(cè)試集,并且各具一定規(guī)模。

四、結(jié)果:最小的模型也取得了5%的性能提升

在基準(zhǔn)測(cè)試中,蘋果公司將自家系統(tǒng)與GPT 3.5和GPT 4.0進(jìn)行了比較。ReALM模型在解決不同類型的指代解析任務(wù)方面表現(xiàn)出卓越的競(jìng)爭(zhēng)力。

讓Siri不再智障!蘋果定義新的端側(cè)模型,“大大優(yōu)于GPT-4,擺脫文本,可視化模擬屏幕信息,最小參數(shù)模型相-AI.x社區(qū)圖片

根據(jù)論文所述,即便是ReALM中參數(shù)最少的版本,相較于基線系統(tǒng)也實(shí)現(xiàn)了超過5%的性能提升。而在更大的模型版本上,ReALM則明顯勝過GPT-4。特別是在處理屏幕上顯示的實(shí)體時(shí),隨著模型規(guī)模的增加,ReALM在屏幕數(shù)據(jù)集上的性能提升更為顯著。

另外,ReALM模型在全新領(lǐng)域的零樣本學(xué)習(xí)場(chǎng)景上,其性能與GPT-4相當(dāng)接近。而在處理特定領(lǐng)域的查詢時(shí),由于經(jīng)過用戶請(qǐng)求的微調(diào),ReALM模型比GPT-4表現(xiàn)得更加精準(zhǔn)。

比如,對(duì)于要求調(diào)整亮度這樣的用戶請(qǐng)求,GPT-4僅將該請(qǐng)求關(guān)聯(lián)到設(shè)置,而忽略了背景中存在的智能家居設(shè)備也是相關(guān)實(shí)體,而ReALM因?yàn)榻邮芰祟I(lǐng)域特有數(shù)據(jù)的訓(xùn)練,能夠更好地理解并正確解析此類特定領(lǐng)域內(nèi)的指代問題。

“我們證明了ReaLM超越了以往的方法,并且盡管參數(shù)數(shù)量遠(yuǎn)少于當(dāng)前最先進(jìn)的LLM——GPT-4,即使在純粹基于文本領(lǐng)域處理屏幕內(nèi)引用時(shí),ReaLM也能達(dá)到與其相當(dāng)?shù)谋憩F(xiàn)水平。此外,對(duì)于特定領(lǐng)域的用戶話語,ReaLM的表現(xiàn)還優(yōu)于GPT-4,因此,ReaLM可以說是在保證性能不打折扣的同時(shí),適用于開發(fā)面向?qū)嶋H應(yīng)用環(huán)境、可在設(shè)備本地高效運(yùn)行的指代解析系統(tǒng)的首選方案?!?   

此外,研究人員還表示,在資源有限、需要低延遲響應(yīng)或者涉及多階段集成如API調(diào)用等實(shí)際應(yīng)用場(chǎng)景中,單一的大型端到端模型往往并不適用。

在這種背景下,模塊化設(shè)計(jì)的ReALM系統(tǒng)更具有優(yōu)勢(shì),允許在不影響整體架構(gòu)的情況下,輕松替換和升級(jí)原有的指代解析模塊,同時(shí)提供更好的優(yōu)化潛力和可解釋性。

面向未來,研究方向則指向了更為復(fù)雜的方法,比如將屏幕區(qū)域劃分為網(wǎng)格并以文本形式編碼空間相對(duì)位置,雖然頗具挑戰(zhàn)性,但這是一種有前景的探索途徑。

五、寫在最后

在人工智能領(lǐng)域,蘋果雖然一直比較謹(jǐn)慎,但也在默默投入。無論是多模態(tài)大模型MM1,還是AI驅(qū)動(dòng)的動(dòng)畫生成工具Keyframer,再到如今的ReALM,蘋果的研究團(tuán)隊(duì)一直在持續(xù)實(shí)現(xiàn)著技術(shù)突破。

圍觀谷歌、微軟、亞馬遜等競(jìng)爭(zhēng)對(duì)手,紛紛在搜索、云服務(wù)、辦公軟件上加碼AI,秀了一波又一波肌肉。蘋果顯然正努力不落人后。隨著生成式AI落地成果不斷涌現(xiàn),蘋果更是加快了追趕的步伐。早有知情人士透露,在6月舉辦的全球開發(fā)者大會(huì)上,蘋果將聚焦于人工智能領(lǐng)域,新的人工智能戰(zhàn)略極有可能成為iOS 18升級(jí)的核心內(nèi)容。屆時(shí),說不定會(huì)給諸君帶來驚喜。

參考鏈接:

??https://apple.slashdot.org/story/24/04/01/1959205/apple-ai-researchers-boast-useful-on-device-model-that-substantially-outperforms-gpt-4??

??https://arxiv.org/pdf/2403.20329.pdf??

本文轉(zhuǎn)載自???51CTO技術(shù)棧??,作者:?

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦