自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

蘋果AI放大招?新設(shè)備端模型超過GPT-4,有望拯救Siri

人工智能
具體來說,蘋果研究的是 NLP 中的指代消解(Reference Resolution)問題,即讓 AI 識別文本中提到的各種實體(如人名、地點、組織等)之間的指代關(guān)系的過程。

在最近的一篇論文中,蘋果的研究人員宣稱,他們提出了一個可以在設(shè)備端運行的模型,這個模型在某些方面可以超過 GPT-4。

具體來說,他們研究的是 NLP 中的指代消解(Reference Resolution)問題,即讓 AI 識別文本中提到的各種實體(如人名、地點、組織等)之間的指代關(guān)系的過程。簡而言之,它涉及到確定一個詞或短語所指的具體對象。這個過程對于理解句子的意思至關(guān)重要,因為人們在交流時經(jīng)常使用代詞或其他指示詞(如「他」、「那里」)來指代之前提到的名詞或名詞短語,避免重復(fù)。

不過,論文中提到的「實體」更多得與手機(jī)、平板電腦等設(shè)備有關(guān),包括:

  • 屏幕實體(On-screen Entities):用戶在與設(shè)備交互時,屏幕上顯示的實體或信息。
  • 對話實體(Conversational Entities):與對話相關(guān)的實體。這些實體可能來自用戶之前的發(fā)言(例如,當(dāng)用戶說「給媽媽打電話」時,「媽媽」的聯(lián)系方式就是相關(guān)的實體),或者來自虛擬助手(例如,當(dāng)助手為用戶提供一系列地點或鬧鐘供選擇時)。
  • 后臺實體(Background Entities):這些是與用戶當(dāng)前與設(shè)備交互的上下文相關(guān)的實體,但不一定是用戶直接與虛擬助手互動產(chǎn)生的對話歷史的一部分;例如,開始響起的鬧鐘或在背景中播放的音樂。

蘋果的研究在論文中表示,盡管大型語言模型(LLM)已經(jīng)證明在多種任務(wù)上具有極強(qiáng)的能力,但在用于解決非對話實體(如屏幕實體、后臺實體)的指代問題時,它們的潛力還沒有得到充分利用。

在論文中,蘋果的研究者提出了一種新的方法 —— 使用已解析的實體及其位置來重建屏幕,并生成一個純文本的屏幕表示,這個表示在視覺上代表了屏幕內(nèi)容。然后,他們對屏幕中作為實體的部分進(jìn)行標(biāo)記,這樣模型就有了實體出現(xiàn)位置的上下文,以及圍繞它們的文本是什么的信息(例如:呼叫業(yè)務(wù)號碼)。據(jù)作者所知,這是第一個使用大型語言模型對屏幕上下文進(jìn)行編碼的工作。

具體來說,他們提出的模型名叫 ReALM,參數(shù)量分別為 80M、250M、1B 和 3B,體積都非常小,適合在手機(jī)、平板電腦等設(shè)備端運行。

研究結(jié)果顯示,相比于具有類似功能的現(xiàn)有系統(tǒng),該系統(tǒng)在不同類型的指代上取得了大幅度的改進(jìn),其中最小的模型在處理屏幕上的指代時獲得了超過 5% 的絕對增益。

此外,論文還將其性能與 GPT-3.5 和 GPT-4 進(jìn)行了對比,結(jié)果顯示最小模型的性能與 GPT-4 相當(dāng),而更大的模型則顯著超過了 GPT-4。這表明通過將指代消解問題轉(zhuǎn)換為語言建模問題,可以有效利用大型語言模型解決涉及多種類型指代的問題,包括那些傳統(tǒng)上難以僅用文本處理的非對話實體指代。

這項研究有望用來改進(jìn)蘋果設(shè)備上的 Siri 智能助手,幫助 Siri 更好地理解和處理用戶詢問中的上下文,尤其是涉及屏幕上內(nèi)容或后臺應(yīng)用的復(fù)雜指代,在在線搜索、操作應(yīng)用、讀取通知或與智能家居設(shè)備交互時都更加智能。

蘋果將于太平洋時間 2024 年 6 月 10 日至 14 日在線舉辦全球開發(fā)者大會「WWDC 2024」,并推出全面的人工智能戰(zhàn)略。有人預(yù)計,上述改變可能會出現(xiàn)在即將到來的 iOS 18 和 macOS 15 中,這將代表用戶與 Apple 設(shè)備之間交互的重大進(jìn)步。

論文介紹

論文地址:https://arxiv.org/pdf/2403.20329.pdf

論文標(biāo)題:ReALM: Reference Resolution As Language Modeling

本文任務(wù)制定如下:給定相關(guān)實體和用戶想要執(zhí)行的任務(wù),研究者希望提取出與當(dāng)前用戶查詢相關(guān)的實體(或多個實體)。相關(guān)實體有 3 種不同類型:屏幕實體、對話實體以及后臺實體(具體內(nèi)容如上文所述)。

在數(shù)據(jù)集方面,本文采用的數(shù)據(jù)集包含綜合創(chuàng)建的數(shù)據(jù)或在注釋器的幫助下創(chuàng)建的數(shù)據(jù)。數(shù)據(jù)集的信息如表 2 所示。

其中,對話數(shù)據(jù)是用戶與智能體交互相關(guān)的實體數(shù)據(jù);合成數(shù)據(jù)顧名思義就是根據(jù)模板合成的數(shù)據(jù);屏幕數(shù)據(jù)(如下圖所示)是從各種網(wǎng)頁上收集的數(shù)據(jù),包括電話號碼、電子郵件等。

模型

研究團(tuán)隊將 ReALM 模型與兩種基線方法進(jìn)行了比較:MARRS(不基于 LLM)、ChatGPT。

該研究使用以下 pipeline 來微調(diào) LLM(FLAN-T5 模型):首先向模型提供解析后的輸入,并對其進(jìn)行微調(diào)。請注意,與基線方法不同,ReALM 不會在 FLAN-T5 模型上運行廣泛的超參數(shù)搜索,而是使用默認(rèn)的微調(diào)參數(shù)。對于由用戶查詢和相應(yīng)實體組成的每個數(shù)據(jù)點,研究團(tuán)隊將其轉(zhuǎn)換為句子格式,然后將其提供給 LLM 進(jìn)行訓(xùn)練。

1.會話指代

在這項研究中,研究團(tuán)隊假設(shè)會話指代有兩種類型:

  • 基于類型的;
  • 描述性的。

基于類型的指代嚴(yán)重依賴于將用戶查詢與實體類型結(jié)合使用來識別(一組實體中)哪個實體與所討論的用戶查詢最相關(guān):例如,用戶說「play this」,我們知道「this」指的是歌曲或電影等實體,而不是電話號碼或地址;「call him」則指的是電話號碼或聯(lián)系人,而不是鬧鐘。

描述性指代傾向于使用實體的屬性來唯一地標(biāo)識它:例如「時代廣場的那個」,這種指代可能有助于唯一地指代一組中的一個。

請注意,通常情況下,指代可能同時依賴類型和描述來明確指代單個對象。蘋果的研究團(tuán)隊簡單地對實體的類型和各種屬性進(jìn)行了編碼。

2.屏幕指代

對于屏幕指代,研究團(tuán)隊假設(shè)存在能夠解析屏幕文本以提取實體的上游數(shù)據(jù)檢測器。然后,這些實體及其類型、邊界框以及圍繞相關(guān)實體的非實體文本元素列表都可用。為了以僅涉及文本的方式將這些實體(以及屏幕的相關(guān)部分)編碼到 LM 中,該研究采用了算法 2。

直觀地講,該研究假設(shè)所有實體及其周圍對象的位置由它們各自的邊界框的中心來表示,然后從上到下(即垂直、沿 y 軸)對這些中心(以及相關(guān)對象)進(jìn)行排序,并從左到右(即水平、沿 x 軸)使用穩(wěn)定排序。所有位于邊緣(margin)內(nèi)的對象都被視為在同一行上,并通過制表符將彼此分隔開;邊緣之外更下方的對象被放置在下一行,這個過程重復(fù)進(jìn)行,有效地從左到右、從上到下以純文本的方式對屏幕進(jìn)行編碼。

實驗

表 3 為實驗結(jié)果:本文方法在所有類型的數(shù)據(jù)集中都優(yōu)于 MARRS 模型。此外,研究者還發(fā)現(xiàn)該方法優(yōu)于 GPT-3.5,盡管后者的參數(shù)數(shù)量比 ReALM 模型多出幾個數(shù)量級。

在與 GPT-4 進(jìn)行對比時,盡管 ReALM 更簡潔,但其性能與最新的 GPT-4 大致相同。此外,本文特別強(qiáng)調(diào)了模型在屏幕數(shù)據(jù)集上的收益,并發(fā)現(xiàn)采用文本編碼的模型幾乎能夠與 GPT-4 一樣執(zhí)行任務(wù),盡管后者提供了屏幕截圖(screenshots)。最后,研究者還嘗試了不同尺寸的模型。

分析

GPT-4 ≈ ReaLM ? MARRS 用于新用例。作為案例研究,本文探討了模型在未見過領(lǐng)域上的零樣本性能:Alarms(附錄表 11 中顯示了一個樣本數(shù)據(jù)點)。

表 3 結(jié)果表明,所有基于 LLM 的方法都優(yōu)于 FT 模型。本文還發(fā)現(xiàn) ReaLM 和 GPT-4 在未見過領(lǐng)域上的性能非常相似。

ReaLM > GPT-4 用于特定領(lǐng)域的查詢。由于對用戶請求進(jìn)行了微調(diào),ReaLM 能夠理解更多特定于領(lǐng)域的問題。例如表 4 對于用戶請求,GPT-4 錯誤地假設(shè)指代僅與設(shè)置有關(guān),而真實情況也包含后臺的家庭自動化設(shè)備,并且 GPT-4 缺乏識別領(lǐng)域知識的能力。相比之下,ReaLM 由于接受了特定領(lǐng)域數(shù)據(jù)的訓(xùn)練,因此不會出現(xiàn)這種情況。

責(zé)任編輯:趙寧寧 來源: 機(jī)器之心
相關(guān)推薦

2024-04-02 07:27:38

ReALM人工智能iOS 18

2023-06-08 11:27:10

模型AI

2023-05-13 08:59:55

2024-04-25 16:56:14

GPT-4大模型人工智能

2024-04-03 13:17:51

AI數(shù)據(jù)

2023-06-19 08:19:50

2023-12-26 08:17:23

微軟GPT-4

2023-07-05 15:02:51

2023-03-30 11:08:49

AI模型訓(xùn)練

2025-04-16 09:35:03

2023-04-09 16:17:05

ChatGPT人工智能

2023-05-29 09:29:52

GPT-4語言模型

2024-06-17 18:04:38

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2024-12-25 20:01:13

2023-11-13 19:35:12

訓(xùn)練數(shù)據(jù)

2023-08-15 15:03:00

AI工具

2023-09-02 11:24:02

模型研究

2024-06-11 14:47:23

2024-04-02 15:01:53

GPT-4人工智能Keyframer
點贊
收藏

51CTO技術(shù)棧公眾號