自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

蘋果再發(fā)多模態(tài)論文!陪我們走過十年的“Hey Siri”會被更智能的交互方式取代嗎?

原創(chuàng) 精選
人工智能
蘋果團隊最新出爐的論文《利用大型語言模型進行設(shè)備指向性語音檢測的多模態(tài)方法》,集中于這一問題的研究:不使用“Hey Siri”這樣的特定短語觸發(fā)智能語音助手,可行嗎?

編輯 | 伊風

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

全面發(fā)力AI的蘋果,再出新研究!

隨著人工智能技術(shù)的發(fā)展,我們熟悉的“Hey Siri”或?qū)⒊蔀闅v史。

蘋果團隊最新出爐的論文《利用大型語言模型進行設(shè)備指向性語音檢測的多模態(tài)方法》,集中于這一問題的研究:不使用“Hey Siri”這樣的特定短語觸發(fā)智能語音助手,可行嗎?

結(jié)果是:有希望。蘋果推出的多模態(tài)系統(tǒng)在設(shè)備指向性語音檢測任務(wù)上的錯誤率比單一模態(tài)(文本或音頻)的模型要低,分別降低了最多39%和61%。并指出,未來將在音頻字幕和聲學場景分類等領(lǐng)域發(fā)力,提供更好的虛擬助手交互體驗。

現(xiàn)在,人們與GPT、Kimi的聊天愈發(fā)輕松。相較而言,與Siri、智能音箱等語音助手的交互還比較機械,它們好像也經(jīng)?!癵et”不到我們的意思。

這一次的AI賦能,或許到了語音助手們的show time了。

1.蘋果的論文說了什么?

與虛擬助手的交互通常以一個預(yù)定義的觸發(fā)短語開始(Hey Siri),然后才是用戶的命令內(nèi)容。

為了使與助手的交互更加直接自然,放棄觸發(fā)短語直接開始交互是一種優(yōu)化思路。為了驗證這個思路的可行性,研究人員使用智能手機捕獲的語音以及背景噪音的聲學數(shù)據(jù)訓(xùn)練了一個大型語言模型。

研究人員寫道,該模型部分建立在一個版本的OpenAI的GPT-2之上,“因為它相對輕量級,有可能在智能手機等設(shè)備上運行”。

論文描述了用于訓(xùn)練模型的超過129小時的數(shù)據(jù)和額外的文本數(shù)據(jù),但沒有指定進入訓(xùn)練集的錄音來源。

這項研究嘗試利用非文本信號來增強 LLM,以解決在真實生活場景中,背景噪聲和語音重疊帶來的識別問題。在文本信息之外,這項研究使用了各種多模態(tài)信息,包括從預(yù)訓(xùn)練音頻編碼器中獲得的聲學特征,以及 1-best 假設(shè)和語句級解碼器信號,來自 ASR 系統(tǒng)的聲學成本和圖形成本。

通過對所有模態(tài)進行聯(lián)合學習,對系統(tǒng)進行微調(diào),設(shè)備可以更加聰明地決定是不是要啟動“Siri”(見下圖 )。

圖片圖片

研究表明,蘋果提出的新模型能夠比僅使用音頻或文本的模型做出更準確的預(yù)測,并且隨著模型規(guī)模的增大而進一步提高。除了探索研究問題之外,目前尚不清楚蘋果是否計劃取消“Hey Siri”觸發(fā)短語。

這項研究已上傳至Arxiv(但尚未經(jīng)過同行評審,想要閱讀完整論文的朋友可以移步:https://ieeexplore.ieee.org/document/10446224)。

2.六位蘋果作者,一半來自Siri

七位作者中有六位隸屬于蘋果公司,其中三位在Siri團隊中工作。

圖片圖片

Siddharth Sigtia在蘋果的Siri團隊擔任高級科學家,從事聲學建模。

圖片圖片

Panayiotis Georgiou在Siri團隊擔任機器學習工程師,研究重點是人類交流分析、行為信號處理、語音處理(包括語音識別、去噪、語音活動檢測)以及機器學習(重點是深度神經(jīng)網(wǎng)絡(luò))。在入職蘋果之前,他曾在高校供職多年,擁有非常深厚的學術(shù)背景。圖片圖片Matt Mirsamadi同樣是Siri團隊的機器學習工程師,博士期間的兩段實習經(jīng)歷都在微軟。圖片

3.新技術(shù)的另一面:無觸發(fā)語意味著全程監(jiān)聽嗎?

2014 年,蘋果推出了 "Hey Siri "功能,用戶從此不必在按下按鈕,只使用語音即可完成交互。

十年過去了,人們還記得Siri誕生之初,人們對虛擬助手的空前期待。谷歌內(nèi)部也曾認為Siri的交互方式將對自家的搜索業(yè)務(wù)產(chǎn)生災(zāi)難性的沖擊。

然而,Siri的進化遠不及想象。如何在技術(shù)與隱私保護間取得平衡,是蘋果長期以來的難題。

Siri處理音頻數(shù)據(jù)的方式曾受到多番爭議。2019年,《衛(wèi)報》報道揭示,蘋果的質(zhì)量控制承包商在處理Siri數(shù)據(jù)時經(jīng)常聽到從iPhone收集的私人音頻,包括醫(yī)生和患者之間的敏感對話。兩年后,蘋果以政策變化作出回應(yīng),包括在設(shè)備上存儲更多數(shù)據(jù),并允許用戶選擇不讓他們的錄音用于改進Siri。2021年,加利福尼亞州一起集體訴訟指控Siri即使在未激活時也被打開。

"Hey Siri "的工作方式使得Siri可以聽取盡量少的音頻,直到聽到觸發(fā)短語才開始錄音或準備回答用戶的問題。斯坦福大學人類中心人工智能研究所的隱私和數(shù)據(jù)政策研究員Jen King表示,消除“Hey Siri”提示可能會增加人們對我們的設(shè)備“始終在監(jiān)聽”的擔憂。

除了用戶隱私的限制外,蘋果的管理不力也是在AI上落隊的原因。據(jù)報道, Siri 團隊在 2018 年處于 "混亂狀態(tài)",其開發(fā)因管理層在技術(shù)開發(fā)方向上的內(nèi)訌而受到影響。而其設(shè)計團隊又堅持要求Siri能提供“近乎完美的答案”,而放棄了當時還不算成熟的AI生成方式,就這樣與風口失之交臂。

放棄造車后,蘋果必須全力在AI賽道上奔跑,以挽回年初以來持續(xù)呈現(xiàn)頹勢的股價和投資者對未來發(fā)展的信心。Siri無疑是絕佳的入口,在AI的加持下進化,全面落地于蘋果生態(tài),給用戶帶來新的智能交互體驗。

現(xiàn)在,沒有時間仔細“打磨”大模型的蘋果,已經(jīng)與谷歌、百度等國內(nèi)外多家科技巨頭洽談并尋找合作的可能。

蘋果這位“實用主義”的科技明星,在全力追趕AI后,能重奪王冠嗎?

參考鏈接:

1.https://www.technologyreview.com/2024/03/22/1090090/apple-researchers-explore-dropping-siri-phrase-amp-listening-with-ai-instead/

2.https://blog.routinehub.co/the-history-of-siri-and-its-impact-on-todays-technology/

3.https://the-decoder.com/apple-struggles-with-ai-and-siri-report/

責任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2017-03-09 20:15:20

人工智能深度學習機器學習

2019-12-13 16:08:57

戴爾

2018-08-03 09:00:36

人工智能機器人大數(shù)據(jù)

2023-03-27 23:40:01

人工智能web開發(fā)一

2021-12-30 14:37:23

人工智能AI

2019-02-26 13:53:07

PythonJava編程語言

2013-06-08 13:52:29

蘋果WWDC2013

2014-04-14 10:25:31

亞馬遜

2018-11-15 14:29:15

蘋果iPhone中國

2012-06-19 09:50:16

2021-01-12 06:13:23

AI人工智能機器人

2019-10-09 13:17:49

智能手機舊手機系統(tǒng)

2015-02-09 19:49:19

暢捷通

2011-10-28 16:13:24

Office 2003比爾蓋茨

2020-04-07 21:13:05

智能建筑傳感器物聯(lián)網(wǎng)

2011-06-16 09:34:54

Mac OS十年

2019-11-12 15:21:01

蘋果VRAR

2009-04-13 15:29:49

COBOL編程語言商業(yè)語言

2015-09-15 14:22:57

移動·開發(fā)技術(shù)周刊

2019-12-22 13:45:44

蘋果喬布斯庫克
點贊
收藏

51CTO技術(shù)棧公眾號