自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌DeepMind AI再次完爆人類 讀唇語正確率勝專家

企業(yè)動(dòng)態(tài)
人工智能正在進(jìn)軍唇語解讀陣地。谷歌DeepMind和牛津大學(xué)應(yīng)用深度學(xué)習(xí)實(shí)驗(yàn)室的一個(gè)項(xiàng)目正利用BBC的大量節(jié)目數(shù)據(jù),創(chuàng)造唇語解讀系統(tǒng),把人類專家遠(yuǎn)遠(yuǎn)地甩在身后。

[[177778]]

作者| Hal Hodson

策劃 | Aileen 魏子敏

編譯 | 姜范波 Molly

【導(dǎo)語】人工智能正在進(jìn)軍唇語解讀陣地。谷歌DeepMind和牛津大學(xué)應(yīng)用深度學(xué)習(xí)實(shí)驗(yàn)室的一個(gè)項(xiàng)目正利用BBC的大量節(jié)目數(shù)據(jù),創(chuàng)造唇語解讀系統(tǒng),把人類專家遠(yuǎn)遠(yuǎn)地甩在身后。

這套系統(tǒng)的訓(xùn)練材料包括約5000小時(shí)、6個(gè)不同的電視節(jié)目,如Newslight,BBC Breakfast 和Question Time??傮w而言,視頻包含了118,000個(gè)句子。

牛津大學(xué)和DeepMind的研究人員用2010年1月至2015年12月播出的節(jié)目訓(xùn)練了這套系統(tǒng),并用2016年3月至9月的節(jié)目來做測(cè)試。

這里是一段沒有字幕的剪輯↓↓

[[177779]]

同樣一段剪輯,但是人工智能系統(tǒng)已經(jīng)給出了字幕↓↓

人工智能制勝之道

對(duì)數(shù)據(jù)集中隨機(jī)選擇的200個(gè)片段,在唇語解讀這件事上,人工智能完勝人類專家。

在測(cè)試數(shù)據(jù)集上,人類專家無錯(cuò)誤注釋的字?jǐn)?shù)僅有12.4%,而人工智能達(dá)到46.8%。同時(shí),它犯的許多錯(cuò)誤是很小的缺省,如少了一個(gè)詞尾的“s”。這樣的成績(jī),也完勝其它的自動(dòng)唇語解讀系統(tǒng)。

“這是邁向全自動(dòng)唇語解讀系統(tǒng)的一大步。”芬蘭奧盧大學(xué)的周子恒(音譯)說:“沒有那個(gè)巨大的數(shù)據(jù)集,我們無法檢驗(yàn)像深度學(xué)習(xí)這樣的新技術(shù)。”

兩個(gè)星期前,一個(gè)名為L(zhǎng)ipNet的類似深度學(xué)習(xí)系統(tǒng)——同樣是牛津大學(xué)開發(fā)的——在一個(gè)名為GRID的數(shù)據(jù)集上勝過了人類。但是GRID只包含了由51個(gè)獨(dú)立單詞組成的詞表,而BBC數(shù)據(jù)集包含了近17,500個(gè)獨(dú)立單詞,挑戰(zhàn)要大得多。

另外,BBC數(shù)據(jù)集的語法來自廣泛的真實(shí)人類語言,而GRID的33,000個(gè)句子語法單一,都是同樣的模式,預(yù)測(cè)起來要簡(jiǎn)單得多。

DeepMind向牛津大學(xué)的這個(gè)小組表示,他們將開放BBC數(shù)據(jù)集以供訓(xùn)練用。 來自LipNet的Yannis Assael說,他非常渴望能使用這個(gè)數(shù)據(jù)集。

唇語解讀之路

為了讓BBC數(shù)據(jù)集可供自動(dòng)唇語解讀所用,視頻片段需先用機(jī)器學(xué)習(xí)進(jìn)行處理。問題在于,音頻流和視頻流經(jīng)常有1秒左右的延遲,這使得人工智能幾乎無法在所說的單詞和相應(yīng)的口型之間建立聯(lián)系。

但是,假設(shè)大多數(shù)的視頻和音頻對(duì)應(yīng)完好,一個(gè)計(jì)算機(jī)系統(tǒng)可以學(xué)會(huì)將聲音和口型正確地對(duì)應(yīng)起來?;谶@個(gè)信息,系統(tǒng)找出那些不匹配的的,將它們重新匹配。這樣自動(dòng)處理了所有的5000小時(shí)的視頻和音頻資料后,唇語解讀的挑戰(zhàn)就可以開始了——這個(gè)挑戰(zhàn)對(duì)人工而言,是艱巨的。

在此之前,大家已經(jīng)進(jìn)行了許多相關(guān)的嘗試。他們使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)來從靜止的圖像中預(yù)測(cè)音位(phoneme)和視位(viseme)。這兩個(gè)概念分別是聲音和圖像中可以辨認(rèn)出來的語言的最小單位。然后人們接著嘗試去識(shí)別詞匯及詞組。

大神們使用離散余弦變換(DCT),深度瓶頸特征(DBF)等等手段來進(jìn)行詞匯及詞組的預(yù)測(cè)??偟膩碇v,此前的研究有兩個(gè)方面,其一是使用CTC(Connectionist Temporal Classification),這中方法首先在幀的層次上給出預(yù)測(cè),然后把輸出的字符流按照合適的方式組合起來。這種方法的缺陷是詞匯與詞匯之間是獨(dú)立的。另一個(gè)方向是訓(xùn)練序列-序列模型。這種方式是讀取整個(gè)輸入序列,然后再進(jìn)行預(yù)測(cè)。對(duì)這個(gè)系統(tǒng)幫助***的就是Chan等人的論文《Vinyals. Listen, attend and spell》。論文中提出了一種很精致的聲音到文字的序列-序列方法。

這套唇語識(shí)別系統(tǒng)由一套“看-聽-同步-寫”網(wǎng)絡(luò)組成。它可以在有聲音或沒有聲音的情況下,通過識(shí)別講話人的面部,輸出視頻里面講的句子。在輸出向量Y=(y1,y2,...,yl)中,定義每一個(gè)輸出字符yi都是前面左右字符y<i的條件分布,輸出圖像序列

唇語識(shí)別系統(tǒng)輸出圖像序列

來進(jìn)行唇語識(shí)別,輸入音頻序列

進(jìn)行唇語識(shí)別,輸入音頻序列

進(jìn)行輔助。這樣,模型的輸出的概率分布為

模型的輸出的概率分布

系統(tǒng)由三個(gè)主要部分組成:圖像編碼、音頻編碼和文字解碼。

下圖是系統(tǒng)的示意圖↓↓

唇語識(shí)別系統(tǒng)示意圖

其中,s 為狀態(tài)向量,o為編碼器的輸出。***會(huì)輸出字符序列的概率分布。

唇語識(shí)別系統(tǒng)輸出字符序列的概率分布

這套系統(tǒng)可以應(yīng)用在許多方面,當(dāng)然不包括唇語竊聽:) 。它可以在嘈雜的環(huán)境中,向手機(jī)發(fā)送文字信息,這樣你的siri就可以不必聽你講清楚了。也可以為檔案中無聲的電影進(jìn)行配音。還可以處理同時(shí)有好多人說話的情況。當(dāng)然,它還有很多可以改進(jìn)的空間,比如它的輸入是一個(gè)視頻的完整的唇語動(dòng)作。但是在實(shí)時(shí)的視頻處理中,它只能獲得當(dāng)前所有的唇語動(dòng)作,未來的唇語動(dòng)作顯然是無法獲得的。

接下來的問題是如何應(yīng)用人工智能的唇語解讀新能力。我們不必?fù)?dān)心計(jì)算機(jī)通過解讀唇語來偷聽我們的談話,因?yàn)殚L(zhǎng)距離麥克風(fēng)的偷聽能力在多數(shù)情況下要好得多。

周子恒認(rèn)為,唇語解讀最有可能用在用戶設(shè)備上,幫助它們理解人類想要說的。

Assael 說:“我們相信,機(jī)器唇語解讀器有非常大的應(yīng)用前景,比如改進(jìn)助聽器,公共場(chǎng)所的無聲指令(Siri再也不必聽到你的聲音了),嘈雜環(huán)境下的語音識(shí)別等。”

來源:https://www.newscientist.com/article/2113299-googles-deepmind-ai-can-lip-read-tv-shows-better-than-a-pro/

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】

 

大數(shù)據(jù)文摘二維碼

責(zé)任編輯:趙寧寧 來源: 大數(shù)據(jù)文摘
相關(guān)推薦

2022-07-04 13:43:18

AI游戲人工智能

2024-04-01 07:00:00

模型AI

2019-10-22 15:19:27

AI 數(shù)據(jù)人工智能

2023-03-06 10:15:31

論文谷歌

2025-01-26 09:45:00

2020-06-10 10:32:10

人工智能技術(shù)編輯

2022-03-18 14:45:32

AI谷歌模型

2022-01-10 23:57:36

人工智能語音識(shí)別技術(shù)

2015-10-23 10:59:48

FacebookGoogle

2011-02-24 17:52:22

Watsonibm

2023-09-09 12:56:36

2023-05-30 13:29:25

2023-09-20 12:58:00

訓(xùn)練研究

2024-09-12 12:01:40

2023-05-30 12:50:16

2024-01-07 22:58:56

2020-03-17 09:42:00

谷歌開源機(jī)器學(xué)習(xí)

2021-05-21 06:28:33

AI人工智能

2021-05-21 10:49:52

人工智能數(shù)據(jù)技術(shù)

2022-06-23 11:54:35

AI智能代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)