自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

就算戴上口罩,AI也知道你在說啥

人工智能
現(xiàn)在,檢測(cè)面部肌肉變化的AI來了,只要你動(dòng)了嘴,哪怕沒出聲,它也能知道你在說什么。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

吃飯的時(shí)候,想要和對(duì)面聊聊天,然而周遭嘈雜的聲音,讓你根本不知道ta在說什么?

又或者,想與聽障人士交流,然而對(duì)方聽不見你的聲音?

現(xiàn)在,檢測(cè)面部肌肉變化的AI來了,只要你動(dòng)了嘴,哪怕沒出聲,它也能知道你在說什么。

這是EMNLP 2020的最佳論文,來自UC伯克利的兩位作者,用AI和電極做了個(gè)“沉默語(yǔ)音”的檢測(cè)模型,可以檢測(cè)到你想說、但沒說出聲的話。

就算戴上口罩,AI也知道你在說啥丨EMNLP2020最佳論文

其中的原理究竟是什么,我們來一探究竟。

用電極收集你小聲嗶嗶的證據(jù)

“無(wú)聲語(yǔ)音”的本質(zhì),是人在說話時(shí)面部、頸部肌肉的變化。

說白了,你在對(duì)口型時(shí)雖然沒有出聲,但你的臉和脖子“出賣”了你。

而能夠檢測(cè)“無(wú)聲語(yǔ)音”的AI,也正是這么被做出來的。

在收集數(shù)據(jù)時(shí),研究者會(huì)先在實(shí)驗(yàn)者的臉上等部位貼8個(gè)貼片,每個(gè)貼片都是一個(gè)“監(jiān)視肌肉變化”的傳感器,像這樣:

[[354515]]

在這之后,需要錄制一段實(shí)驗(yàn)者的有聲語(yǔ)音,并與肌電圖進(jìn)行對(duì)應(yīng),如下圖(會(huì)錄制兩種語(yǔ)音數(shù)據(jù),一種每句話4個(gè)詞左右,另一種每句話16個(gè)詞左右):

就算戴上口罩,AI也知道你在說啥丨EMNLP2020最佳論文

這種方法能夠?qū)⒓∪獾淖兓闆r、和語(yǔ)音的類型對(duì)應(yīng)起來。

在記錄數(shù)據(jù)的過程中,還要再錄制一段“對(duì)口型”的肌電圖,但不需要發(fā)聲,也就是“沉默語(yǔ)音”。

就算戴上口罩,AI也知道你在說啥丨EMNLP2020最佳論文

之所以要收集兩份肌電圖,是因?yàn)槿嗽跓o(wú)聲說話時(shí),肌肉的變化與發(fā)聲說話時(shí)的變化有些區(qū)別,例如部分發(fā)音部位的肌肉震顫幅度會(huì)變小,語(yǔ)速也有所變化。

但如果要在無(wú)聲環(huán)境下,根據(jù)肌肉變化識(shí)別出想說的語(yǔ)音,就只能用對(duì)口型時(shí)的無(wú)聲肌電圖

顯然,這些原因使得AI的訓(xùn)練變得非常困難。

為了盡可能將識(shí)別準(zhǔn)確率放大,研究人員額外采用了一種結(jié)構(gòu)來降低模型損失。

就算戴上口罩,AI也知道你在說啥丨EMNLP2020最佳論文

不到20小時(shí)的語(yǔ)音集,效果還不錯(cuò)

那么,經(jīng)由這種方法訓(xùn)練出來的模型,效果怎么樣?

研究人員分別在封閉詞集 (Closed Vocabulary Condition)和開放詞集 (Open Vocabulary Condition)上,對(duì)這種模型進(jìn)行了測(cè)試。

其中,封閉詞集主要指介詞、限定詞、連詞等詞匯(如of、and),這種詞匯集合少,容易訓(xùn)練,AI也容易形成“肌肉記憶”。

就算戴上口罩,AI也知道你在說啥丨EMNLP2020最佳論文

而開放詞集的范圍,就要廣泛得多了,包含名詞、形容詞等等詞匯,目前的詞語(yǔ)可以說是不計(jì)其數(shù),想要讓AI會(huì)認(rèn)這些詞匯,難度就要高得多。

判定的方式,是WER,具體的計(jì)算方式是這樣的(原理類似于計(jì)算原句的出錯(cuò)率):

就算戴上口罩,AI也知道你在說啥丨EMNLP2020最佳論文

目前,這個(gè)AI在封閉詞集上的訓(xùn)練水平已經(jīng)達(dá)到了3.6%的WER(越小越好):

就算戴上口罩,AI也知道你在說啥丨EMNLP2020最佳論文

至于開放詞集的檢測(cè),AI經(jīng)過訓(xùn)練后,WER也從高達(dá)88%的水平下降到了68%。

就算戴上口罩,AI也知道你在說啥丨EMNLP2020最佳論文

雖然在開放詞集上的檢測(cè),看起來效果并不完美,但別忘了,這個(gè)模型所用的數(shù)據(jù)集并不大。

封閉檢測(cè)數(shù)據(jù)集,一共只有不到1小時(shí)的語(yǔ)音數(shù)據(jù);開放檢測(cè)數(shù)據(jù)集,也只有18.6個(gè)小時(shí)的語(yǔ)音集。

而且,這些語(yǔ)音集還是無(wú)聲、有聲數(shù)據(jù)的合集。

就算戴上口罩,AI也知道你在說啥丨EMNLP2020最佳論文

不到20個(gè)小時(shí)的語(yǔ)音數(shù)據(jù),訓(xùn)練效果就已經(jīng)達(dá)到了這種水平。

如果能獲得更大的數(shù)據(jù)樣本,模型的效果還會(huì)進(jìn)一步提升。

作者介紹

[[354518]]

一作David Gaddy,來自UC伯克利的NLP組。平時(shí)的研究方向是無(wú)監(jiān)督學(xué)習(xí)、語(yǔ)法分析和無(wú)聲演講。

[[354519]]

Daniel Klein,一作的導(dǎo)師,研究方向主要是無(wú)監(jiān)督學(xué)習(xí)、語(yǔ)法分析、信息提取和機(jī)器翻譯。

One More Thing

這屆EMNLP的各種NLP研究,簡(jiǎn)直不留活路:

來自北京中科院、北京信息工程學(xué)院的研究者,還發(fā)明了一種諷刺檢測(cè)模型。

這種AI模型會(huì)通過同時(shí)檢測(cè)文本和圖像,進(jìn)行多模態(tài)語(yǔ)義理解,從而檢測(cè)出一個(gè)人在社交媒體上發(fā)出的動(dòng)態(tài),是否有諷刺的意思。

就像這句話:“這可真是場(chǎng)座無(wú)虛席的比賽,而且我們居然還搶到了位置。”

表面上,這是句再正常不過的話,然而在配上圖片后,畫風(fēng)頓時(shí)變得詭異了起來:

[[354520]]

又例如這句話:“看起來就好吃極了。”

然而當(dāng)看到散落在盒子邊緣的芝士和餡料時(shí),顯然這又是一句充滿諷刺意味的語(yǔ)句。

[[354521]]

現(xiàn)在,這些語(yǔ)義信息都已經(jīng)被拿來喂給了AI,并訓(xùn)練出了一個(gè)“懂得聽諷刺話”的模型。

就算戴上口罩,AI也知道你在說啥丨EMNLP2020最佳論文

目前這個(gè)模型,已經(jīng)在推特這樣的社交媒體上進(jìn)行了驗(yàn)證,取得了84.33%的好效果。

看了這個(gè)AI模型,你還敢偷偷說老板壞話嗎?

論文地址:
https://arxiv.org/abs/2010.02960

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-02-20 10:56:30

人工智能人臉識(shí)別

2020-02-22 08:02:07

春節(jié)疫情防控口罩

2021-03-17 14:15:24

人臉識(shí)別人工智能AI

2021-11-03 07:58:27

異步編程線程

2022-04-19 15:33:53

數(shù)據(jù)模型

2020-06-07 15:43:40

人工智能面部識(shí)別技術(shù)

2019-10-23 19:30:23

AI 數(shù)據(jù)人工智能

2021-08-09 14:47:44

微信表情移動(dòng)應(yīng)用

2021-08-27 10:35:50

蘋果 iOS系統(tǒng)

2020-03-10 17:34:57

天貓精靈

2021-08-06 21:16:08

人臉識(shí)別AI人工智能

2020-09-08 17:47:36

人工智能自然語(yǔ)言處理

2022-05-09 07:49:47

PulsarJava問題排查

2021-10-19 09:21:08

AI人類工具

2024-06-14 08:36:57

2020-09-07 06:59:44

Kafka分布式場(chǎng)景

2017-12-11 17:08:01

VR

2020-11-25 20:21:13

微信安全支付移動(dòng)應(yīng)用

2021-05-09 22:53:04

人工智能數(shù)據(jù)技術(shù)

2024-06-04 16:51:11

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)