微軟展示詭異的Silent Voice無聲語音通信技術(shù)
微軟致力于開發(fā)一種新的語音輸入接口,允許用戶在沒有聲音出現(xiàn)的情況下進(jìn)行說話和錄音。該研究由微軟研究院進(jìn)行,并在 ACM CHI 2018 中進(jìn)行了介紹。這種技術(shù)被稱為 SilentVoice 通過錄制呼吸時(shí)發(fā)出的聲音來實(shí)現(xiàn)通信,這種允許類似耳語的聲音就足夠讓麥克風(fēng)錄制語音而不會(huì)打擾周圍的人。此外,該模塊還將過濾周圍的語音,因此即使有外界干擾,用戶也可以捕獲清晰的語音。
SilentVoice 是一種新的語音輸入接口設(shè)備,可以在日常生活中利用基于語音的自然用戶界面(NUI)。
所提出的“漸進(jìn)式語音”方法能夠?qū)Ⅺ溈孙L(fēng)放置在非??拷斓那安慷皇茉肼暤挠绊?,捕獲具有良好S/N比的非常柔和的語音。它實(shí)現(xiàn)了超小(低于 39dB(A))的語音泄漏,允許使用語音輸入,而不會(huì)在公共和移動(dòng)情況以及辦公室和家庭中煩擾周圍的人。(終于不會(huì)打擾到人用 TNT 啦?。?/p>
通過測(cè)量氣流方向,SilentVoice 可以輕松地讓外部聲音與正常話語分離,準(zhǔn)確度達(dá) 98.8%,在語音通信啟動(dòng)前不需要念激活詞。它還可以配合帶有經(jīng)過專門訓(xùn)練的語音識(shí)別器的語音激活系統(tǒng),評(píng)估結(jié)果產(chǎn)生的單詞錯(cuò)誤率(WERs)為 1.8%(說話者依賴條件),7.0%(說話者無條件),包含有 85 個(gè)命令句,這意味著類似耳語的自然語音也可用于實(shí)時(shí)語音通信。
您可以在 ACM CHI 計(jì)算系統(tǒng)會(huì)議上查看完整的演示文稿:https://youtu.be/9EV1mEtVfuM
該技術(shù)仍處于研究階段,但肯定會(huì)幫助那些喜歡使用語音命令但喜歡在不打擾周圍人的情況下工作的人。