揭秘百度聲紋解鎖技術(shù) 讓君子動口不動手
2012年12月,搭載百度云智能操作系統(tǒng)的聯(lián)想A586手機上市,其也是全球首款具有聲紋解鎖功能的智能手機?!洞笤捨饔巍分械?ldquo;芝麻開門”成為現(xiàn)實——手機能夠智能辨識主人的聲音進行解鎖,一根手指頭都不用動。如此炫酷的語音智能控制功能,技術(shù)上是如何實現(xiàn)的?百度工程師將為我們揭秘。
聲紋,每個人的聲音身份證
什么是“聲紋”(Voiceprint)?借用“指紋”去理解也許容易些,反正是每個人獨一無二的。
我們都有這樣的直觀感受,每個人說話,語聲都不一樣。因為人的發(fā)聲器官,包括聲帶、軟顎、舌頭、牙齒、唇等,存在著大小、形態(tài)及功能上的差異。這些差異會導致發(fā)聲氣流的改變,造成音質(zhì)、音色的差別。此外,人發(fā)聲的習慣亦有快有慢,用力有大有小,也造成音強、音長的差別。音高、音強、音長、音色在語言學中被稱為語音“四要素”,這些因素又可分解成九十余種特征。這些特征表現(xiàn)了不同聲音的不同波長、頻率、強度、節(jié)奏。而語圖儀可以把聲波的變化轉(zhuǎn)換成電訊號的強度、波長、頻率、節(jié)奏變化,儀器又把這些電訊號的變化繪制成波譜圖形,就成了聲紋圖。
總體而言,聲紋是用電聲學儀器顯示的攜帶言語信息的聲波頻譜。現(xiàn)代科學研究表明,聲紋不僅具有特定性,而且有相對穩(wěn)定性的特點。成年以后,人的聲音可保持長期相對穩(wěn)定不變。實驗證明,無論講話者是故意模仿他人聲音和語氣,還是耳語輕聲講話,即使模仿得惟妙惟肖,其聲紋卻始終相同。通俗來說,聲紋就是人的聲音的身份證。
百度聲紋解鎖技術(shù)原理:建立聲紋VS聲紋識別
實際上,百度聲紋解鎖的原理也牽涉到兩個階段的應用。第一是聲紋注冊,也就是通過用戶的互動,建立一個語音的身份證;其二,就是聲紋識別,通過既有的聲紋模型與當前的用戶語音對比,看看是不是手機真正的主人。
在聲紋注冊階段,用戶需要對著手機念一段文字或者數(shù)字,當然,為了排除用戶情緒的失控(比如第一次玩聲紋解鎖的哥們、妹妹們),具備百度聲紋解鎖功能的手機會要求用戶重復輸入同樣的語音三次,這有點類似于我們設(shè)定密碼中的兩次輸入。
在聲紋識別階段,用戶只需要輸入注冊時使用的語音,通過手機系統(tǒng)的驗證,就能超酷炫的語音解鎖登錄了。這時,語音解鎖是怎么工作的呢?它對當前用戶的語音(姑且稱之為這個家伙)進行處理,并對數(shù)據(jù)庫中的模型(主人)進行匹配。結(jié)果其實就是兩種:一,如果“這個家伙”=“主人”,放行;二,如果“這個家伙”≠“主人”,就給出提示要求他注冊。
百度聲紋解鎖的絕招:噪音處置算法
大家一定想著,哇,超帥!開機不用手,動動嘴皮就行了。
不過,很多人就想到了,在這個人口爆棚的時代,充滿噪聲的環(huán)境無可避免,聲紋解鎖還能工作嗎?
實際上,這正是百度聲紋解鎖技術(shù)的絕活所在——百度采用了先進的語音端點檢測算法和信噪比估計算法,能夠精確地判斷用戶輸入的語音信息是否有效。
大家知道,即便在嘈雜的環(huán)境中,我們?nèi)祟愡€是有一種超能力的——可以將噪音當做耳邊風,將注意力集中在對方說話的聲音上(尤其是面對辣妹或帥哥時)。但是手機相對偉大的人類來說,這種能力絕不是與生俱來的。當手機用戶說話時,不管是人聲還是背景噪音,手機沒有辦法挑肥揀瘦,只能照單全收。
所以百度的工程師在研發(fā)手機的聲紋解鎖功能時,給它賦予了兩個超級的語音處理能力。第一個是使用語音端點檢測算法,來探測到用戶輸入語音的起始和終止位置,也就是說,哪怕外面吵翻天,但用戶可能一個字都沒有說。這種算法可以精確探測到用戶說話到底說了哪一段,因此分析起語音可以有的放矢。第二個是使用信噪比估計算法,來檢測用戶輸入語音的質(zhì)量是否滿足需求。如果背景噪聲太強,就會提示用戶重新輸入。比如您在汪峰的演唱會現(xiàn)場給手機下指令,這就有點太過了,“這么吵也叫手機我識別?你當我是你啊?”。
通過上述兩種超級語音處理能力,百度聲紋解碼功能就能保障自己處于一個“能干活”的基礎(chǔ)上了。
百度聲紋解鎖技術(shù)的未來:問答式登錄
針對于眾多手機玩家的酷炫需求,百度的工程師也在為百度聲紋解鎖技術(shù)研發(fā)新的特性。比如在未來,有可能實現(xiàn)問答式登錄。
目前利用聲紋解鎖時,需要用戶輸入注冊時使用的特定內(nèi)容,這就是固定的口令.
但在未來,百度聲紋解鎖技術(shù)將允許用戶有新的玩法。比如登錄時系統(tǒng)會隨機給出問題讓用戶回答,用戶回答問題后就會對用戶的聲音進行識別。如果用戶以前對系統(tǒng)輸入過語音,就算不是剛才回答的內(nèi)容,系統(tǒng)也能分辨出來。
想象一下未來的手機生活:
主人:手機,乖,給我解鎖。
具備百度聲紋解鎖功能的手機(以下簡稱手機):主人,你媽貴姓?
主人:姓王啊,不是跟你說過了嗎?煩不煩??!
手機:什么態(tài)度?。吭俪鲆坏李},52乘以10等于多少?
主人:……
手機:520,答對了,聲學特征100%匹配,確認為主人身份,通過。
百度聲紋解鎖,君子動口不動手,聯(lián)想樂PhoneA586,君子之選。