Siri,你這么膩害是想上天嗎?
原創(chuàng)6月14號的凌晨1點鐘,千呼萬喚始出來的2016蘋果全球開發(fā)者大會(WWDC)在舊金山比爾·格雷厄姆市政禮堂正式拉開序幕。和前幾屆大會一樣,iOS新版本依舊是WWDC上最閃亮的super star,而Siri則是這個super star身上最耀眼的光環(huán)。
Siri小百科
Siri,學(xué)名蘋果智能語音助手。2007年出生于美國,蘋果公司于2010年正式拿到Siri的撫養(yǎng)權(quán)。隨著蘋果公司的不斷培養(yǎng),Siri從最初的只能看懂文字逐步進化成了現(xiàn)在的智能語音識別。蠢萌逗逼的個性是Siri吸粉的重要利器。
舉個栗子:
你別看Siri平時一副不著調(diào)的樣子,事實上Siri可是立過不少功的大英雄呢。前幾天的澳洲,一位在女兒病情危急時找不到iPhone手機的媽媽就在關(guān)鍵時刻用Siri呼叫了救護車,成功的救回了命懸一線的嬰兒。其實這已經(jīng)不是Siri***次救人了,早在2015年,Siri就曾幫助過被汽車壓在身上不能動彈的小伙子報警向警察求救。
我想誰也不能否認,Siri是一項很不錯的技術(shù)發(fā)明。那么雙商均高的Siri究竟是怎么來工作的呢?
Siri的工作原理
Siri善解人意聰明靈敏風(fēng)趣幽默的秘密就是它了——語音識別。語音識別是一門交叉學(xué)科,涉及到的知識領(lǐng)域相當(dāng)廣泛。其實說白了,語音識別技術(shù)就是讓機器通過識別和理解把我們說的話轉(zhuǎn)化為它們讀得懂的話,然后根據(jù)機器理解的意思產(chǎn)生相應(yīng)回饋的一門高科技。
首先我們應(yīng)該明確的是,語音識別不是一個人在戰(zhàn)斗,它的背后一定存在著一個非常龐大的頻譜庫,這個庫中有大量大量大量(重要的事情說三遍)的頻譜。這些海量的頻譜是語音識別進行工作的重要基礎(chǔ)。
眾所周知,機器之所以能聽懂我們的話是因為它將我們說的話都進行了“加工”,這個加工過程就是根據(jù)發(fā)音將我們說的每一個字都轉(zhuǎn)化為頻譜線。不同的發(fā)音有不同的頻譜線,這些頻譜線與發(fā)音是相對應(yīng)的。盡管不同的人擁有不同的聲線,但每個單字的發(fā)音大體都是相同的,就像智能手機中的手寫功能,盡管大家的字體都有所不同,但還是可以準確辨認出寫入的是哪個字。將轉(zhuǎn)換得來的的頻譜線與頻譜庫中的頻譜線進行比對,從與之相匹配的頻譜線中得到相對應(yīng)的元音和輔音。得到元音和輔音之后就可以從他們的組合中通過使用頻率來推測出單字了。
接下來就是讓語音識別最頭疼的一件事了,識別語義,就是將推測得到的單字組成句子。你學(xué)英語的時候有沒有和小編一樣的苦惱,單個詞都認識,連成一句話就一臉懵逼,不管你是不是,反正語音識別是。同樣的字在不同的語境中有不同的意思,最經(jīng)典的一個示例就是“方便”這個詞了,所以識別語義也是目前語音識別技術(shù)面臨的***障礙了。
得到了句子之后就是執(zhí)行的問題了,比如你語音輸入的是播放一首大王派我來巡山,手機就會自動的將音樂播放器打開,找到這首歌并播放。這就是語音識別工作的全過程了。
語音識別的未來
其實相比打字,語音交互的優(yōu)勢很明顯。人每分鐘平均可以說150個單詞,打字只能打40個。毫無疑問,未來的輸入方式是語音的天下。
語音識別作為下一代交互方式,發(fā)展前景相當(dāng)巨大。比如要去一個陌生的地方旅游,你不需要自己規(guī)劃路線圖、不需要導(dǎo)游的講解、不需要在自己找酒店,你只需要打開手機上諸如Siri一樣的軟件然后語音輸入就都搞定了。
隨著人工智能的發(fā)展,語音識別也必定會更加智能化、更加實用?;蛟S未來的某一天,語音識別準確率從現(xiàn)在的95%上升到99%,Siri變成了一個掌握16國語言可以帶你穿行各大洲的利器。到那時,那你還會像現(xiàn)在一樣不愿帶他們玩嗎?