自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

小鵬汽車的車規(guī)級“真”人語音助手,是如何煉成的?

企業(yè)動(dòng)態(tài)
不久前,小鵬汽車P7車型進(jìn)行了一次重要的OTA(Over-The-Air,遠(yuǎn)程空中下載)系統(tǒng)升級,其中語音助手小P媲美人聲的更新,再次拉高了智能汽車語音助手的水平線。

 如果在你的愛車?yán)?,有一款能像人一樣表達(dá)情緒的智能車載語音助手,它媲美人聲,不用反復(fù)喚起就能流暢對話,會(huì)對你說“好滴”而不是“好的”,這樣的語音助手你會(huì)心動(dòng)嗎?

不久前,小鵬汽車P7車型進(jìn)行了一次重要的OTA(Over-The-Air,遠(yuǎn)程空中下載)系統(tǒng)升級,其中語音助手小P媲美人聲的更新,再次拉高了智能汽車語音助手的水平線。

“耗時(shí)十個(gè)月上線,這是一次汽車界對車載語音的前沿探索。”小鵬汽車AI產(chǎn)品高級專家郝超說道。

對于車載語音來說,“媲美人聲”為什么很重要,小P的更新到底高明在什么地方?我們跟郝超以及微軟云計(jì)算與人工智能事業(yè)部產(chǎn)品總監(jiān)丁秉公聊了聊關(guān)于車載語音的那些事兒。

車載語音“媲美人聲”為什么很重要?

不知道大家有沒有這種感覺,在手機(jī)上或者智能音箱上聽機(jī)器人播新聞,好像總沒有真人主播播得痛快;特別是無聊的時(shí)候,想跟語音助手逗個(gè)樂,三兩句話下來,總會(huì)無奈地自言自語一句:“它真的好傻啊。”

在業(yè)界,這種同語音助手互動(dòng)不流暢帶來的不適感,可以用“聽覺疲勞”來形容。而相對于家常環(huán)境場景下的語音互動(dòng),如在長時(shí)間開車的場景下,車主很大程度上會(huì)放大對聽覺疲勞的感知。換句話說,車主對語音助手語音流暢度、自然度敏感性更高,對車載語音助手更逼近人聲的需求也更高。

“小P升級后,很多車主半夜蹲點(diǎn)兒去車?yán)飺屜仍嚶犘侣曇簟?rdquo;郝超說起小P剛更新時(shí)一些車主的反應(yīng)。

這與車載語音產(chǎn)品不斷追求“媲美人聲”的效果,形成了一種默契。“原來我們可能只追求讓大家把聲音聽懂就行,后來我們認(rèn)為不僅要聽懂,還要像人聲一樣更加自然,最后我們覺得自然還不夠,還想用多情感的聲音來代替單調(diào)的聲音。”丁秉公表示。

因此早在2018年,為了讓人工智能的聲音更自然,微軟就已經(jīng)在神經(jīng)網(wǎng)絡(luò)語音合成技術(shù)上做了很多工作。最近兩年來,該技術(shù)的不斷創(chuàng)新使合成聲音錯(cuò)誤率進(jìn)一步減少、顯著提升了句子韻律的合成質(zhì)量和語音的高保真度。

數(shù)據(jù)顯示,經(jīng)行業(yè)公認(rèn)的、專業(yè)評估語音自然度的MOS(Mean Opinion Score平均意見評分)測試,微軟AI語音評分4.49分(真人錄音得分 4.5分),這證明在音質(zhì)、發(fā)音、說話準(zhǔn)確性和清晰度等方面,合成語音已經(jīng)能夠與真人錄音樣本相媲美。

這種更自然的合成聲音也推動(dòng)了車載語音場景的應(yīng)用的落地,小鵬汽車在這個(gè)過程中成了那個(gè)率先吃螃蟹的人。

不過需要強(qiáng)調(diào)的是,微軟提供的神經(jīng)網(wǎng)絡(luò)語音合成技術(shù)、及其背后的語音模型,都是平臺(tái)化的可匹配多行業(yè)的通用產(chǎn)品,要將這種通用產(chǎn)品與小鵬汽車的特定場景融合,雙方還要在“車載”場景上做很多融合。

“車規(guī)級”語音需要克服哪些難點(diǎn)?

有人可能會(huì)說,車載語音不就是語音交互嗎,現(xiàn)在不管是手機(jī)還是音箱,但凡帶點(diǎn)“智能”,讓它“說話”似乎并不是什么難事。這種質(zhì)疑并沒有什么問題,但仔細(xì)想來,就像芯片也有車規(guī)級一樣,汽車的語音交互系統(tǒng)也在不斷追求“車規(guī)級”的完美。

據(jù)郝超和丁秉公介紹,車規(guī)級語音需要克服的挑戰(zhàn)主要有3個(gè):

第一,應(yīng)對汽車移動(dòng)狀態(tài)下的網(wǎng)絡(luò)抖動(dòng),在保證聲音保真率的情況下盡量壓縮對流量及硬件性能的消耗,同時(shí)還要解決合成語音上比較難的歧義、分詞問題。

為了應(yīng)對網(wǎng)絡(luò)抖動(dòng),小鵬汽車采取了多級緩存的方法,把好的聲音提前進(jìn)行各級緩存然后下發(fā),盡量減少對網(wǎng)絡(luò)的依賴。“比如系統(tǒng)判斷前方500米有攝像頭,該播報(bào)了,但可能在‘前方’兩個(gè)字播出之后會(huì)因?yàn)榫W(wǎng)絡(luò)抖動(dòng)導(dǎo)致這句話播不全,那系統(tǒng)會(huì)啟動(dòng)語意動(dòng)態(tài)等待。”郝超說,“等個(gè)1-2秒,網(wǎng)絡(luò)抖動(dòng)過去,再播報(bào)。雖然多開了兩米,但在可接受范圍內(nèi)。”不過,像“前方右轉(zhuǎn)”等這類特殊情況除外,系統(tǒng)則不會(huì)啟動(dòng)動(dòng)態(tài)等待。

第二個(gè)比較大的難點(diǎn)是語音高保真度帶來的連鎖挑戰(zhàn)。

一般情況下,大部分車載語音系統(tǒng)的語音采樣率為16k HZ(一秒鐘有1萬6千個(gè)采樣點(diǎn)),量化水平在8比特(每個(gè)采樣點(diǎn)數(shù)據(jù)量為8比特)。而小鵬汽車使用的語音模型在采樣率上達(dá)到了24k HZ,量化水平為16比特,這也就意味著一秒鐘的信息量是幾十KB,那么一分鐘可能就是幾十兆,一小時(shí)可能就是接近一個(gè)G,一天就是幾十G。不壓縮的話,這么大流量的壓力是非常大的。

“除了剛才談到的多級緩存,云計(jì)算在這里也起到了很大的作用。這些高質(zhì)量的聲音與微軟云相結(jié)合,在不降低聲音質(zhì)量的情況下,能夠?qū)崿F(xiàn)用戶對高保真語音體驗(yàn)上的實(shí)時(shí)傳輸。”丁秉公表示。

高保真的聲音也增加了對整車CPU的資源占用。因此,在實(shí)踐過程中,小鵬汽車盡量不占用本地的計(jì)算資源,在網(wǎng)絡(luò)條件好的情況下盡量對在線模型發(fā)起請求,而不是依賴本地,盡量平衡單位周期內(nèi)對CPU的占用。

另外一個(gè)挑戰(zhàn)是解決合成語音中歧義的問題。中文的分詞,多音字,數(shù)字讀法等都有歧義問題。一個(gè)典型的例子是比如“南京市長江大橋”,合成語音可能斷句為“南京 市長 江大橋”,這類烏龍?jiān)贏I合成語音中目前仍然很常見。“在不同的場景下,受眾對歧義的容忍度有很大差別。因此我們希望針對合成語音的使用場景進(jìn)行優(yōu)化,減少歧義對用戶體驗(yàn)的影響。”丁秉公強(qiáng)調(diào)。

比如,還是上文談到的人工智能播新聞的場景,這個(gè)時(shí)候AI分詞出現(xiàn)錯(cuò)誤最嚴(yán)重可能就是對某個(gè)句子聽不懂,但在車載場景下可能直接影響到車主的車況。這些都要在車載端做優(yōu)化,保證車主在開得比較快、噪音比較大的聽音環(huán)境下也能夠聽到高保真的聲音。這也是車規(guī)級語音同我們?nèi)粘S玫闹悄苁謾C(jī)語音助手、智能音箱助手比較大的不同。

車載語音“媲美人聲”是壁壘還是趨勢?

技術(shù)在產(chǎn)業(yè)落地的過程,往往被看作是技術(shù)尋找場景的過程。場景找到了,技術(shù)是否高深、前沿便顯得沒那么重要。

小鵬汽車的媲美人聲的車載語音助手也正是運(yùn)用了微軟的通用語言模型才達(dá)到了當(dāng)前的效果。但對于使用了通用技術(shù)的小鵬來說,小P的煉成是一次前沿技術(shù)的探索,還是通用技術(shù)落地的其中一環(huán)呢?

對于這個(gè)問題,郝超的答案更偏向于前者。“當(dāng)大家不知道AI能做什么事情的時(shí)候,可能認(rèn)為,找場景更重要。把現(xiàn)有的這些技術(shù)落地到某一個(gè)場景,可能就有AI了。這是因?yàn)榇蠹覍@個(gè)事情理解不深。”他說,“當(dāng)對整個(gè)車載場景,或者對出行有足夠深的理解的話,就會(huì)發(fā)現(xiàn)這里面有太多太多的問題要解決。”

郝超認(rèn)為,智能汽車非常依賴高精尖技術(shù),甚至現(xiàn)在很多技術(shù)做不到的事情,他們也希望能嘗試通過技術(shù)來解決。也就是說,對于新技術(shù)的應(yīng)用,小鵬汽車的思路是,不是有這樣一個(gè)技術(shù)能用到什么樣的場景,而是我們看到這樣一個(gè)場景,去探索、尋找有沒有更好的技術(shù)來解決。

“作為一個(gè)造車新技術(shù)的探索者,可能踩的坑會(huì)比較多,甚至成本也很高,但其實(shí)我們一直是希望探索明白了之后,路趟平了之后,告訴業(yè)內(nèi)同行們,這個(gè)方向用戶是認(rèn)可的。以此推動(dòng)整個(gè)行業(yè)的進(jìn)步。”郝超總結(jié)。

事實(shí)證明,小P的上線確實(shí)達(dá)到了這樣的效果。

當(dāng)下,作為提供通用技術(shù)平臺(tái)的微軟也正在將小鵬汽車對于語音模型的應(yīng)用經(jīng)驗(yàn),反哺到通用語音模型中。

“從技術(shù)上面,我們其實(shí)想大道至簡,用一套模型可以服務(wù)所有的用戶。”丁秉公說道。他認(rèn)為,微軟在不同行業(yè)里的積累,正在擴(kuò)大微軟的模型能力,觸類旁通后,使得像小鵬這樣的企業(yè)能夠在他們的基礎(chǔ)模型上,享受到平臺(tái)級的AI模型紅利。

責(zé)任編輯:趙立京 來源: 網(wǎng)絡(luò)
相關(guān)推薦

2018-09-05 10:14:32

小程序

2017-12-22 21:42:24

游戲語音游戲?qū)崟r(shí)語音

2022-01-26 10:00:39

智能車載攝像頭

2010-02-06 15:14:36

ibmdw架構(gòu)師

2020-12-15 11:37:18

語音通話網(wǎng)絡(luò)拓?fù)?/a>音頻

2021-12-14 10:45:59

智能飛行汽車

2018-06-06 15:33:47

Cortanawindows 10語音助手

2010-03-24 15:40:39

網(wǎng)管運(yùn)維管理摩卡軟件

2021-11-12 15:09:08

智能自動(dòng)駕駛汽車

2024-12-04 10:52:52

鎧俠

2015-10-23 10:39:21

2020-08-03 07:57:43

人工智能無人駕駛技術(shù)

2020-08-04 13:20:58

無人駕駛人工智能傳感器

2012-02-01 16:32:32

2011-11-25 09:48:04

天線無線

2013-08-19 16:17:48

CIO

2024-03-28 08:13:51

GPTsOpenAI人工智能

2015-11-10 09:09:23

代碼程序員成長
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號