百度智能語音從“喚醒”開始 生態(tài)賦能提上日程
原創(chuàng)【51CTO.com原創(chuàng)稿件】“只要連接一個電源,接通一個麥克風,就可以讓身邊的家電設備‘說話’了。”景鯤在今年的百度開發(fā)者大會上面對現(xiàn)場近5000名開發(fā)者和合作伙伴,揭示了即將發(fā)布的DuerOS開放平臺的秘密。
聽清+聽懂 成為百度智能語音“代名詞”
聽清是喚醒萬物的第一要素。百度公司首席架構師、百度度秘事業(yè)部CTO朱凱華表示:“DuerOS匯集了百度AI的諸多能力,完整的生態(tài)體系加上對話核心系統(tǒng)的核心技術能力,DuerOS將成為能聽清、聽懂的對話式人工智能系統(tǒng)。”據(jù)悉,DuerOS開放平臺擁有智能設備開放平臺、豐富的技能開放平臺以及支撐這兩個平臺的對話核心系統(tǒng),用來達成“聽清、聽懂”這兩項看似簡單但實難達成的目標。
開放平臺的技術架構包含DCS(DuerOS Conversational Service)和DBF(DuerOS Bot Framework)兩大基礎協(xié)議,兩大協(xié)議連通起來的對話核心系統(tǒng)、智能設備開放平臺和技能開放平臺,構成了相對完整的DuerOS智能生態(tài)系統(tǒng)。其中,對話核心系統(tǒng)通過云端大腦自動學習,利用語音技術、自然語言處理技術、搜索技術、多輪對話技術等能力,基于先進的業(yè)界知識圖譜、網(wǎng)頁圖譜、需求圖譜等大數(shù)據(jù)以及豐富優(yōu)質和開盒即用的內容資源,為智能設備“賦予”語言能力。
相關資料顯示,百度語音識別準確率達到97%,百度深度語音識別系統(tǒng)Deep Speech2已經入選MIT 2016十大突破性技術,但想走在AI時代智能語音的前端,這些技術是遠遠不夠的。景鯤表示,百度在技術方面還做了很多努力和改進,包括麥克風陣列、回聲消除、語音喚醒、遠場識別等,并打算將這些技術根植進入家庭場景、移動場景、車載場景,全方位保證實現(xiàn)用戶聽清的需求。百度語音技術部總監(jiān)高亮在介紹新開放的遠場識別及語音喚醒、定制化語音合成、語音合成音色、情感語音交互(Emotional CUI)等技術時,也提到開發(fā)者可以根據(jù)不同的需求實現(xiàn)不同場景的智能應用,滿足不需要。
為了更好地“喚醒萬物”,百度全資收購KITT.AI,并將智能設備語音喚醒和自然語言處理等核心能力免費開放,賦能合作伙伴。據(jù)了解,KITT.AI是一家世界領先的專注于語音喚醒和自然語言理解的人工智能創(chuàng)業(yè)公司。
獨樂樂不如眾樂樂 開放賦能方法多
業(yè)內人士認為,未來智能語音將在越來越多的場景應用,而智能硬件只是一種產品形態(tài),開放平臺才具備核心競爭力。百度創(chuàng)始人、董事長兼CEO李彥宏表示,“AI是必由之路,開放讓所有人都收獲更多。”百度在開放語音技術,讓機器聽清用戶的同時,更重要的是開放能讓機器懂得用戶需求的自然語言處理技術。
百度自然語言處理部總監(jiān)趙世奇詳細介紹語言理解與交互技術平臺——UNIT的過程中提到,該平臺將開放語言理解技術、交互技術,從百度大數(shù)據(jù)中自動汲取最有價值的數(shù)據(jù)提供給開發(fā)者使用;為開發(fā)者提供多種定制化方案,還首創(chuàng)“訓練師”模式,助力開發(fā)者訓練對話機器人;賦予機器“理解”自然語言,聽懂用戶需求,以及與用戶進行多輪次對話的能力。此外,今年“百度之星”開發(fā)者大賽的命題就是基于UNIT平臺提供的語言理解與交互技術,“設計和開發(fā)一個以對話式人機交互為核心的智能產品”。
同時記者還了解到,智能設備開放平臺將面向傳統(tǒng)硬件廠商和開發(fā)者輸出軟硬兼?zhèn)涞亩鄬哟谓鉀Q方案,低成本、方便靈活地滿足各個類型廠商和開發(fā)者不同層次的需求。此外,DuerOS還推出“小度之家APP”,方便用戶實現(xiàn)智能設備的統(tǒng)一管理、設置支付方案、共享AI資源及內容,也讓開發(fā)者能夠自定義開發(fā)新的技能。作為DuerOS生態(tài)中的技能平臺,技能開放平臺擁有豐富的AI內容資源,在保證進一步聽清、聽懂的同時,滿足了用戶的更多需求。
在DuerOS的龐大陣營中,包括音響、電視、機器人、車載等優(yōu)秀的硬件設備合作伙。此外,DuerOS已同很多芯片模組方案商,如英特爾以及硬件廠商如海爾等達成深度合作。在聽清聽懂的基礎上,也需要優(yōu)質豐富的資源來滿足需求,據(jù)了解百度的優(yōu)質內容也會伴隨DuerOS一起對外開放。景鯤說,“技能開放平臺是DuerOS開放平臺的能力層。目前已經擁有包括影音娛樂、信息查詢、生活服務等在內的10大品類、100+個原生技能,同時支持第三方資源和內容接入。” 為了讓開發(fā)者更容易進入這個有價值的生態(tài)圈,智能設備平臺提供了個人版、輕量版、標準版、參考設計等多樣化的方案,大大降低對開發(fā)者的要求以及研發(fā)成本。
如今,DuerOS與Apollo兩大開放平臺都運用了百度技術領域的核心能力。陸奇指出,百度已經構建了包含算法層、感知層、認知層和平臺層技術架構的AI技術平臺,并將全面開放60項核心AI能力,其中包括語音、視頻、增強現(xiàn)實、機器人視覺、自然語音處理五大類14項新能力,可見全力布局AI這場棋局,百度準備已久。
【51CTO原創(chuàng)稿件,合作站點轉載請注明原文作者和出處為51CTO.com】