阿里云產(chǎn)業(yè)AI新突破:AI收銀員上崗,比人更快更準(zhǔn)
“五個(gè)巧克力、兩個(gè)香草拿鐵,巧克力加奶油。”
“兩個(gè)中杯焦糖拿鐵,一個(gè)熱的一個(gè)冷的。”
”算了巧克力不要了。”
“再要六個(gè)小杯少冰摩卡,三杯加焦糖三杯加香草”
“再加一個(gè)大的冷的拿鐵,去冰半糖加脫脂奶,打包。”
鄢志杰最快以每秒5個(gè)字的語速向一臺機(jī)器點(diǎn)單。機(jī)器對每一次對話都作出了精準(zhǔn)相應(yīng),而站在一旁的資深咖啡師選擇了中途放棄,“太快了,記不下來”。
這是發(fā)生在5月23日云棲大會武漢峰會上的一幕。鄢志杰是阿里巴巴機(jī)器智能技術(shù)實(shí)驗(yàn)室語音交互***科學(xué)家。人類咖啡師在聽了鄢志杰第二次復(fù)述后完成了訂單,用時(shí)2分37秒,而機(jī)器只用了49秒。
“今天我們將機(jī)器對人類口語的理解能力帶到了新的高度”,鄢志杰說,這種交互方式完全打破了"語音喚醒+語音指令"傳統(tǒng)命令式交互方式,我們首創(chuàng)的流式多意圖口語理解引擎,極大地提升了對人類隨意、自然的口語表達(dá)的理解力,能夠做到免喚醒的自然的人機(jī)交流式的語音交互。
上述點(diǎn)單環(huán)節(jié)包含了修改、刪除、加單等多輪對話,在整個(gè)交流過程中,顧客不需要說”hi,點(diǎn)單機(jī)“之類呆板的喚醒詞,可直接下單,更符合人與人的自然對話。
據(jù)鄢志杰介紹,這些模塊并非簡單級聯(lián),而是深度融合而形成了多模態(tài)語音交互方案,包括是公共場所強(qiáng)噪聲環(huán)境下的信號處理和語音識別、視頻識別與面部識別、場景感知等多模態(tài)融合的感知智能,同時(shí)更融合了流式對話、多輪多意圖口語理解、業(yè)務(wù)知識圖譜自適應(yīng)等認(rèn)知智能。
據(jù)了解,阿里云這項(xiàng)解決方案除了可以做收銀員之外,還能在地鐵賣票。目前,上海地鐵已經(jīng)部署了這一技術(shù)。乘客直接說出目的地,售票機(jī)便可選擇合適的站點(diǎn)和路線。這對于初到上海的乘客尤其幫助巨大,面對十幾條線路三百多個(gè)站點(diǎn)誰都會懵。測試數(shù)據(jù)顯示,普通買票耗時(shí)往往超過30秒,而語音購票全程只需要10秒左右。
鄢志杰介紹,依托于業(yè)務(wù)知識圖譜自適應(yīng)的技術(shù),這套方案能夠快速的在更多場景落地,目前已經(jīng)落地的場景還有車內(nèi)語音助手、電話智能客服、可免遙控器操作的遠(yuǎn)場語音電視、可精準(zhǔn)區(qū)分多人對話的智能麥克風(fēng)等。“未來我們希望實(shí)現(xiàn)公眾空間里的萬物皆能對話。”
阿里云產(chǎn)品總監(jiān)何云飛說,阿里云去年提供出了”產(chǎn)業(yè)AI“的戰(zhàn)略,呼吁行業(yè)將AI技術(shù)沉淀到產(chǎn)業(yè)中,不要成為炒作股價(jià)的營銷詞匯。無論是咖啡點(diǎn)餐還是地鐵售票,我們都是讓AI在真實(shí)的產(chǎn)業(yè)場景下發(fā)揮價(jià)值。這比那些在實(shí)驗(yàn)室里炫技的AI更有意義,更具生命力。
據(jù)了解,除了解決方案之外阿里云還推出了ET大腦,包含ET城市大腦、ET工業(yè)大腦、ET醫(yī)療大腦等。目前,ET工業(yè)大腦已經(jīng)幫助工業(yè)制造企業(yè)創(chuàng)造利潤數(shù)十億,ET城市大腦在杭州、澳門、吉隆坡等城市落地,承擔(dān)著交通優(yōu)化、平安城市等職責(zé)。