自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="6s98d"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

語音識別數(shù)據(jù)庫成為了人工智能的核心

作者：與羊相遇的日子 2017-03-20 16:42:00

人工智能語音識別

語音識別數(shù)據(jù)庫、語音合成數(shù)據(jù)庫是人工智能的關(guān)鍵技術(shù)，讓機(jī)器能聽會說、能像人一樣的學(xué)習(xí)、理解和思考，成為人類生活和工作的得力的幫手、親密的伴侶，一直是人類的夢想。

語音識別數(shù)據(jù)庫、語音合成數(shù)據(jù)庫是人工智能的關(guān)鍵技術(shù)，讓機(jī)器能聽會說、能像人一樣的學(xué)習(xí)、理解和思考，成為人類生活和工作的得力的幫手、親密的伴侶，一直是人類的夢想。隨著近半個(gè)世紀(jì)智能語音技術(shù)的進(jìn)步和深度神經(jīng)網(wǎng)絡(luò)技術(shù)(DNN)的工程化應(yīng)用，人類正不斷的接近這個(gè)夢想，這個(gè)夢想也同時(shí)極大的驅(qū)動著智能語音技術(shù)的發(fā)展。最初，人們只能讓機(jī)器發(fā)出類似人的聲音，比如18世紀(jì)后半葉歐洲人制造的Kempelen講話機(jī)，它能說出有限的詞和短句。經(jīng)歷了兩個(gè)多世紀(jì)，現(xiàn)在的“聊天機(jī)器人”不僅能以自然度很高的聲音與人交流、還會調(diào)侃、賣萌。20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry，它可以識別十個(gè)英文數(shù)字?，F(xiàn)在，語音識別技術(shù)的自然語言識別正確率已經(jīng)高于95%。

微軟發(fā)布的“小冰”，和百度發(fā)布的“度秘”，再一次在人群中掀起人工智能和人機(jī)交互的熱潮。

為了深刻的了解在“小冰”和“度秘”聰明伶俐、能聽會說背后的秘密，記者專訪了”北京海天瑞聲科技有限公司”的CEO唐滌飛先生。作為國內(nèi)、乃至亞洲***的人工智能數(shù)據(jù)資源供應(yīng)商，“海天瑞聲”在語音合成(TTS)、語音識別(ASR)、自然語言理解(NLP)和機(jī)器翻譯(MT)等技術(shù)領(lǐng)域的基礎(chǔ)數(shù)據(jù)資源開發(fā)領(lǐng)域，積累了17年的專業(yè)經(jīng)驗(yàn)。就智能語音基礎(chǔ)數(shù)據(jù)資源而言，目前已經(jīng)擁有116種語言、覆蓋70多個(gè)國家和地區(qū)的數(shù)據(jù)資源制造能力。

小冰和度秘對人發(fā)出的指令的理解能力，比之前的語音助手表現(xiàn)要好很多。在百度世界大會上，面對李彥宏的種種刁難，度秘應(yīng)對自如，不僅幫“廠長”在網(wǎng)上訂了兩杯拿鐵，還訂好了可以帶寵物的餐廳，在網(wǎng)上團(tuán)購了動畫片電影票。那么，“小冰”和“度秘”能準(zhǔn)確理解人的指令的提問背后的秘密是什么呢?

唐滌飛先生說，這是由于語音識別(ASR)技術(shù)和自然語言理解(NLP)技術(shù)的巨大創(chuàng)新和進(jìn)步，從最初的 DNN 模型到現(xiàn)在的 LSTM 模型，從機(jī)器學(xué)習(xí)(ML)到深度學(xué)習(xí)(DL)，每次技術(shù)創(chuàng)新都給用戶帶來了全新的體驗(yàn)。不僅如此，在訓(xùn)練語音識別引擎中所使用的基礎(chǔ)語音語料庫，也是至關(guān) 重要的因素。在設(shè)計(jì)語料時(shí)，需要專業(yè)的語言學(xué)家根據(jù)特定語言的語言學(xué)現(xiàn)象，全面考慮語料領(lǐng)域分布、應(yīng)用場景分布、語料時(shí)效性等因素，同時(shí)借助相應(yīng)的NLP 處理技術(shù)和標(biāo)注團(tuán)隊(duì)來確保數(shù)據(jù)庫語料池的規(guī)模和結(jié)構(gòu)科學(xué)合理、音素覆蓋與平衡、句意完整、語義連貫、拼寫正確且易讀可懂，***再按照發(fā)音人分布、口音分布、文本分布、音素分布、場景分布等條件通過采用相應(yīng)的算法如DTW動態(tài)規(guī)則算法對發(fā)音人的文本進(jìn)行抽取形成特定發(fā)音的文本。

由于口音、年齡、教育背景和生活地區(qū)的不同，不同的人表達(dá)同一個(gè)意思、問同一個(gè)問題，甚至說同一句話，都會有細(xì)微的千差萬別。比如，在智能客服應(yīng)用中，機(jī)器人不僅要聽懂客戶的話，還要能識別客戶的情緒，比如，根據(jù)其情緒是焦躁還是平靜，或根據(jù)客戶情緒的變化，來判斷他是變得生氣了，還是慢慢消氣了，而采取不同的處理優(yōu) 先級和反饋方式。這就涉及要在訓(xùn)練語料中引入情緒因素。但目前小冰和度秘還不能完全做到這一點(diǎn)。

據(jù)唐滌飛先生介紹，為了讓“小冰”能用自然甜美流暢的聲音說話，大規(guī)模的語音合成(TTS)數(shù)據(jù)庫的設(shè)計(jì)和開發(fā)，從根本性上決定了用戶對她的體驗(yàn)。在數(shù)據(jù)庫的設(shè)計(jì)上，首先要選擇年齡和音質(zhì)合適的發(fā)言人，她的聲音要年輕、陽光、伶俐且充滿活力。其次，在數(shù)據(jù)庫的設(shè)計(jì)上，要充分考慮到語言和音素的全面覆蓋，語料主要來自海量的聊天對話語料。為了強(qiáng)調(diào)小冰是個(gè)有情感的小姑娘，她不僅會一本正經(jīng)的說話，也會生氣、賣萌，因此，需要在語料設(shè)計(jì)中增加很多口語化的句子和網(wǎng)絡(luò)用語，甚至還有網(wǎng)絡(luò)小說里的段落。同時(shí)，還要有常用的英語詞匯、中英混合詞匯、數(shù)字串、地名等專用語料。在人的自然語言中，同一句話在不同的情境里，說出來的語調(diào)和韻律是不一樣的。因此，在語料設(shè)計(jì)中，還要考慮到這些因素。如此一來，語料庫的規(guī)模往往就要在上萬句甚至數(shù)萬句。從某種程度上說，語音合成語料庫設(shè)計(jì)的失敗，會極大的抵消掉語音合成技術(shù)的進(jìn)步。

從小冰和度秘這樣的聊天機(jī)器人，到真正的機(jī)器伴侶，人類還有一段很長的路要走，還有許多困難需要克服。她必須能更準(zhǔn)確的聽懂并響應(yīng)對她發(fā)出的各種指令，還要能“理解”人的情緒變化和情感需要，能進(jìn)行 “思考“，從而為人提供更接近于真實(shí)的人的服務(wù)，包括情感支持和慰藉。在語言表達(dá)方面，也要更接近人類的真實(shí)情感和情緒的表達(dá)，要更自然流暢。造成這種困難的原因當(dāng)然是多方面的，唐滌飛先生從其中一個(gè)方面做了解釋，那就是基礎(chǔ)數(shù)據(jù)資源的缺乏和成本居高不下。如上面所提到的，為了讓聊天機(jī)器人能夠盡可能的聽懂、甚至真正能“理解”人的語言和情緒，對基礎(chǔ)數(shù)據(jù)資源設(shè)計(jì)者和開發(fā)者，就提出了更高的要求。

責(zé)任編輯：武曉燕來源： xici.net

語音識別數(shù)據(jù)庫人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="jt1lk"><p id="jt1lk"></p></blockquote>

<sub id="jt1lk"></sub>

<cite id="jt1lk"><track id="jt1lk"></track></cite>