自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

語音識別數(shù)據(jù)庫成為了人工智能的核心

人工智能 語音識別
語音識別數(shù)據(jù)庫、語音合成 數(shù)據(jù)庫是人工智能的關(guān)鍵技術(shù),讓機(jī)器能聽會說、能像人一樣的學(xué)習(xí)、理解和思考,成為人類生活和工作的得力的幫手、親密的伴侶,一直是人類的夢想。

語音識別數(shù)據(jù)庫、語音合成 數(shù)據(jù)庫是人工智能的關(guān)鍵技術(shù),讓機(jī)器能聽會說、能像人一樣的學(xué)習(xí)、理解和思考,成為人類生活和工作的得力的幫手、親密的伴侶,一直是人類的夢想。隨著近半 個(gè)世紀(jì)智能語音技術(shù)的進(jìn)步和深度神經(jīng)網(wǎng)絡(luò)技術(shù)(DNN)的工程化應(yīng)用,人類正不斷的接近這個(gè)夢想,這個(gè)夢想也同時(shí)極大的驅(qū)動著智能語音技術(shù)的發(fā)展。最初, 人們只能讓機(jī)器發(fā)出類似人的聲音,比如18世紀(jì)后半葉歐洲人制造的Kempelen講話機(jī),它能說出有限的詞和短句。經(jīng)歷了兩個(gè)多世紀(jì),現(xiàn)在的“聊天機(jī)器 人”不僅能以自然度很高的聲音與人交流、還會調(diào)侃、賣萌。20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry,它可以識別十個(gè)英文數(shù)字?,F(xiàn)在,語音 識別技術(shù)的自然語言識別正確率已經(jīng)高于95%。

[[185952]]

微軟發(fā)布的“小冰”,和百度發(fā)布的“度秘”,再一次在人群中掀起人工智能和人機(jī)交互的熱潮。

為了深刻的了解在“小冰”和“度秘”聰明伶俐、能聽會說背后的秘密,記者專訪了”北京海天瑞聲科技有限公司”的CEO唐滌飛先生。作為國內(nèi)、乃至亞洲***的人工智能數(shù)據(jù)資源供應(yīng)商,“海天瑞聲”在語音合成(TTS)、語音識別(ASR)、自然語言理解(NLP)和機(jī)器翻譯(MT)等技術(shù)領(lǐng)域的基礎(chǔ)數(shù)據(jù)資 源開發(fā)領(lǐng)域,積累了17年的專業(yè)經(jīng)驗(yàn)。就智能語音基礎(chǔ)數(shù)據(jù)資源而言,目前已經(jīng)擁有116種語言、覆蓋70多個(gè)國家和地區(qū)的數(shù)據(jù)資源制造能力。

小冰和度秘對人發(fā)出的指令的理解能力,比之前的語音助手表現(xiàn)要好很多。在百度世界大會上,面對李彥宏的種種刁難,度秘應(yīng)對自如,不僅幫“廠長”在網(wǎng)上訂 了 兩杯拿鐵,還訂好了可以帶寵物的餐廳,在網(wǎng)上團(tuán)購了動畫片電影票。那么,“小冰”和“度秘”能準(zhǔn)確理解人的指令的提問背后的秘密是什么呢?

唐滌飛先生說,這是由于語音識別(ASR)技術(shù)和自然語言理解(NLP)技術(shù)的巨大創(chuàng)新和進(jìn)步,從最初的 DNN 模型到現(xiàn)在的 LSTM 模型,從機(jī)器學(xué)習(xí)(ML)到深度學(xué)習(xí)(DL),每次技術(shù)創(chuàng)新都給用戶帶來了全新的體驗(yàn)。不僅如此,在訓(xùn)練語音識別引擎中所使用的基礎(chǔ)語音語料庫,也是至關(guān) 重要的因素。在設(shè)計(jì)語料時(shí),需要專業(yè)的語言學(xué)家根據(jù)特定語言的語言學(xué)現(xiàn)象,全面考慮語料領(lǐng)域分布、應(yīng)用場景分布、語料時(shí)效性等因素,同時(shí)借助相應(yīng)的NLP 處理技術(shù)和標(biāo)注團(tuán)隊(duì)來確保數(shù)據(jù)庫語料池的規(guī)模和結(jié)構(gòu)科學(xué)合理、音素覆蓋與平衡、句意完整、語義連貫、拼寫正確且易讀可懂,***再按照發(fā)音人分布、口音分 布、文本分布、音素分布、場景分布等條件通過采用相應(yīng)的算法如DTW動態(tài)規(guī)則算法對發(fā)音人的文本進(jìn)行抽取形成特定發(fā)音的文本。

由于口音、年 齡、教育背景和生活地區(qū)的不同,不同的人表達(dá)同一個(gè)意思、問同一個(gè)問題,甚至說同一句話,都會有細(xì)微的千差萬別。比如,在智能客服應(yīng)用中,機(jī)器人不僅要聽 懂客戶的話,還要能識別客戶的情緒,比如,根據(jù)其情緒是焦躁還是平靜,或根據(jù)客戶情緒的變化,來判斷他是變得生氣了,還是慢慢消氣了,而采取不同的處理優(yōu) 先級和反饋方式。這就涉及要在訓(xùn)練語料中引入情緒因素。但目前小冰和度秘還不能完全做到這一點(diǎn)。

據(jù)唐滌飛先生介紹,為了讓“小冰”能用自然甜 美流暢的聲音說話,大規(guī)模的語音合成(TTS)數(shù)據(jù)庫的設(shè)計(jì)和開發(fā),從根本性上決定了用戶對她的體驗(yàn)。在數(shù)據(jù)庫的設(shè)計(jì)上,首先要選擇年齡和音質(zhì)合適的發(fā)言 人,她的聲音要年輕、陽光、伶俐且充滿活力。其次,在數(shù)據(jù)庫的設(shè)計(jì)上,要充分考慮到語言和音素的全面覆蓋,語料主要來自海量的聊天對話語料。為了強(qiáng)調(diào)小冰 是個(gè)有情感的小姑娘,她不僅會一本正經(jīng)的說話,也會生氣、賣萌,因此,需要在語料設(shè)計(jì)中增加很多口語化的句子和網(wǎng)絡(luò)用語,甚至還有網(wǎng)絡(luò)小說里的段落。同 時(shí),還要有常用的英語詞匯、中英混合詞匯、數(shù)字串、地名等專用語料。在人的自然語言中,同一句話在不同的情境里,說出來的語調(diào)和韻律是不一樣的。因此,在 語料設(shè)計(jì)中,還要考慮到這些因素。如此一來,語料庫的規(guī)模往往就要在上萬句甚至數(shù)萬句。從某種程度上說,語音合成語料庫設(shè)計(jì)的失敗,會極大的抵消掉語音合 成技術(shù)的進(jìn)步。

從小冰和度秘這樣的聊天機(jī)器人,到真正的機(jī)器伴侶,人類還有一段很長的路要走,還有許多困難需要克服。她必須能更準(zhǔn)確的聽懂并 響應(yīng)對她發(fā)出的各種指令,還要能“理解”人的情緒變化和情感需要,能進(jìn)行 “思考“,從而為人提供更接近于真實(shí)的人的服務(wù),包括情感支持和慰藉。在語言表達(dá)方面,也要更接近人類的真實(shí)情感和情緒的表達(dá),要更自然流暢。造成這種困 難的原因當(dāng)然是多方面的,唐滌飛先生從其中一個(gè)方面做了解釋,那就是基礎(chǔ)數(shù)據(jù)資源的缺乏和成本居高不下。如上面所提到的,為了讓聊天機(jī)器人能夠盡可能的聽 懂、甚至真正能“理解”人的語言和情緒,對基礎(chǔ)數(shù)據(jù)資源設(shè)計(jì)者和開發(fā)者,就提出了更高的要求。

責(zé)任編輯:武曉燕 來源: xici.net
相關(guān)推薦

2022-12-01 07:03:22

語音識別人工智能技術(shù)

2017-05-22 17:42:07

大數(shù)據(jù)

2022-12-05 07:17:14

人工智能語音合成

2017-03-19 16:21:10

人工智能語音識別

2024-02-04 09:41:51

人工智能

2010-06-02 19:27:10

數(shù)據(jù)庫數(shù)據(jù)安全

2022-12-15 07:35:04

人工智能語音應(yīng)用場景

2022-12-05 09:42:21

語音人工智能程序

2022-06-23 08:00:00

微服務(wù)數(shù)據(jù)庫

2018-04-12 14:09:53

圖像文字識別

2022-12-13 07:19:00

聲紋識別人工智能障礙

2021-07-26 22:07:48

人工智能工具運(yùn)營商

2024-03-07 16:40:17

人工智能谷歌云

2021-11-05 09:56:36

人工智能AI指數(shù)

2023-11-08 16:18:32

人工智能矢量數(shù)據(jù)庫

2019-03-04 21:46:59

人工智能面部識別AI

2017-03-20 11:00:48

語音識別搜索框人工智能

2017-08-25 19:11:02

2021-07-13 12:27:36

人工智能金融罪犯AI

2023-08-14 16:39:55

人工智能數(shù)據(jù)庫
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號