新的“讀心”系統(tǒng)使語音合成技術(shù)更接近真實(shí)的人聲
據(jù)外媒CNET報(bào)道,一項(xiàng)新技術(shù)可以在很大程度上將大腦活動(dòng)轉(zhuǎn)化為合成語音,從而真正地恢復(fù)那些失去談話能力的人的天賦。加州大學(xué)舊金山分校(UCSF)的神經(jīng)科學(xué)家創(chuàng)建了一個(gè)腦機(jī)界面,通過一個(gè)新穎的兩步過程來解釋來自大腦語言區(qū)的信號(hào)。
研究人員不是試圖將大腦活動(dòng)直接轉(zhuǎn)化為聲音,而是將神經(jīng)信號(hào)轉(zhuǎn)換為人的聲道用來以數(shù)字方式創(chuàng)造這些聲音的運(yùn)動(dòng)。
結(jié)果是人工語音更接近真實(shí)的人聲,并且開始接近正常的談話速度。
“我們展示了使用計(jì)算機(jī)模擬明確模擬參與者聲帶的運(yùn)動(dòng) - 包括嘴唇、舌頭、下頜、喉部......這可能會(huì)產(chǎn)生大腦活動(dòng)的語音解碼,”加州大學(xué)舊金山分校神經(jīng)外科教授 Edward Chang周二告訴記者。
去年,麻省理工學(xué)院采用了一種切向相關(guān)的方法,使用耳機(jī)接收從大腦發(fā)送到嘴巴和下巴的信號(hào)。
新系統(tǒng)正在Chang的實(shí)驗(yàn)室中開發(fā),該團(tuán)隊(duì)的進(jìn)展在周三發(fā)表在《自然》雜志上的一篇新論文中有所概述。
研究人員與少數(shù)志愿者進(jìn)行了這項(xiàng)研究,這些志愿者已經(jīng)在他們的大腦中植入了臨時(shí)電極,為神經(jīng)外科治療做準(zhǔn)備。當(dāng)他們的大腦活動(dòng)被記錄下來時(shí),他們被要求大聲讀出幾百個(gè)句子。這些數(shù)據(jù)以及參與者語音的錄音,使科學(xué)家們能夠創(chuàng)建一個(gè)虛擬的聲道。然后,可以通過大腦活動(dòng)來控制用于創(chuàng)建語音的解剖結(jié)構(gòu)的詳細(xì)計(jì)算機(jī)模擬。下面的視頻顯示了一些結(jié)果示例。
“這項(xiàng)研究表明,我們可以根據(jù)個(gè)人的大腦活動(dòng)生成完整的口語句子,”Chang在一份聲明中說。“這是一個(gè)令人振奮的原理證據(jù),即已經(jīng)觸手可及的技術(shù),我們應(yīng)該能夠構(gòu)建一種在語言丟失患者中具有臨床可行性的設(shè)備。”
目前,許多嚴(yán)重語言障礙患者的設(shè)備需要逐字拼寫思考,每分鐘最多產(chǎn)生10個(gè)單詞。但是一個(gè)可以翻譯整個(gè)句子的系統(tǒng)可以讓人們更快速地進(jìn)行交流,甚至可以以接近每分鐘100-150個(gè)自然語音的速度進(jìn)行交流。
“作者的兩階段方法導(dǎo)致聲學(xué)失真明顯減少,”未參與研究的生物醫(yī)學(xué)工程師Chethan Pandarinath和Yahia H. Ali說道。“然而,仍然存在許多挑戰(zhàn)......重建語音的可懂度仍遠(yuǎn)低于自然語音的清晰度。”
新研究的共同作者Josh Chartier堅(jiān)持認(rèn)為,他們的系統(tǒng)產(chǎn)生的準(zhǔn)確性水平會(huì)改進(jìn)現(xiàn)有技術(shù),但承認(rèn)有一種方法模仿口語。
“我們非常善于合成較慢的語音,如'sh'和'z',以及保持語音的節(jié)奏和語調(diào)以及說話者的性別和身份,但是一些更生硬的聲音,如'b'和'p'得到有點(diǎn)模糊。“
另一個(gè)有希望的發(fā)現(xiàn)是,用于聲音運(yùn)動(dòng)的神經(jīng)代碼不一定是每個(gè)人獨(dú)有的。“無法移動(dòng)手臂和腿的人已經(jīng)學(xué)會(huì)用大腦控制機(jī)器人肢體,”Chartier說。“我們希望有一天,有語言障礙的人能夠?qū)W會(huì)用這種腦控制的人工聲道再次說話。”