Google出了一款A(yù)pp,能幫助聽(tīng)力受損的人自由交流
1882 年,一場(chǎng)突如其來(lái)的疾病奪走了剛 19 個(gè)月的海倫凱勒生活中所有的色彩、聲音、動(dòng)作。和她的生活一樣,這個(gè)塔斯坎比亞小鎮(zhèn)的家庭從此也進(jìn)入了一個(gè)黑暗而寂靜的世界。直到 6 年后,沙利文老師出現(xiàn)在海倫的生活,事情才出現(xiàn)了轉(zhuǎn)機(jī)。在沙利文的幫助下,海倫凱勒不僅學(xué)會(huì)了盲文閱讀,還在成年后寫(xiě)下了那句「唯有失聰者才會(huì)珍視聽(tīng)覺(jué)」。
這個(gè)故事幾乎每個(gè)人在小學(xué)都已熟悉,因?yàn)檎Z(yǔ)文老師們總會(huì)布置一篇《讀<假如給我三天光明>有感》的作文。但并不是所有聽(tīng)力受損的人都能和海倫凱勒一樣幸運(yùn),擁有沙利文的獨(dú)特幫助。
目前,在全世界 4.66 億遭遇耳聾和聽(tīng)力障礙的人士中,只有極少人能支付起與他人進(jìn)行即時(shí)交流時(shí)需要采購(gòu)的手動(dòng)轉(zhuǎn)錄服務(wù),如美國(guó)的 CART,英國(guó)的 Palantypist 或其他國(guó)家的 STTR。更多的人,在無(wú)聲對(duì)話。
為了改變這一情況,2019 年 2 月 4 日,Google 推出了一款全新的基于 App——Live Transcribe 的內(nèi)測(cè)版,這是一款即時(shí)轉(zhuǎn)錄真實(shí)世界語(yǔ)音的應(yīng)用程序,只需使用手機(jī)的麥克風(fēng)即可將其轉(zhuǎn)換為實(shí)時(shí)字幕。3 月,其正式在 Play 商店正式上線。
設(shè)計(jì)背后:ARS 帶來(lái)的實(shí)時(shí)轉(zhuǎn)錄
一歲時(shí)失聰?shù)亩砹_斯人 Dimitri 現(xiàn)在是 Google 的一名科學(xué)家。他說(shuō)話有些吃力,在告訴店員「今天過(guò)得不錯(cuò)」時(shí),詞句之間的停頓明顯。不過(guò),現(xiàn)在他并不需要任何的人工幫助。手機(jī)上的 Live Transcribe,正在黑色背景上實(shí)時(shí)同步店員說(shuō)的每一個(gè)單詞:你想喝點(diǎn)什么?右上角的小圓圈也不停地變換大小來(lái)暗示周?chē)h(huán)境的嘈雜程度。
「Live Transcribe 的轉(zhuǎn)錄延遲低于 200 毫秒,接近于實(shí)時(shí)。」該 App 的產(chǎn)品經(jīng)理 Sagar Salva 對(duì)極客公園說(shuō)。這樣的延時(shí)就像 50HZ 的交流電方向的改變一樣,難以察覺(jué),保證了雙方交流的互動(dòng)性。同時(shí),據(jù) Salva 介紹,它能支持 70 多種語(yǔ)言和方言,覆蓋了世界上 80% 的人群。針對(duì)雙語(yǔ)家庭,App 里還設(shè)有在兩種語(yǔ)言間進(jìn)行快速切換的按鍵。
兩年前,他帶著 30 年的語(yǔ)音識(shí)別經(jīng)驗(yàn)加入了谷歌的 AI 研究組時(shí),這款產(chǎn)品還未誕生。每次開(kāi)會(huì)他都需要提前預(yù)定 CART 服務(wù),靠字幕員虛擬地加入會(huì)議,來(lái)將語(yǔ)音對(duì)話敲到屏幕上,進(jìn)行轉(zhuǎn)錄。Salva 和同事們便設(shè)想如何能通過(guò)使用現(xiàn)在 Google 的技術(shù)來(lái)減少他準(zhǔn)備過(guò)程。
而今,從山景城到臺(tái)北,這個(gè)模型被不斷優(yōu)化,最終演進(jìn)成了 Live Transcribe。
在短時(shí)間里開(kāi)發(fā)出全新 App 還是得益于谷歌本身的技術(shù)積累。據(jù) Salva 介紹,Live Transcribe 背后的核心技術(shù)是谷歌各種語(yǔ)音搜索應(yīng)用一直在使用自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)技術(shù)。ASR 主要包含特征提取、聲學(xué)模型,語(yǔ)言模型以及字典與解碼四大部分。簡(jiǎn)而言之,其任務(wù)是準(zhǔn)確、高效的將語(yǔ)音信號(hào)轉(zhuǎn)化為文字信息。目前,YouTube 上準(zhǔn)確率極高的實(shí)時(shí)字幕轉(zhuǎn)錄便是得益于谷歌這項(xiàng)技術(shù)的支持。
Live transcribe:每個(gè)人的沙利文老師
但開(kāi)發(fā)過(guò)程并非一帆風(fēng)順。
Salva 說(shuō),一個(gè)便是用戶(hù)實(shí)際使用場(chǎng)景的選擇。他們可以選擇在電腦、平板設(shè)備、或者手機(jī)等硬件設(shè)備上展現(xiàn)轉(zhuǎn)錄結(jié)果,也可以有更大膽的設(shè)計(jì)。例如,他還嘗試用小型投影設(shè)備將轉(zhuǎn)錄出來(lái)的字幕打在 Salva 的 T 恤上。
但對(duì)于聽(tīng)力受損的人來(lái)講,勞動(dòng)力回報(bào)以及收入都相對(duì)較低。據(jù)中國(guó)殘聯(lián)發(fā)布的《2018 年殘疾人事業(yè)發(fā)展統(tǒng)計(jì)公報(bào)》,全國(guó)城鄉(xiāng)持證殘疾人就業(yè)人數(shù)為 948.4 萬(wàn)人,其中靈活就業(yè)(含社區(qū)、居家就業(yè))254.6 萬(wàn)人,從事農(nóng)業(yè)種養(yǎng)加 480.1 萬(wàn)人,幾乎占了絕大部分。在殘疾人家庭人均可支配收入上也與社會(huì)平均水平有較大差距。
考慮到這些原因,在所有智能設(shè)備中,Salva 和團(tuán)隊(duì)最終選擇了智能手機(jī):「目前全球已經(jīng)有 20 億人在使用安卓的手機(jī),這樣的硬件平臺(tái)選擇是成本低廉的?!?/p>
為了讓較為低配的手機(jī)也能使用 Live Transcribe,Salva 和團(tuán)隊(duì)選擇在這款 App 背后使用兩種不同的神經(jīng)網(wǎng)絡(luò)。一個(gè)是在設(shè)備上運(yùn)行神經(jīng)網(wǎng)絡(luò),主要完成聲音分類(lèi)的工作,例如嬰兒哭聲、玻璃破碎聲音等。在對(duì)這些聲音的實(shí)時(shí)轉(zhuǎn)錄中,能夠快速地進(jìn)行分類(lèi)和辨析。第二個(gè)是用于完成語(yǔ)音轉(zhuǎn)錄成文字工作的云端神經(jīng)網(wǎng)絡(luò)模型。
「事實(shí)上,在云端,在 Google 的服務(wù)器上,利用機(jī)器學(xué)習(xí)和這些神經(jīng)網(wǎng)絡(luò)模型進(jìn)行語(yǔ)音的識(shí)別是非常重要的,這意味著這款產(chǎn)品在一些低配的手機(jī)上也能夠運(yùn)行。」Salva 說(shuō)。「當(dāng)它在運(yùn)行的時(shí)候,只會(huì)消耗大概 4M 左右的內(nèi)存空間。我們做了電量使用優(yōu)化,單次充電可以使用 10 個(gè)小時(shí)左右?!?/p>
谷歌想做的是讓每個(gè)聽(tīng)力受損的都能真正使用得起這個(gè)免費(fèi)的 App。實(shí)際上,這個(gè)想法早已有跡可循。
有跡可循:20% 的創(chuàng)新項(xiàng)目
在 2016 年 3 月,Google 就推出了 Accessibility Scanner,這是一款自動(dòng)化工具,用于評(píng)估應(yīng)用程序,并為視覺(jué)和聽(tīng)覺(jué)障礙用戶(hù)提供改進(jìn)方法,例如,通過(guò)擴(kuò)大小型觸摸目標(biāo)或更改對(duì)比度。
2018 年 8 月,Google 又發(fā)布了一項(xiàng)新的開(kāi)放式規(guī)范,旨在啟動(dòng)助聽(tīng)器的開(kāi)發(fā),這種助聽(tīng)器能夠在藍(lán)牙低功耗(LE)的 Android 手機(jī)上運(yùn)行,充足的低延遲和對(duì)電池壽命的影響最小。
這些演進(jìn)蹤跡的源頭卻是一個(gè)偶然。Salva 介紹說(shuō),最初 Live transcribe 只是一個(gè) 20% 創(chuàng)新項(xiàng)目。20% 是在谷歌內(nèi)部一個(gè)著名的鼓勵(lì)文化:鼓勵(lì)員工利用 20% 的時(shí)間用于創(chuàng)新。比如在一周 5 天的工作中,員工能用 1 天的時(shí)間用于研究本職工作外的其他感興趣的項(xiàng)目。如這些創(chuàng)新獲得了進(jìn)一步的證明,便能獲得推廣、完善的機(jī)會(huì),如耳熟能詳?shù)?Google News 和 Gmail 都屬于創(chuàng)新誕生的產(chǎn)物。
當(dāng) Live transcribe 誕生后,在谷歌團(tuán)隊(duì)內(nèi)部其他的聽(tīng)力受損同事之中也廣受好評(píng)。因此,才逐漸走向了 Play 商店。
在研發(fā)過(guò)程中,為了減少周?chē)h(huán)境噪音得影響使轉(zhuǎn)錄效果更好,谷歌還推出了另一款相關(guān)的 App:Sound Amplifier。這款應(yīng)用能夠使用聲音放大器,使音頻更清晰,更容易聽(tīng)到??梢栽?Android 智能手機(jī)上使用帶有線耳機(jī)的聲音放大器來(lái)過(guò)濾,增強(qiáng)和放大環(huán)境中的聲音。
據(jù)世界衛(wèi)生組織估計(jì),到 2055 年,全世界聽(tīng)力受損的人數(shù)將達(dá)到 9 億。雖然不確定那時(shí)的醫(yī)療是否已經(jīng)能夠使人們不再受到聽(tīng)力受損的困擾,但能肯定的是,至少今天正如谷歌所希望的一樣,Live Transcribe 和 Sound Amplifier,正在幫助數(shù)億聾人溝通得更清楚。