聯(lián)想與巴西創(chuàng)新中心CESAR利用人工智能讓聽力正常人看懂手語
聯(lián)想和巴西累西腓高級研究與系統(tǒng)中心(CESAR)開發(fā)了一款基于人工智能(AI)的應(yīng)用程序,能夠為聽力正常的人“翻譯”手語。
根據(jù)巴西地理與統(tǒng)計研究所 (IBGE) 數(shù)據(jù)顯示,巴西有超過 230 萬人因嚴重耳聾而面臨溝通困難,他們使用巴西手語 (Libra) 和葡萄牙手語 (LGP) 以及幾種地區(qū)手語為方言。這一挑戰(zhàn)的規(guī)模和復雜性促使聯(lián)想啟動了為期五年的研發(fā)項目,投資額超過 400 萬美元。
聯(lián)想和CESAR利用包含數(shù)千個巴西手語視頻的數(shù)據(jù)庫,開發(fā)了一項獲得專利的人工智能技術(shù),能夠以視覺方式識別個人手勢并將其置于上下文中。CESAR 和聯(lián)想將該舉措描述為世界首創(chuàng),具有普遍應(yīng)用的潛力。
聯(lián)想巴西研發(fā)總監(jiān) Hildebrando Lima 在接受《福布斯》采訪時表示:“我們相信,對這些人的影響將比在線翻譯對書面語言的影響更大?!?/p>
Lima指出:“在在線翻譯之前,已經(jīng)有了在線詞典,但它們并沒有解決許多人在理解符號時面臨的困難——有時是由于缺乏練習或缺乏學習材料和講師”,并補充說這項技術(shù)將會崩潰當這些障礙充分發(fā)展時。
實時聊天翻譯工具允許聽力障礙者對設(shè)備的攝像頭進行簽名,然后算法將其立即翻譯成葡萄牙語文本,供另一方的接收者使用。人工智能及其附帶的數(shù)據(jù)庫不是單獨翻譯每個手勢,而是通過分析手部輪廓以及最重要的是手語者骨骼的數(shù)字樞軸點來識別手部形狀。通過準確處理這些動作,該算法可以識別句子結(jié)構(gòu)并將其轉(zhuǎn)換為葡萄牙語的文本。
該系統(tǒng)基于深度學習神經(jīng)網(wǎng)絡(luò),架構(gòu)類似于GPT-3等模型,用于葡萄牙語到巴西手語的翻譯和識別,便于實時手語翻譯。為了生成手語視頻,這些組織使用生成對抗網(wǎng)絡(luò) (GAN) 模型創(chuàng)建了一個合成口譯員(類人虛擬化身)。
然而,CESAR 高級技術(shù)數(shù)據(jù)科學家經(jīng)理 Vitor Casadei 表示,應(yīng)用程序的復雜性要求開發(fā)人工智能系統(tǒng)來自動執(zhí)行眾多任務(wù)?!袄?,團隊精心設(shè)計的計算機視覺系統(tǒng)促進了訓練數(shù)據(jù)庫(用于訓練標志識別模型的記錄)的創(chuàng)建”,該高管指出。
一個由 80 人組成的團隊(其中包括 5 名聽力障礙專業(yè)人員)參與了該項目以及該系統(tǒng)所服務(wù)的社區(qū)。Casadei說:“除了團隊中的聾人專業(yè)人士之外,聽力障礙社區(qū)的參與對于該項目也至關(guān)重要?!彼a充說,有數(shù)十名聾人參與了該工具的設(shè)計、驗證和測試過程。
全球意義
聯(lián)想的計劃是將系統(tǒng)的使用擴展到全球其他手語,利用正在申請專利的程序,利用不同手語之間的共性來加快學習過程。
“多項研究表明,手語與口語有一些共同點。我們開發(fā)了一種技術(shù),考慮到這一事實,因此可以利用[巴西手語]培訓中學到的知識,加速學習其他手語,取得了非常有希望的成果”,CESAR 的Casadei說。
聯(lián)想的 Lima 表示,計劃到 2024/25 年將該項目擴展到國際市場,首先是拉丁美洲和美國。“我們認為(美國)的用例需求非常相似”,該高管表示。
雖然最初的重點在于銀行和零售等領(lǐng)域,但最終目標是在任何公共服務(wù)環(huán)境中部署應(yīng)用程序,無論是虛擬的、物理的還是混合的。此外,聯(lián)想還計劃向開發(fā)者社區(qū)提供軟件開發(fā)套件(SDK),進一步推動聽力障礙解決方案的開發(fā)。
隱私也是整個項目開發(fā)過程中的一個關(guān)鍵問題。所有參與者,從參與記錄的參與者到參與驗證和測試的參與者,都簽署了一份文件,授權(quán)將其貢獻用于研究,符合巴西的通用數(shù)據(jù)保護條例 (LGPD)。
CESAR 的 Casadei表示,為了保護用戶隱私,這些模型被設(shè)計為僅從攝像頭捕獲用于識別標志的基本數(shù)據(jù),例如手形或身體動作。該高管指出:“從該數(shù)據(jù)集中無法識別特定人員,這確保了通用數(shù)據(jù)保護條例合規(guī)性,同時尊重用戶隱私。”
隨著越來越多的人使用該工具,該工具將不斷得到改進。這些練習將涉及不斷添加標志記錄、收集用戶反饋以及改進應(yīng)用程序的校準過程。CESAR 首席執(zhí)行官表示:“該團隊還開始了一些主動學習(一種讓學生通過討論、解決問題和角色扮演進行互動學習的教學方法)的實驗,盡管仍有許多工作要做,但取得了可喜的成果”。
CESAR 和聯(lián)想還探索了該工具在教育領(lǐng)域的潛力,特別是在手語教學方面。這些公司已提交了該領(lǐng)域的多項專利,目前正在接受審查。雖然手語“翻譯器”目前不包括針對能說話但聽不見的用戶的語音識別功能,但這是未來發(fā)展持續(xù)討論的話題。
最終,該系統(tǒng)旨在促進聾啞人作為溝通者而不只是接受者積極參與,打破現(xiàn)有障礙并促進更具包容性的社會。Lima總結(jié)道:“我們完全相信這項技術(shù)將徹底改變聽力和聽力障礙者之間的互動?!?/p>