火山引擎在機器翻譯多媒體領域的實踐和探索
技術(shù)變革帶來了無限機遇,也帶來了更多的挑戰(zhàn)。作為服務于字節(jié)跳動等大規(guī)模企業(yè)的機器翻譯團隊,火山翻譯不斷在翻譯的各個領域進行探索。如今處于短視頻的風口,火山翻譯如何做到乘風而上?
近日,在第十七屆全國機器翻譯大會(CCMT 2021)上,來自字節(jié)跳動火山翻譯團隊的產(chǎn)品經(jīng)理劉堅就這一話題做了分享。以下是劉堅演講全文:


火山引擎是字節(jié)跳動面向企業(yè)的一個智能科技品牌,就是大家俗稱的 to B——我們面向的是企業(yè)用戶。字節(jié)內(nèi)部也有很多類似的服務是對外開放的?;鹕椒g是火山引擎的核心中臺能力之一,是由我們機器翻譯和自然語言處理部門研發(fā)的。
我們有幾大矩陣產(chǎn)品,產(chǎn)品列表包括同傳相關(guān)的直播翻譯服務、大會服務,通用翻譯的 API 和 SDK,視頻翻譯。能力上包含了文本、語音、圖像、語種識別、交互式翻譯和私有部署。到目前為止,火山翻譯從事翻譯工作已經(jīng)有幾年時間,但真正對外服務只有一年多。此前,火山翻譯都是在內(nèi)部為字節(jié)提供每天上億次的各種場景的翻譯需求,翻譯技術(shù)已經(jīng)得到了驗證。

大家知道字節(jié)跳動,可能都是因為抖音這種app。多媒體內(nèi)容的確也是公司關(guān)注的重點。我們首要的工作除了文本翻譯以外,就是要解決公司內(nèi)部多媒體內(nèi)容的翻譯。
第一個擺在我們面前的就是視頻翻譯的需求。視頻里面一共有兩部分需要被翻譯。第一種是視頻里面可能存在的一些圖片內(nèi)容,或者是一些硬字幕(即內(nèi)嵌字幕:嵌入視頻畫面與視頻畫面融為一體的字幕),它們其實相當于圖像,我們需要對它們進行識別和翻譯。

抖音的深度用戶都知道,抖音視頻里會有很多貼紙,如果要翻譯它們,我們就需要用一個圖片翻譯的引擎,先借助OCR識別,再進行翻譯。
以目前ppt上的圖片(我桌上的日歷)為例。我隨手一拍,然后用我們的圖片翻譯引擎去翻譯。它的特點是能還原一個區(qū)域內(nèi)的顏色。大家可以看到日歷頂部的顏色得以保留,下面文本的位置也基本做到了保持原樣,這樣的方式應用在視頻翻譯中,就可以有比較好的翻譯效果。

語音翻譯的問題比較復雜。視頻中人的講話往往有口音,或者有背景噪音,或者是翻譯之后的語言風格不符合預期。我們不能直接把機器跑出來的結(jié)果傳給觀眾,這樣可能會讓觀眾費解或產(chǎn)生誤解。我們開發(fā)了一個平臺,通過這個平臺可以讓譯者把原來的很多修改工作去通過 AI迅速完成,從而節(jié)約時間。
視頻翻譯技術(shù)在行業(yè)內(nèi)有不少應用,我們著重講一講在直播這個領域的翻譯。
直播有一個比較重要的特點是速度非常快,那么,我們?nèi)绾卧谶@么短的時間之內(nèi)做到對直播進行翻譯,而且保證翻譯質(zhì)量可控呢?
目前業(yè)界有一些產(chǎn)品,提供的字幕是逐字同步ASR的結(jié)果,然后再翻譯。在這種情況下, 往往會有個問題 :它提交給翻譯的API結(jié)果會是一個字或者詞,這個時候翻譯出來的結(jié)果都是基于字和詞處理出來的,如果對于長篇幅的內(nèi)容進行實時翻譯,斷句效果不好的話、翻譯質(zhì)量會很差,無法真正實現(xiàn)對直播內(nèi)容的同傳翻譯。如果用戶是通過譯文來理解會議內(nèi)容的話,難度就會很高,看懂直播的話就更難了。
所以我們自己開發(fā)了一個影院式 AI 字幕的解決方式。原理是這樣的:我們在線上收到一個直播流之后,先把這個直播流進行緩存,再對聲音和畫面進行拆解,并識別聲音。我們形成對應字幕,字幕支持人工進行修改。字幕整句整句地出現(xiàn)在屏幕上,和看電影的效果一樣。在說第一個字的時候,這句話就完整出現(xiàn)了。然后,等這句話全部說完時這個字幕才會消失。

大家可以看一下我們的效果。這是我們在抖音上為日本藝術(shù)家村上隆做的直播首秀。

下一個是我們一位同學模仿的主播帶貨場景。

這種翻譯方式有一個好處:因為字幕是一句句出的,所以我們可以針對一句的內(nèi)容進行配音,用機器去合成。這樣,直播翻譯的效果就比較好。目前這個技術(shù)已經(jīng)在公司內(nèi)部的產(chǎn)品上面進行規(guī)?;瘧?,它可以大大提升不同國家之間跨語言的理解和溝通。
最后介紹一下我們的另外一款智能翻譯產(chǎn)品。
在大會場景下,大家都會遇到看字幕的問題。之前的方案就是在屏幕下方有一個字幕條。這個方案或多或少會有一些問題:其一,如果英國人參加中文會議,他想聽到的語言應該是英語;但如果是日本人或者法國人 ,那么英語可能不是你最理想的選擇。這時候如何能夠生成定制化的字幕?其二,如果在比較大的會場,坐在后排的人其實可能是看不見字幕的。那這個問題怎么解決?所以我們做了一款 AR 智能翻譯眼鏡(在我們展臺可以體驗)。

我們開發(fā)這么多的應用,本質(zhì)上還是為了解決好“機器翻譯算法跟行業(yè)應用之間的最后一公里”的問題。
智能翻譯眼鏡還在不斷優(yōu)化,現(xiàn)在已經(jīng)能實現(xiàn)語音翻譯、會議接入以及圖片翻譯等功能。比如看書、看菜單或者是看路標,都可以用這個眼鏡去翻譯。我們也在探索更多場景,比如最近我們就發(fā)現(xiàn)了一個比較有意思的場景:聽障人士也可以用這款眼鏡來獲取更多信息。
最后,歡迎大家跟我們一起探討更多想法與發(fā)現(xiàn),可以通過關(guān)注公眾號“火山翻譯”聯(lián)系到我們,也可以搜索“火山翻譯”進入我們的官網(wǎng),來體驗我們的翻譯效果。
