3D多語(yǔ)言AI記者來(lái)了,不僅寫(xiě)作、翻譯無(wú)壓力,還能一線報(bào)道國(guó)際體育賽事
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。
世界上首個(gè)3D多語(yǔ)言AI新聞?dòng)浾哒Q生!
近日,字節(jié)跳動(dòng)AI Lab聯(lián)合上海交大研究團(tuán)隊(duì)發(fā)布了全新升級(jí)版AI新聞?dòng)浾遆iaomingbot。Xiaomingbot最早誕生于2016年,曾在2017年獲得吳文俊人工智能技術(shù)發(fā)明獎(jiǎng)。(吳文俊獎(jiǎng)被譽(yù)為中國(guó)智能科學(xué)科技最高獎(jiǎng),代表著中國(guó)人工智能領(lǐng)域的最高榮譽(yù))。
據(jù)了解,此次最新版Xiaomingbot除了新聞寫(xiě)作的基本功能外,被賦予了3D動(dòng)畫(huà)形象,能夠配合文本內(nèi)容完成多種語(yǔ)言的新聞播報(bào)任務(wù)。
Xiaomingbot
3D多功能記者Xiaomingbot
研究人員介紹,Xiaomingbot軟件系統(tǒng)內(nèi)含新聞生成器、翻譯器和跨語(yǔ)言閱讀器和頭像動(dòng)畫(huà),能夠獨(dú)立完成新聞報(bào)道的整套工作流程。接下來(lái),我們透過(guò)一場(chǎng)大型體育賽事的demo視頻,來(lái)看下Xiaomingbot同學(xué)的業(yè)務(wù)能力到底如何?
首先是新聞報(bào)道基本任務(wù)-寫(xiě)作??梢钥闯?,Xiaomingbot的文本生成幾乎是與比賽進(jìn)展同步進(jìn)行。當(dāng)比賽中出現(xiàn)進(jìn)球等特殊賽點(diǎn)時(shí),Xiaoming會(huì)自動(dòng)抓取信息轉(zhuǎn)換成對(duì)應(yīng)的文本內(nèi)容。如圖中:
左側(cè)為比賽視頻,右側(cè)為生成的新聞
運(yùn)動(dòng)員Chadli成功進(jìn)球贏得一分,Xiaomingbot會(huì)實(shí)時(shí)生成文本:
第90分鐘時(shí),納賽爾·查德利(Nacer Chadli)抓住了機(jī)會(huì),為比利時(shí)奪得一分,目前比分為3-2。
妥妥的專業(yè)現(xiàn)場(chǎng)解說(shuō)員。除此之外,Xiaomingbot還能夠根據(jù)數(shù)據(jù)推理出比賽結(jié)果,并附上對(duì)應(yīng)的圖片。
比利時(shí)對(duì)戰(zhàn)日本以3:2獲勝
在2018年世界杯第16輪比賽中,比利時(shí)與日本在7月3日凌晨2點(diǎn)展開(kāi)對(duì)戰(zhàn)。比利時(shí)球員Jan vertonghen,Nacer Chadli,Marouane Fellaini Bakkioui各進(jìn)一球,贏得1分,日本選手Genki Haraguchi和Takashi Inui各進(jìn)一球,最終比利時(shí)以3:2戰(zhàn)勝日本。
研究人員介紹,Xiaomingbot對(duì)數(shù)據(jù)很敏感,如比賽得分、股價(jià)變化、營(yíng)收增減等,因此它非常擅長(zhǎng)體育賽事和財(cái)經(jīng)新聞?lì)I(lǐng)域的寫(xiě)作。
其次是多語(yǔ)言翻譯功能。Xiongmingbot能夠?qū)ν恍侣勆啥喾N語(yǔ)言形式,為全球用戶提供新聞報(bào)道。
分別為葡萄牙語(yǔ)、中文和日語(yǔ)
最重要的是,以上不同語(yǔ)言的文本內(nèi)容可通過(guò)3D動(dòng)畫(huà)實(shí)時(shí)語(yǔ)音播報(bào)。可以看出其頭部、唇部能夠配合文本內(nèi)容同步移動(dòng),整體效果逼真、自然。
目前,Xiaomingbot在媒體平臺(tái)開(kāi)通了小明看世界、小明財(cái)經(jīng)等多個(gè)社交賬號(hào),已撰寫(xiě)超過(guò)了60萬(wàn)篇章,吸引了超過(guò)15萬(wàn)名關(guān)注者??磥?lái)其新聞報(bào)道的專業(yè)度還是受到廣泛認(rèn)可的。
背后的實(shí)現(xiàn)原理
這篇名為《Xiaomingbot: A Multilingual Robot News Reporter》論文已經(jīng)對(duì)外公開(kāi)。通過(guò)論文中的完整工作流程圖,我們可以看到,Xiaomingbot首先需要基于比賽視頻,輸出完整文本信息,并在此基礎(chǔ)上提取最重要和最相關(guān)的內(nèi)容,形成文本摘要,進(jìn)而將文本內(nèi)容,輸送至機(jī)器翻譯、文本到語(yǔ)音轉(zhuǎn)化和頭像動(dòng)畫(huà)三個(gè)模塊,最終呈現(xiàn)出了相應(yīng)的語(yǔ)音和視覺(jué)效果。
完整示例
從Xiongmingbot的系統(tǒng)架構(gòu)來(lái)看,以上功能主要通過(guò)四個(gè)模塊來(lái)實(shí)現(xiàn),接下來(lái),我們來(lái)簡(jiǎn)要說(shuō)明以上階段所涉及到的模型,以及它們是如何工作的。
Xiaomingbot系統(tǒng)架構(gòu)
新聞生成:由數(shù)據(jù)到文本的轉(zhuǎn)化和文本總結(jié)兩個(gè)環(huán)節(jié)構(gòu)成;
此前我們提到,Xiongmingbot擅長(zhǎng)數(shù)據(jù)的監(jiān)測(cè)和抓取。為了將數(shù)據(jù)轉(zhuǎn)化為文本,論文中采用了基于table2text技術(shù)的模板轉(zhuǎn)化的方法。
研究人員針對(duì)比賽階段、類型等多個(gè)維度設(shè)計(jì)了不同類型的模板,這些模板通常包含了時(shí)間、得分、犯規(guī)、球員,球隊(duì)名稱及其他多項(xiàng)指標(biāo)。Xiaomingbot系統(tǒng)會(huì)根據(jù)文本需要從中選擇對(duì)應(yīng)的模板類型,并進(jìn)一步轉(zhuǎn)化成文本。
除去數(shù)據(jù)部分,Xiongmingbot還需要基于句子完成文本提取和抽象總結(jié)兩項(xiàng)任務(wù)。在這里,研究人員訓(xùn)練了兩個(gè)匯總模型。一種是基于BERT的常規(guī)文本摘要模型。采用了TTNews數(shù)據(jù)集進(jìn)行訓(xùn)練,其包括了50,000份帶有人工書(shū)面摘要的中文文件。另外一種是針對(duì)諸如足球等體育賽事而訓(xùn)練出的特殊模型。該模型能夠考慮足球比賽結(jié)構(gòu),以不同方式處理諸如犯規(guī)等重要事件,更好地總結(jié)比賽報(bào)告。
新聞翻譯:采用基于Transformer架構(gòu)的機(jī)器模型實(shí)時(shí)翻譯。
在這里,研究人員預(yù)先訓(xùn)練了多個(gè)神經(jīng)機(jī)器翻譯模型,并采用了最先進(jìn)的Transformer Big Model作為NMT(Neural Machine Translation Systerm)組件。
另外,為了加快翻譯速度,還創(chuàng)建了基于CUDA(Compute Unified Device Architecture)的NMT系統(tǒng),CUDA是由NVIDIA推出的通用并行計(jì)算架構(gòu),它比Transformer架構(gòu)的推理速度還要快10倍。
該模型的所使用的訓(xùn)練數(shù)據(jù)集同樣非常龐大,中英轉(zhuǎn)化的數(shù)據(jù)集包含了一億個(gè)并行的句子對(duì),中日文包含了6000萬(wàn)個(gè)并行句子對(duì)。
新聞讀?。翰捎梦谋镜秸Z(yǔ)音(TTS)合成模型,實(shí)現(xiàn)跨語(yǔ)言輸出。
研究人員所使用的TTS合成模型,只需要一種語(yǔ)言的少量語(yǔ)音作為訓(xùn)練數(shù)據(jù)。如中文語(yǔ)言處理,僅包含數(shù)百名發(fā)言人的語(yǔ)音。另外,該TTS模型具有跨語(yǔ)言的語(yǔ)音克隆機(jī)制,可以簡(jiǎn)單理解為,它可以以與我們之前提供的完全相同的聲音以不同的語(yǔ)言實(shí)現(xiàn)新聞播報(bào)。
頭像動(dòng)畫(huà):同步唇部與語(yǔ)音輸出動(dòng)作,并完成3D渲染
Xiaomingbot可以生成與TTS模型輸出音頻的同步嘴唇動(dòng)作,并渲染頭發(fā),衣服等。對(duì)于嘴唇動(dòng)作,研究人員采用的是序列-序列模型(Seq2Seq)。該模型的輸入序列是從TTS模型中提取的音素和相應(yīng)的持續(xù)時(shí)間,而輸出序列則是口型權(quán)重(嘴唇運(yùn)動(dòng)所產(chǎn)生的動(dòng)畫(huà)參數(shù))。通過(guò)這些不同的口型權(quán)重,Xiaomingbot可以做出許多不同的面部表情。對(duì)于眼部、頭發(fā)及皮膚的渲染,采用了3D渲染引擎Unity和不同的算法。
最后,研究人員表示,Xiaomingbot系統(tǒng)目前只是建構(gòu)多功能AI系統(tǒng)的首次嘗試。其在文本生成、講話、表達(dá)等方面還有很大的局限性和進(jìn)步空間。未來(lái)我們將會(huì)從可擴(kuò)展的工作領(lǐng)域和對(duì)話交互能力兩個(gè)方向進(jìn)行改進(jìn)和提升。
最后為大家奉上Xiaomingbot體育賽事報(bào)道的完整視頻: