3D多語(yǔ)言AI記者來(lái)了，不僅寫(xiě)作、翻譯無(wú)壓力，還能一線報(bào)道國(guó)際體育賽事

作者：貝爽 2020-07-23 09:32:50

近日，字節(jié)跳動(dòng)AI Lab聯(lián)合上海交大研究團(tuán)隊(duì)發(fā)布了全新升級(jí)版AI新聞?dòng)浾遆iaomingbot。

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

世界上首個(gè)3D多語(yǔ)言AI新聞?dòng)浾哒Q生！

近日，字節(jié)跳動(dòng)AI Lab聯(lián)合上海交大研究團(tuán)隊(duì)發(fā)布了全新升級(jí)版AI新聞?dòng)浾遆iaomingbot。Xiaomingbot最早誕生于2016年，曾在2017年獲得吳文俊人工智能技術(shù)發(fā)明獎(jiǎng)。（吳文俊獎(jiǎng)被譽(yù)為中國(guó)智能科學(xué)科技最高獎(jiǎng)，代表著中國(guó)人工智能領(lǐng)域的最高榮譽(yù)）。

據(jù)了解，此次最新版Xiaomingbot除了新聞寫(xiě)作的基本功能外，被賦予了3D動(dòng)畫(huà)形象，能夠配合文本內(nèi)容完成多種語(yǔ)言的新聞播報(bào)任務(wù)。

[[334739]]

Xiaomingbot

3D多功能記者Xiaomingbot

研究人員介紹，Xiaomingbot軟件系統(tǒng)內(nèi)含新聞生成器、翻譯器和跨語(yǔ)言閱讀器和頭像動(dòng)畫(huà)，能夠獨(dú)立完成新聞報(bào)道的整套工作流程。接下來(lái)，我們透過(guò)一場(chǎng)大型體育賽事的demo視頻，來(lái)看下Xiaomingbot同學(xué)的業(yè)務(wù)能力到底如何？

首先是新聞報(bào)道基本任務(wù)-寫(xiě)作?？梢钥闯?，Xiaomingbot的文本生成幾乎是與比賽進(jìn)展同步進(jìn)行。當(dāng)比賽中出現(xiàn)進(jìn)球等特殊賽點(diǎn)時(shí)，Xiaoming會(huì)自動(dòng)抓取信息轉(zhuǎn)換成對(duì)應(yīng)的文本內(nèi)容。如圖中：

左側(cè)為比賽視頻，右側(cè)為生成的新聞

運(yùn)動(dòng)員Chadli成功進(jìn)球贏得一分，Xiaomingbot會(huì)實(shí)時(shí)生成文本：

第90分鐘時(shí)，納賽爾·查德利（Nacer Chadli）抓住了機(jī)會(huì)，為比利時(shí)奪得一分，目前比分為3-2。

妥妥的專業(yè)現(xiàn)場(chǎng)解說(shuō)員。除此之外，Xiaomingbot還能夠根據(jù)數(shù)據(jù)推理出比賽結(jié)果，并附上對(duì)應(yīng)的圖片。

比利時(shí)對(duì)戰(zhàn)日本以3:2獲勝

在2018年世界杯第16輪比賽中，比利時(shí)與日本在7月3日凌晨2點(diǎn)展開(kāi)對(duì)戰(zhàn)。比利時(shí)球員Jan vertonghen，Nacer Chadli，Marouane Fellaini Bakkioui各進(jìn)一球，贏得1分，日本選手Genki Haraguchi和Takashi Inui各進(jìn)一球，最終比利時(shí)以3:2戰(zhàn)勝日本。

研究人員介紹，Xiaomingbot對(duì)數(shù)據(jù)很敏感，如比賽得分、股價(jià)變化、營(yíng)收增減等，因此它非常擅長(zhǎng)體育賽事和財(cái)經(jīng)新聞?lì)I(lǐng)域的寫(xiě)作。

其次是多語(yǔ)言翻譯功能。Xiongmingbot能夠?qū)ν恍侣勆啥喾N語(yǔ)言形式，為全球用戶提供新聞報(bào)道。

分別為葡萄牙語(yǔ)、中文和日語(yǔ)

最重要的是，以上不同語(yǔ)言的文本內(nèi)容可通過(guò)3D動(dòng)畫(huà)實(shí)時(shí)語(yǔ)音播報(bào)。可以看出其頭部、唇部能夠配合文本內(nèi)容同步移動(dòng)，整體效果逼真、自然。

目前，Xiaomingbot在媒體平臺(tái)開(kāi)通了小明看世界、小明財(cái)經(jīng)等多個(gè)社交賬號(hào)，已撰寫(xiě)超過(guò)了60萬(wàn)篇章，吸引了超過(guò)15萬(wàn)名關(guān)注者?？磥?lái)其新聞報(bào)道的專業(yè)度還是受到廣泛認(rèn)可的。

背后的實(shí)現(xiàn)原理

這篇名為《Xiaomingbot: A Multilingual Robot News Reporter》論文已經(jīng)對(duì)外公開(kāi)。通過(guò)論文中的完整工作流程圖，我們可以看到，Xiaomingbot首先需要基于比賽視頻，輸出完整文本信息，并在此基礎(chǔ)上提取最重要和最相關(guān)的內(nèi)容，形成文本摘要，進(jìn)而將文本內(nèi)容，輸送至機(jī)器翻譯、文本到語(yǔ)音轉(zhuǎn)化和頭像動(dòng)畫(huà)三個(gè)模塊，最終呈現(xiàn)出了相應(yīng)的語(yǔ)音和視覺(jué)效果。

完整示例

從Xiongmingbot的系統(tǒng)架構(gòu)來(lái)看，以上功能主要通過(guò)四個(gè)模塊來(lái)實(shí)現(xiàn)，接下來(lái)，我們來(lái)簡(jiǎn)要說(shuō)明以上階段所涉及到的模型，以及它們是如何工作的。

Xiaomingbot系統(tǒng)架構(gòu)

新聞生成：由數(shù)據(jù)到文本的轉(zhuǎn)化和文本總結(jié)兩個(gè)環(huán)節(jié)構(gòu)成；

此前我們提到，Xiongmingbot擅長(zhǎng)數(shù)據(jù)的監(jiān)測(cè)和抓取。為了將數(shù)據(jù)轉(zhuǎn)化為文本，論文中采用了基于table2text技術(shù)的模板轉(zhuǎn)化的方法。

研究人員針對(duì)比賽階段、類型等多個(gè)維度設(shè)計(jì)了不同類型的模板，這些模板通常包含了時(shí)間、得分、犯規(guī)、球員，球隊(duì)名稱及其他多項(xiàng)指標(biāo)。Xiaomingbot系統(tǒng)會(huì)根據(jù)文本需要從中選擇對(duì)應(yīng)的模板類型，并進(jìn)一步轉(zhuǎn)化成文本。

除去數(shù)據(jù)部分，Xiongmingbot還需要基于句子完成文本提取和抽象總結(jié)兩項(xiàng)任務(wù)。在這里，研究人員訓(xùn)練了兩個(gè)匯總模型。一種是基于BERT的常規(guī)文本摘要模型。采用了TTNews數(shù)據(jù)集進(jìn)行訓(xùn)練，其包括了50,000份帶有人工書(shū)面摘要的中文文件。另外一種是針對(duì)諸如足球等體育賽事而訓(xùn)練出的特殊模型。該模型能夠考慮足球比賽結(jié)構(gòu)，以不同方式處理諸如犯規(guī)等重要事件，更好地總結(jié)比賽報(bào)告。

新聞翻譯：采用基于Transformer架構(gòu)的機(jī)器模型實(shí)時(shí)翻譯。

在這里，研究人員預(yù)先訓(xùn)練了多個(gè)神經(jīng)機(jī)器翻譯模型，并采用了最先進(jìn)的Transformer Big Model作為NMT（Neural Machine Translation Systerm）組件。

另外，為了加快翻譯速度，還創(chuàng)建了基于CUDA（Compute Unified Device Architecture）的NMT系統(tǒng)，CUDA是由NVIDIA推出的通用并行計(jì)算架構(gòu)，它比Transformer架構(gòu)的推理速度還要快10倍。

該模型的所使用的訓(xùn)練數(shù)據(jù)集同樣非常龐大，中英轉(zhuǎn)化的數(shù)據(jù)集包含了一億個(gè)并行的句子對(duì)，中日文包含了6000萬(wàn)個(gè)并行句子對(duì)。

新聞讀?。翰捎梦谋镜秸Z(yǔ)音（TTS）合成模型，實(shí)現(xiàn)跨語(yǔ)言輸出。

研究人員所使用的TTS合成模型，只需要一種語(yǔ)言的少量語(yǔ)音作為訓(xùn)練數(shù)據(jù)。如中文語(yǔ)言處理，僅包含數(shù)百名發(fā)言人的語(yǔ)音。另外，該TTS模型具有跨語(yǔ)言的語(yǔ)音克隆機(jī)制，可以簡(jiǎn)單理解為，它可以以與我們之前提供的完全相同的聲音以不同的語(yǔ)言實(shí)現(xiàn)新聞播報(bào)。

頭像動(dòng)畫(huà)：同步唇部與語(yǔ)音輸出動(dòng)作，并完成3D渲染

Xiaomingbot可以生成與TTS模型輸出音頻的同步嘴唇動(dòng)作，并渲染頭發(fā)，衣服等。對(duì)于嘴唇動(dòng)作，研究人員采用的是序列-序列模型（Seq2Seq）。該模型的輸入序列是從TTS模型中提取的音素和相應(yīng)的持續(xù)時(shí)間，而輸出序列則是口型權(quán)重（嘴唇運(yùn)動(dòng)所產(chǎn)生的動(dòng)畫(huà)參數(shù)）。通過(guò)這些不同的口型權(quán)重，Xiaomingbot可以做出許多不同的面部表情。對(duì)于眼部、頭發(fā)及皮膚的渲染，采用了3D渲染引擎Unity和不同的算法。

最后，研究人員表示，Xiaomingbot系統(tǒng)目前只是建構(gòu)多功能AI系統(tǒng)的首次嘗試。其在文本生成、講話、表達(dá)等方面還有很大的局限性和進(jìn)步空間。未來(lái)我們將會(huì)從可擴(kuò)展的工作領(lǐng)域和對(duì)話交互能力兩個(gè)方向進(jìn)行改進(jìn)和提升。

最后為大家奉上Xiaomingbot體育賽事報(bào)道的完整視頻：

責(zé)任編輯：張燕妮來(lái)源：雷鋒網(wǎng)

AI 數(shù)據(jù)人工智能

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

3D多語(yǔ)言AI記者來(lái)了，不僅寫(xiě)作、翻譯無(wú)壓力，還能一線報(bào)道國(guó)際體育賽事

3D多功能記者Xiaomingbot

背后的實(shí)現(xiàn)原理

3D多語(yǔ)言AI記者來(lái)了，不僅寫(xiě)作、翻譯無(wú)壓力，還能一線報(bào)道國(guó)際體育賽事