自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟翻譯又添新語言 —— 文言文

新聞
最近微軟亞洲研究院的研究員們將 AI 技術(shù)應用在文言文/古文與現(xiàn)代漢語之間的雙向互譯,并已集成于微軟 Azure 認知服務以及多個微軟產(chǎn)品中,用戶可以一鍵將文言文翻譯成現(xiàn)代漢語,以及微軟翻譯服務支持的其他90多種語言和方言。

編者按:每當面對美好的時節(jié)、迷人的風景、優(yōu)美的事物時,或許你也禁不住想借古抒懷,然而卻發(fā)現(xiàn)自己的古文詞庫有些匱乏。不過,最近微軟亞洲研究院的研究員們將 AI 技術(shù)應用在文言文/古文與現(xiàn)代漢語之間的雙向互譯,并已集成于微軟 Azure 認知服務以及多個微軟產(chǎn)品中,用戶可以一鍵將文言文翻譯成現(xiàn)代漢語,以及微軟翻譯服務支持的其他90多種語言和方言。

在閱讀古詩詞時,我們常常驚嘆于古人攜風月入墨,落筆如畫,仿佛世間最美的風景,都在古詩詞和文言文中。比如,我們可以在“落霞與孤鶩齊飛,秋水共長天一色”中享受絕美,在“大漠孤煙直,長河落日圓”里體會蒼涼,在“氣蒸云夢澤,波撼岳陽城”中感受壯闊。古代文人對人、事、物、景的諸多描寫,為我們留下了燦爛的文化瑰寶。

然而,當我們讀到北宋詞人柳永筆下描繪的清明節(jié)旖旎春色和社會風情——“拆桐花爛熳,乍疏雨、洗清明。正艷杏燒林,緗桃繡野,芳景如屏。傾城,盡尋勝去,驟雕鞍紺幰出郊坰(zhòu diāo ān gàn xiǎn chū jiāo jiōng)。風暖繁弦脆管,萬家競奏新聲”,這些略顯拗口的古文,對于大多數(shù)人來說理解起來不免有些困難,很難完全體會出詩人所表達的意境。 

圖1:圖片出自明代沈周《西山觀雨圖》,圖中配詩為北宋柳永《木蘭花慢·拆桐花爛漫》 

為了解決這個問題,微軟亞洲研究院的研究員們通過采用最新的神經(jīng)網(wǎng)絡(luò)機器翻譯模型和訓練框架,實現(xiàn)了文言文/古文與現(xiàn)代漢語之間的雙向互譯,以及文言文與微軟翻譯支持的其他90多種語言和方言的互譯。目前,文言文翻譯已經(jīng)集成到了微軟翻譯應用、Azure 認知服務的翻譯工具 API,以及微軟翻譯服務支持的包括 Office 在內(nèi)的多個微軟產(chǎn)品中。 

讓更多人領(lǐng)略中華傳統(tǒng)文化的魅力

不少人與文言文的上一次“親密接觸”大概還停留在學生時代,有些甚至早已遺忘。近年來,無論是漢服文化的流行,還是九大博物館聯(lián)手讓國寶活起來的《國家寶藏》,以現(xiàn)代音樂奏響經(jīng)典詩詞的《經(jīng)典詠流傳》,聚焦文化典籍的《典籍里的中國》等等,全新的展示形式讓越來越多的人重新關(guān)注中華傳統(tǒng)文化的魅力。

文言文是中華傳統(tǒng)文化的重要載體。卷帙浩繁的古書、古文記錄了中華五千年來博大精深的文化,其中沉淀、蘊含的思想和智慧,值得不斷地探索與思考。因此,文言文對于傳承和傳播中華文化至關(guān)重要,正如想理解西方文化的精髓要從讀懂莎士比亞開始一樣。

有了機器翻譯的幫助,游客們在游山玩水時可以看懂古建筑、古碑文上的古文和詩詞,學生們在進行大語文學習時多了一個通過實踐舉一反三的工具,對于古籍的整理和翻譯研究工作來說,也可以提升效率、事半功倍。

“從技術(shù)角度上,文言文可以看作是一個單獨的語種,當文言文與現(xiàn)代漢語實現(xiàn)自由互譯后,文言文與英語、法語、德語等語言的互譯也就水到渠成,”微軟亞洲研究院高級研究員張冬冬說道。屆時,國際友人在閱讀中國經(jīng)典古籍時也能瞬間秒懂,了解更加原汁原味的中華傳統(tǒng)文化。

文言文翻譯 AI 模型的最大難關(guān):訓練數(shù)據(jù)少

人工智能模型訓練最關(guān)鍵的要素是數(shù)據(jù),數(shù)據(jù)體量足夠大、質(zhì)量足夠高,才能訓練出更加精準的模型。在機器翻譯中,模型的訓練更是需要雙語數(shù)據(jù):原文數(shù)據(jù)和目標語言數(shù)據(jù)。由于文言文翻譯極為特殊,它并非日常用語,所以與其他語種的翻譯相比,文言文翻譯的訓練數(shù)據(jù)非常少,并不利于機器翻譯模型的訓練。

盡管微軟亞洲研究院的研究員們前期收集了不少公開的古今漢語數(shù)據(jù),但原始數(shù)據(jù)卻無法直接使用,需要通過數(shù)據(jù)清洗,對數(shù)據(jù)的不同源頭、多樣的格式以及標點符號、全角/半角等進行標準化的統(tǒng)一,盡可能減少無效數(shù)據(jù)對模型訓練的干擾。這樣下來,切實可用的高質(zhì)量數(shù)據(jù)又進一步減少。據(jù)微軟亞洲研究院研究員馬樹銘介紹,為了解決數(shù)據(jù)少的問題,研究員們做了大量的數(shù)據(jù)合成和增強工作,包括:

首先,共用字符對齊、擴展,擴大數(shù)據(jù)量。與英文、法文、俄文等其他語言的翻譯不同,文言文與現(xiàn)代文有相同、共通的字符。利用這個特點,微軟亞洲研究院的研究員們通過創(chuàng)新算法,讓機器翻譯通過對共同字符進行召回、自然對齊,再進一步擴展到詞語、短語、短句,從而合成了大量可用的數(shù)據(jù)。

其次,句式變形,提升機器翻譯的魯棒性。針對句子、詩文不同的斷句,研究員們增加了多種變形,讓機器在古詩文學習方面更全面,例如,古詩《尋隱者不遇》,一般的斷句方式是“松下問童子,言師采藥去”。但對于人來說,即使是“言師采藥去,只在此山中”這樣非正常斷句,看見時也知道它的上下句關(guān)系和意思。但對于沒見過如此斷句的翻譯模型來說,就會“懵”,因此,通過數(shù)據(jù)格式的變形不僅能擴大訓練的數(shù)據(jù)量,也能提升訓練模型翻譯的魯棒性。

第三,繁簡字互譯訓練,增加模型適應性。漢語言中,無論是文言文還是現(xiàn)代文,都存在繁體字。因此,為了提升模型的適應性,研究員們在訓練翻譯模型時,不僅有簡體中文的訓練,還加入了繁體中文的數(shù)據(jù),以及繁簡字夾雜的數(shù)據(jù),讓翻譯模型都能看懂,翻譯也就更精準。

第四,增加集外詞訓練,提升翻譯準確度。在現(xiàn)代語言向文言文翻譯時,還會出現(xiàn)一些集外詞,也就是古漢語中從未出現(xiàn)過的新名詞,如微軟、電腦、高鐵等近現(xiàn)代才出現(xiàn)的實體詞。針對這樣的“意外”,研究員們訓練了一個小模型來識別實體,先將實體之外的意思翻譯完成,再把實體填寫回去,以確保機器對集外詞處理的準確性。

此外,針對非正式文體,如博客、論壇、微博等非正規(guī)的文體,該機器翻譯模型也都進行了針對性的訓練,進一步提升了現(xiàn)代漢語與文言文之間翻譯的魯棒性。

張冬冬表示,“基于當前的翻譯系統(tǒng),我們還將在豐富數(shù)據(jù)集、改進模型訓練方法上不斷精進,使方法變得更加魯棒、通用,未來或許不只是在文言文翻譯中能夠使用,還可以擴展到更多應用場景中。” 

圖2:文言文翻譯流程 

創(chuàng)新技術(shù)助力文化遺產(chǎn)的保護與傳承

中華文明上下五千年的歷史,由于時間和空間的限制,能夠傳承下來,又被后人了解和記錄的內(nèi)容很有限。多年來,微軟亞洲研究院一直致力于將最前沿的技術(shù)和研究成果應用于歷史、文化、考古等方面的保護和傳承,讓文化遺產(chǎn)以更直觀、互動的方式展現(xiàn)在人們面前。

自2005年起,微軟亞洲研究院就基于自然語言處理、機器學習等人工智能技術(shù)研發(fā)了微軟對聯(lián)系統(tǒng),并逐漸增加了微軟字謎和微軟絕句。2010年,微軟亞洲研究院與故宮博物院和北京大學三方合作完成了“走進清明上河圖”沉浸式數(shù)字音畫展示項目的研發(fā),獨創(chuàng)性的三維布局恢復算法和虛擬環(huán)境組織方法,讓觀眾可以身臨其境地欣賞畫中的每個細節(jié),不僅以新方式保護和傳承了書畫類歷史文物,也給傳統(tǒng)博物館在新技術(shù)時代的發(fā)展帶來啟示。2011年,微軟亞洲研究院向敦煌研究院捐贈了專門為敦煌莫高窟量身定制的“飛天號”十億級像素數(shù)字相機系統(tǒng),突破性地解決了敦煌壁畫和佛龕數(shù)字化拍攝過程中的難題。

微軟亞洲研究院還在積極探索與文言文專業(yè)研究機構(gòu)的溝通與合作,期待從技術(shù)角度提升文言文翻譯系統(tǒng)準確性的同時,也能夠獲得專業(yè)性的意見和建議。

最后,讓我們來測試一下你的文言文底蘊到底有多深。請選出以下文言文語句的正確意思:

1《陳情表》:詔書特下,拜臣郎中,尋蒙國恩,除臣洗馬。

  • A:專門下達詔書,授予我郎中的官職;不久又蒙受國家恩典,讓我去給太子洗馬。
  • B:朝廷又特地下了詔書,任命我為郎中,不久又蒙受國家恩命,任命我為太子的侍從。

2《鴻門宴》:臣死且不避,卮酒安足辭?

  • A:我死都不怕,一杯酒有什么可推辭的?
  • B:我喝死都不怕,一杯酒怎么夠呢?

 

責任編輯:未麗燕 來源: 微軟研究院AI頭條
相關(guān)推薦

2020-02-02 17:21:18

語言編程文言文

2019-12-18 15:28:05

編程語言PythonJava

2020-03-12 13:50:59

編程語言PythonJava

2024-07-25 12:31:06

2024-11-06 09:11:33

編程語言程序員

2021-04-02 15:02:42

開源技術(shù) 工具

2020-02-05 15:23:00

語言編程文言文

2012-04-09 09:42:38

虛擬化微軟虛擬化UE-V

2012-04-09 09:24:23

微軟虛擬化UE-V

2021-03-29 09:24:28

編程技能開發(fā)

2021-06-10 12:50:02

編程語言PythonJava

2020-02-06 15:20:21

編程語言PythonJava

2010-04-10 16:56:20

云安全掃描工具惡意攻擊

2011-11-08 10:30:05

Eclipse

2012-07-18 14:10:52

天天電話華為

2011-08-22 20:18:39

江民科技網(wǎng)警

2021-10-13 10:13:03

微信青少年模式移動應用

2013-06-07 10:41:22

微軟Bing Tansla
點贊
收藏

51CTO技術(shù)棧公眾號