自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

人工智能 CIOAge
機(jī)器翻譯技術(shù)發(fā)展了80多年,巴別塔的傳說已經(jīng)成為過去,上天是不可能上天的了,但是讓你優(yōu)雅地和全世界討論世界杯,不再手舞足蹈、雞同鴨講,這一點機(jī)器翻譯還是可以做到的!

機(jī)器翻譯技術(shù)發(fā)展了80多年,巴別塔的傳說已經(jīng)成為過去,上天是不可能上天的了,但是讓你優(yōu)雅地和全世界討論世界杯,不再手舞足蹈、雞同鴨講,這一點機(jī)器翻譯還是可以做到的!

01機(jī)器翻譯和巴別塔的傳說

《圣經(jīng)》中記載了這樣一個故事:

  • 人類曾經(jīng)聯(lián)合起來興建能通往天堂的高塔——巴別塔,為了阻止人類的計劃,上帝讓人類說不同的語言,使人類相互之間不能溝通,計劃因此失敗,人類自此各散東西。

實現(xiàn)不同語種之間的無障礙溝通,一直都是人類***夢想之一。

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

在認(rèn)識到不眠不休窮盡人類一生的力量,也只能掌握幾十種語言時,很多科學(xué)家開始思考,如何用機(jī)器來幫助人們?nèi)ソ鉀Q溝通問題,于是機(jī)器翻譯應(yīng)運而生。

機(jī)器翻譯其實是利用計算機(jī)把一種自然語言翻譯成另一種自然語言的過程,基本流程大概分為三塊:預(yù)處理、核心翻譯、后處理。

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

預(yù)處理是對語言文字進(jìn)行規(guī)整,把過長的句子通過標(biāo)點符號分成幾個短句子,過濾一些語氣詞和與意思無關(guān)的文字,將一些數(shù)字和表達(dá)不規(guī)范的地方,歸整成符合規(guī)范的句子。

核心翻譯模塊是將輸入的字符單元、序列翻譯成目標(biāo)語言序列的過程,這是機(jī)器翻譯中最關(guān)鍵最核心的地方。

后處理模塊是將翻譯結(jié)果進(jìn)行大小寫的轉(zhuǎn)化、建模單元進(jìn)行拼接,特殊符號進(jìn)行處理,使得翻譯結(jié)果更加符合人們的閱讀習(xí)慣。

02曲折中前行的機(jī)器翻譯

機(jī)器翻譯的故事始于1933年,從最開始的只是科學(xué)家腦海中一個大膽設(shè)想,到現(xiàn)在大規(guī)模的開始應(yīng)用,機(jī)器翻譯技術(shù)的發(fā)展道路大概有6個階段。

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

起源階段:

機(jī)器翻譯起源于1933年,由法國工程師G.B.阿爾楚尼提出機(jī)器翻譯設(shè)想,并獲得一項翻譯機(jī)專利;

萌芽時期:

  • 1954年,美國喬治敦大學(xué)在IBM公司協(xié)同下用IBM-701計算機(jī)***完成了英俄機(jī)器翻譯試驗,拉開了機(jī)器翻譯研究的序幕;

沉寂階段:

  • 美國科學(xué)院成立了語言自動處理咨詢委員會(ALPAC)于1966年公布了一份名為《語言與機(jī)器》的報告,該研究否認(rèn)機(jī)器翻譯可行性,機(jī)器翻譯研究進(jìn)入蕭條期;

復(fù)蘇階段:

  • 1976年,加拿大蒙特利爾大學(xué)與加拿大聯(lián)邦政府翻譯局聯(lián)合開發(fā)的TAUM-METEO系統(tǒng),標(biāo)志著機(jī)器翻譯的全面復(fù)蘇;

發(fā)展階段:

  • 1993年,IBM的Brown等提出基于詞對齊的統(tǒng)計翻譯模型,基于語料庫的方法開始盛行;
  • 2003年,愛丁堡大學(xué)的Koehn提出短語翻譯模型,使機(jī)器翻譯效果顯著提升,推動了工業(yè)應(yīng)用;
  • 2005年,David Chang進(jìn)一步提出了層次短語模型,同時基于語法樹的翻譯模型方面研究也取得了長足的進(jìn)步;

繁榮階段:

  • 2013年和14年,牛津大學(xué)、谷歌、蒙特利爾大學(xué)研究人員提出端到端的神經(jīng)機(jī)器翻譯,開創(chuàng)了深度學(xué)習(xí)翻譯新時代;
  • 2015年,蒙特利爾大學(xué)引入Attention機(jī)制,神經(jīng)機(jī)器翻譯達(dá)到實用階段;
  • 2016年,谷歌GNMT發(fā)布,訊飛上線NMT系統(tǒng),神經(jīng)翻譯開始大規(guī)模應(yīng)用。

03機(jī)器翻譯的技術(shù)原理

在講機(jī)器翻譯的技術(shù)原理之前,我們先來看一張機(jī)器翻譯技術(shù)發(fā)展歷史圖:

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

20世紀(jì)80年代基于規(guī)則的機(jī)器翻譯開始走向應(yīng)用,這是***代機(jī)器翻譯技術(shù)。隨著機(jī)器翻譯的應(yīng)用領(lǐng)域越來越復(fù)雜,基于規(guī)則的機(jī)器翻譯的局限性開始顯現(xiàn),應(yīng)用場景越多,需要的規(guī)則也越來越多,規(guī)則之間的沖突也逐漸出現(xiàn)。

于是很多科研學(xué)家開始思考,是否能讓機(jī)器自動從數(shù)據(jù)庫里學(xué)習(xí)相應(yīng)的規(guī)則,1993年IBM提出基于詞的統(tǒng)計翻譯模型標(biāo)志著第二代機(jī)器翻譯技術(shù)的興起。

2014年谷歌和蒙特利爾大學(xué)提出的第三代機(jī)器翻譯技術(shù),也就是基于端到端的神經(jīng)機(jī)器翻譯,標(biāo)志著第三代機(jī)器翻譯技術(shù)的到來。

看完了機(jī)器翻譯技術(shù)的迭代發(fā)展,我們來了解下三代機(jī)器翻譯的核心技術(shù):規(guī)則機(jī)器翻譯、統(tǒng)計機(jī)器翻譯、神經(jīng)機(jī)器翻譯。

規(guī)則機(jī)器翻譯

基于規(guī)則的機(jī)器翻譯大概有三種技術(shù)路線,***種是直接翻譯的方法,對源語言做完分詞之后,將源語言的每個詞翻譯成目標(biāo)語言的相關(guān)詞語,然后拼接起來得出翻譯結(jié)果。

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

由于源語言和目標(biāo)語言并不在同一體系下,句法順序有很大程度上的出入,直接拼接起來的翻譯結(jié)果,效果往往并不理想。

于是科研人員提出了第二個規(guī)則機(jī)器翻譯的方法,引用語言學(xué)的相關(guān)知識,對源語言的句子進(jìn)行句法的分析,由于應(yīng)用了相關(guān)句法語言學(xué)的知識,因此構(gòu)建出來的目標(biāo)譯文是比較準(zhǔn)確的。

但這里依然存在著另外一個問題,只有當(dāng)語言的規(guī)則性比較強(qiáng),機(jī)器能夠做法分析的時候,這套方法才比較有效。

因此在此基礎(chǔ)之上,還有科研人員提出,能否借助于人的大腦翻譯來實現(xiàn)基于規(guī)則的機(jī)器翻譯?

這里面涉及到中間語言,首先將源語言用中間語言進(jìn)行描述,然后借助于中間語言翻譯成我們的目標(biāo)語言。

但由于語言的復(fù)雜性,其實很難借助于一個中間語言來實現(xiàn)源語言和目標(biāo)語言的精確描述。

講完了基于規(guī)則的機(jī)器翻譯的三種技術(shù)路線,我們用一張圖來總結(jié)下它的優(yōu)缺點:

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

統(tǒng)計機(jī)器翻譯

機(jī)器翻譯的第二代技術(shù)路線,是基于統(tǒng)計的機(jī)器翻譯,其核心在于設(shè)計概率模型對翻譯過程建模。

比如我們用x來表示原句子,用y來表示目標(biāo)語言的句子,任務(wù)就是找到一個翻譯模型

θ 。

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

最早應(yīng)用于統(tǒng)計翻譯的模型是信源信道模型,在這個模型下假設(shè)我們看到的源語言文本 x是由一段目標(biāo)語言文本 y 經(jīng)過某種奇怪的編碼得到的,那么翻譯的目標(biāo)就是要將 y 還原成 x,這也就是一個解碼的過程。

所以我們的翻譯目標(biāo)函數(shù)可以設(shè)計成***化Pr(𝑥│𝑦),通過貝葉斯公式,我們可以把Pr(𝑥│𝑦)分成兩項,Pr(𝑦) 的語言模型,Pr⁡(𝑦|𝑥)的翻譯模型

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

如果將這個目標(biāo)函數(shù)兩邊同取log,我們就可以得到對數(shù)線性模型,這也是我們在工程中實際采用的模型。

對數(shù)線性模型不僅包括了翻譯模型、語言模型,還包括了調(diào)序模型,扭曲模型和詞數(shù)懲罰模型,通過這些模型共同約束來實現(xiàn)源語言到目標(biāo)語言的翻譯。

講完了統(tǒng)計機(jī)器翻譯的相關(guān)知識,我們來看下基于短語的統(tǒng)計翻譯模型的三個基本步驟:

  1. 源短語切分:把源語言句子切分成若干短語
  2. 源短語翻譯:翻譯每一個源短語
  3. 目標(biāo)短語調(diào)序:按某順序把目標(biāo)短語組合成句子

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

***,我們依舊用一張圖來總結(jié)下基于統(tǒng)計機(jī)器翻譯的優(yōu)缺點:

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

神經(jīng)機(jī)器翻譯

講完了基于規(guī)則的機(jī)器翻譯和基于統(tǒng)計的機(jī)器翻譯,接下來我們來看下基于端到端的神經(jīng)機(jī)器翻譯。

神經(jīng)機(jī)器翻譯基本的建模框架是端到端序列生成模型,是將輸入序列變換到輸出序列的一種框架和方法。

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

其核心部分有兩點,一是如何表征輸入序列(編碼),二是如何獲得輸出序列(解碼)。

對于機(jī)器翻譯而言不僅包括了編碼和解碼兩個部分,還引入了額外的機(jī)制——注意力機(jī)制,來幫助我們進(jìn)行調(diào)序。

下面我們用一張示意圖來看一下,基于RNN的神經(jīng)機(jī)器翻譯的流程:

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

首先我們通過分詞得到輸入源語言詞序列,接下來每個詞都用一個詞向量進(jìn)行表示,得到相應(yīng)的詞向量序列,然后用前向的RNN神經(jīng)網(wǎng)絡(luò)得到它的正向編碼表示。

再用一個反向的RNN,得到它的反向編碼表示,***將正向和反向的編碼表示進(jìn)行拼接,然后用注意力機(jī)制來預(yù)測哪個時刻需要翻譯哪個詞,通過不斷地預(yù)測和翻譯,就可以得到目標(biāo)語言的譯文。

04機(jī)器翻譯的基本應(yīng)用

機(jī)器翻譯的基本應(yīng)用可分為三大場景:信息獲取為目的場景、信息發(fā)布為目的的場景、信息交流為目的場景。

以信息獲取為目的的應(yīng)用場景,可能大家都比較熟悉,比如說翻譯或是海外購物,遇到一些生僻的詞就可以借助機(jī)器翻譯技術(shù),來了解它的真正意思。

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

在信息發(fā)布為目的的場景中,典型的應(yīng)用是輔助筆譯。

大家應(yīng)該都還記得本科畢業(yè)論文需要用英文寫個摘要。不少同學(xué)都是利用谷歌的翻譯,將中文摘要翻譯成英文摘要,然后再做一些簡單的調(diào)序,得出最終的英文摘要,其實這就是一個簡單的輔助筆譯的過程。

第三大場景就是以信息交流為目的場景,主要解決人與人之間的語言溝通問題。

責(zé)任編輯:未麗燕 來源: 簡書
相關(guān)推薦

2021-10-28 17:52:51

機(jī)器翻譯人工智能AI

2016-12-12 09:01:47

Amazon Go核心技術(shù)

2020-01-09 08:42:23

自動駕駛AI人工智能

2025-04-03 07:00:00

2018-03-21 11:05:26

Spark大數(shù)據(jù)應(yīng)用程序

2021-10-13 18:57:59

AI

2025-03-26 09:00:00

AIDeepSeek軟件架構(gòu)

2020-04-06 20:11:26

區(qū)塊鏈分布式核心技術(shù)

2017-04-26 23:10:03

數(shù)據(jù)組織數(shù)據(jù)庫

2020-10-11 22:05:22

機(jī)器翻譯谷歌AI

2017-02-16 18:40:36

2017-02-16 14:29:42

2011-07-04 12:18:20

百度翻譯

2016-02-25 09:31:02

2017-08-21 16:00:14

機(jī)器學(xué)習(xí)機(jī)器翻譯

2017-03-22 12:39:33

人工智能機(jī)器翻譯

2021-09-08 16:40:08

釘釘文檔協(xié)同編輯協(xié)作文檔

2023-03-03 15:32:21

few-shot大語言模型

2022-05-07 14:31:46

物聯(lián)網(wǎng)

2018-09-25 15:28:57

維諦技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號