機器翻譯:人工智能領域的關鍵核心技術
近年來,機器翻譯(英文Machine Translation,簡稱MT)取得了長足的進步,并獲得一些可喜的成果。作為人工智能領域的關鍵核心技術,MT普遍受到人們的關注和專家的研究。然而,目前MT存在譯文質(zhì)量整體不高、譯后修改工作量較大等問題;這些問題有待解決。
MT技術的發(fā)展一直與計算機科學、語言學、心理學、控制論、信息論等學科的發(fā)展緊密相隨。從早期的詞典匹配,到詞典結(jié)合語言學專家知識的規(guī)則翻譯,再到基于語料庫的統(tǒng)計翻譯;隨著計算機算力的提升和多語言信息的爆發(fā)式增長,MT技術逐漸走出象牙塔,開始為普通用戶提供實時便捷的翻譯服務。
目前主流的MT技術是神經(jīng)網(wǎng)絡翻譯(NMT);它是最近幾年才提出來的一種翻譯方法。相比于傳統(tǒng)的翻譯方法而言,NMT能夠訓練一張能夠從一個序列映射到另一個序列的神經(jīng)網(wǎng)絡,輸出的可以是一個變長的序列,這在翻譯方面能夠獲得比較好的表現(xiàn)??梢哉f,NMT技術已經(jīng)成為當下研究的關鍵和熱點。
目前市場上MT技術相對成熟的是谷歌翻譯和微軟翻譯;它們原來背后的技術即為基于統(tǒng)計的翻譯方法,基本運行原理是通過搜索大量的雙語網(wǎng)頁內(nèi)容,將其作為語料庫,然后由計算機自動選取最為常見的詞與詞的對應關系,最后給出翻譯結(jié)果。而現(xiàn)在谷歌和微軟采用神經(jīng)網(wǎng)絡和深度學習的原理和框架,從而使MT技術有了很大的進步。
然而,無論是哪種翻譯方法,目前影響MT發(fā)展的最大因素在于譯文質(zhì)量。就MT已有的成就來看,譯文質(zhì)量離理想目標(達到高級譯員的翻譯水準)仍相差甚遠。眾所周知,人工翻譯(簡稱“人譯”)的過程是人工譯者集理解、分析、選擇及再創(chuàng)造為一體的綜合操作,是大腦系統(tǒng)思維活動的過程。
MT的譯文質(zhì)量要達到人譯的水準,就必須解開大腦處理語言信息之謎。其實早在20世紀90年代初,中國科學家及未來學家周海中教授就指出:在人類尚未明了大腦是如何進行語言的模糊識別和邏輯判斷的情況下,MT要想達到“信、達、雅”的程度是不可能的。他的這一預言今天已經(jīng)基本成真,很可能成為今后MT發(fā)展的現(xiàn)實。
近年實施的歐洲大腦計劃、美國大腦計劃、中國大腦計劃、日本大腦計劃等都旨在利用計算機模擬人類大腦, 其核心內(nèi)容是神經(jīng)信息學。這一新興前沿學科的研究成果將有助于人們了解大腦是如何進行自然語言處理的,并有望為人工智能領域,尤其是MT技術的進展鋪平道路。
MT要達到人譯的程度還有很長很難的路要走,要解決這一人工智能領域的關鍵核心技術還有待未來科技的發(fā)展,尤其是大腦科學的重大突破。目前人們只能將MT與人譯結(jié)合起來,相輔相成;這既能節(jié)省翻譯的時間和成本,又能翻譯出高質(zhì)量的譯文。