谷歌開源首個「方言」數(shù)據集:讓機器翻譯更地道
雖然全中國的人都在說漢語,但具體到各地的方言卻略有不同,比如同樣是小巷的意思,「胡同」一開口就知道是老北京了,而到了南方則叫「弄」。
這種細微的地域性差異反應在「機器翻譯」任務上,就會顯得翻譯結果不夠「地道」,而目前幾乎所有的機器翻譯系統(tǒng)都沒有考慮地區(qū)性語言(即方言)的影響。
而在世界范圍內也存在這種現(xiàn)象,比如巴西的官方語言是葡萄牙語,跟歐洲的葡萄牙語之間也有一些地域性差異。
最近谷歌發(fā)布了一個全新的,可用于Few-shot Region-aware機器翻譯的數(shù)據集和評估基準FRMT,主要解決方言翻譯問題,論文發(fā)表在TACL(Transactions of the Association for Computational Linguistics)上。
論文鏈接:https://arxiv.org/pdf/2210.00193.pdf
開源鏈接:https://github.com/google-research/google-research/tree/master/frmt
該數(shù)據集包括從英語到葡萄牙語和中文普通話的兩個地區(qū)變體的專業(yè)翻譯,源文檔是為了能夠詳細分析感興趣的現(xiàn)象,包括詞匯上不同的術語和干擾術語。
研究人員探索了 FRMT 的自動評估指標,并在區(qū)域匹配和不匹配評分情景下驗證了其與專家人工評估的相關性。
最后,為這項任務提出了一些基線模型,并為研究人員如何訓練、評估和比較自己的模型提供指導建議,數(shù)據集和評估代碼已開源。
Few-Shot泛化
大多數(shù)現(xiàn)代機器翻譯系統(tǒng)都經過數(shù)百萬或數(shù)十億翻譯樣本的訓練,輸入數(shù)據包括英語輸入句及其相應的葡萄牙語翻譯。
然而,絕大多數(shù)可用的訓練數(shù)據并沒有說明翻譯的地區(qū)差異。
鑒于這種數(shù)據稀缺性,研究人員將 FRMT 定位為few-shot翻譯的基準,當給定每種語言不超過100個帶標簽的例子時,測量機器翻譯模型識別出指定區(qū)域語言變體的能力。
機器翻譯模型需要根據少量標記過的樣本(即范例)中顯示的語言模式,來識別出其他未標記訓練樣本中的相似模式。模型需要通過這種方式進行泛化,從而生成模型中沒有明確指定區(qū)域的「地道」翻譯結果。
比如輸入句子:The bus arrived,再給定幾個巴西葡萄牙語的例子,模型應該能翻譯出「O ?nibus chegou」;如果給的樣例是歐洲葡萄牙語,模型的翻譯結果應該變?yōu)椤窸 autocarro chegou」。
機器翻譯的few-shot方法是很有研究價值的,能夠以一種非常簡單的方式來對現(xiàn)有系統(tǒng)中增加對額外區(qū)域語言的支持能力。
雖然谷歌目前發(fā)表的工作是針對兩種語言的區(qū)域變體,但研究人員預測,一個好的方法將很容易適用于其他語言和區(qū)域的變體。
從原理上來說,這些方法也適用于其他語言差異現(xiàn)象,例如禮節(jié)和風格等。
數(shù)據收集
FRMT 數(shù)據集包括部分英文維基百科文章,來源于 Wiki40b 數(shù)據集,這些文章已經由付費的專業(yè)翻譯人員翻譯成不同的地區(qū)性的葡萄牙語和漢語。
為了突出關鍵區(qū)域感知的翻譯難題,研究人員使用了三個內容桶(content buckets)來設計數(shù)據集:
1. 詞匯 Lixical
詞匯桶主要關注不同地區(qū)在詞匯選擇上的差異,例如當把一個帶有單詞「bus」的句子分別翻譯成巴西語和歐洲葡萄牙語時,模型需要能夠識別出「?nibus」與「autocarro」的區(qū)別。
研究人員根據博客和教育網站手動收集了20-30個具有地區(qū)特色的翻譯術語,并根據來自每個地區(qū)的母語志愿者的反饋對翻譯進行過濾和審核。
根據得到的英語術語列表,從相關的英語維基百科文章(例如,bus)中提取出100個句子。再對普通話,重復上述相同的的收集過程。
2. 實體 Entity
實體桶以類似的方式填充,涉及的人、位置或其他實體與某一特定語言所涉兩個區(qū)域之一有著密切聯(lián)系。
比如給定一個說明性的句子,如「In Lisbon, I often took the bus.」(在里斯本,我經常坐公共汽車。),為了正確地將其翻譯成巴西葡萄牙語,模式必須能夠識別出兩個潛在的陷阱:
1)里斯本和葡萄牙之間更密切的地理關聯(lián)可能會影響模型翻譯的選擇,從而幫助模型判斷出應該翻譯成歐洲葡萄牙語而非巴西葡萄牙語,即選擇「autocarro」而不是「?nibus」。
2)用「巴西利亞」代替「里斯本」可能是一個比較簡單的方式,對于同一個模式,對巴西葡萄牙語本地化其輸出,即便翻譯結果仍然很流暢,但也可能會導致不準確的語義。
3. 隨機 Random
隨機桶用于檢查一個模型是否正確處理了其他不同的現(xiàn)象,包含從維基百科的featured和good)集合中隨機抽取的100篇文章。
系統(tǒng)性能
為了驗證為 FRMT 數(shù)據集收集的翻譯能夠捕獲特定區(qū)域的現(xiàn)象,研究人員對數(shù)據質量進行了人工評估。
來自每個相應區(qū)域的專家標注員使用多維質量度量(MQM)框架來識別和分類翻譯中的錯誤:該框架包括一個分類加權方案,將識別出的錯誤轉換成一個單一的分數(shù),粗略地表示每句話的主要錯誤數(shù)量,即數(shù)值越小表示翻譯越好。
對于每個地區(qū),研究人員要求 MQM 評分者對來自他們所在地區(qū)的翻譯和來自他們語言的其他地區(qū)的翻譯進行評分。
例如,巴西的葡萄牙語評分員同時對巴西和歐洲的葡萄牙語譯本都進行了評分,兩個分數(shù)之間的差異表明語言現(xiàn)象的普遍性,即該語言變體是否可接受,而并非是另一種語言。
實驗結果發(fā)現(xiàn),在葡萄牙語和漢語中,評分者平均比匹配的譯文中每個句子多發(fā)現(xiàn)大約兩個主要錯誤,表明FRMT數(shù)據集確實能夠捕獲特定區(qū)域的語言現(xiàn)象。
雖然人工評估是確保模型質量的最佳方法,但其往往是緩慢且昂貴的。
因此,研究人員希望找到一個現(xiàn)成的自動度量指標,可以用來評估模型在基準中的性能,研究人員考慮選擇使用 chrF,BLEU 和 BLEURT.
根據 MQM 評估者對幾個基線模型翻譯結果的評分,可以發(fā)現(xiàn) BLEURT 與人類判斷具有最好的相關性,并且該相關性的強度(0.65 Pearson 相關系數(shù),ρ)與標注者間一致性(0.70組內相關性)相當。
系統(tǒng)性能
文中評估了一些最近發(fā)布的、具有few-shot控制能力的模型。
基于 MQM 的人類評估,基線方法都表現(xiàn)出一定的localize葡萄牙語輸出的能力,但是對于中文普通話,大多沒有利用目標地區(qū)的知識來生成優(yōu)秀的當?shù)胤g結果。
在評估的基準中,谷歌的語言模型 PaLM 模型的性能最佳,為了使用 PaLM 生成針對區(qū)域的翻譯,首先將一個有指導意義的提示輸入模型,然后從中生成文本以填充空白。
PaLM 僅通過一個例子就獲得了很好的結果,在葡萄牙語方面,當增加到10個例子時,質量略有提高,考慮到 PaLM 是在無監(jiān)督的情況下進行訓練的,這種表現(xiàn)已經非常好了。
研究結果還表明,像 PaLM 這樣的語言模型可能特別擅長記憶流暢翻譯所需的特定區(qū)域的詞匯選擇。
然而,在 PaLM 和人類之間仍然存在顯著的性能差距。
參考資料:
https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html