14B 小模型逆襲翻譯賽道,論文財報實測超Claude,不信試試“我命由我不由天”
都說通用大模型輕松拿捏翻譯,結(jié)果有人來掀桌了。
來自網(wǎng)易有道的14B翻譯小模型,測試達(dá)行業(yè)第一,翻譯質(zhì)量超越一眾國內(nèi)外主流通用大模型。
它就是子曰翻譯大模型2.0(下文簡稱子曰2.0),在英譯中方面輕松超越Claude 3.5 Sonnet等12個主流通用大模型,中譯英也和Claude 3.5 Sonnet達(dá)到同等水平。
△評測結(jié)果展示,罰分越低代表模型越好
簡單看個實測例子。我命由我不由天,英文怎么說?
子曰2.0:
I’m the master of my destiny。
Claude 3.5 Sonnet:
My fate is in my own hands, not in heaven’s control.
(Alternative translations could be: “I control my destiny, not the heavens” or “My destiny is determined by me, not by fate”)
對比一下,Claude哪怕給出了三個回答,也都沒有子曰的更自然簡潔有力。
翻譯專業(yè)領(lǐng)域時子曰2.0也更準(zhǔn)確。
對照最新版本的Claude-3.7,子曰2.0準(zhǔn)確譯出了醫(yī)學(xué)詞匯“透明細(xì)胞腎細(xì)胞癌”。
但是Claude-3.7卻翻譯成了“清細(xì)胞腎細(xì)胞癌”。
沒想到,在翻譯這類專業(yè)領(lǐng)域上,通用大模型的表現(xiàn)還是有待提高啊。
(被AI取代的焦慮可以暫時緩解緩解了)
所以,為啥垂直領(lǐng)域做個小模型,就能輕松打敗規(guī)模大10倍+的通用大模型呢?
來看子曰2.0的進(jìn)一步表現(xiàn)。
輕松拿捏論文財報專業(yè)翻譯
簡單總結(jié),子曰2.0在更為專業(yè)的翻譯場景下,表現(xiàn)更為突出。
翻譯的基本要求是“信達(dá)雅”,即忠實原文、通順明白、選詞得體。越是專業(yè)的領(lǐng)域,翻譯難度越大。
因此,我們設(shè)置了風(fēng)格迥異的幾個方面來測試專業(yè)翻譯模型和通用大模型的表現(xiàn):
- 論文翻譯
- 財報翻譯
- 詩句翻譯
主要考量的維度包括:
- 準(zhǔn)確度
- 流暢度
- 不必要增減
- 優(yōu)美/地道
首先在語料庫的豐富度上,子曰2.0明顯更勝一籌。
畢竟丟給它“Strawberry Shake-Shake”,它都知道譯為:草莓搖搖奶昔。
在古詩翻譯上,子曰2.0給出的譯文更加傳神、保留意境,同時還兼顧了押韻,進(jìn)一步古詩詞的韻味傳遞到英文之中,還有點翻譯家許淵沖的味道在了。
這種時候,Claude 3.5 Sonnet相形見絀,只是完成了意思上的翻譯,卻沒能做到傳神。
學(xué)術(shù)論文翻譯場景中,對準(zhǔn)確度要求更高,而且不同領(lǐng)域都有各自的專業(yè)詞匯,這要求AI翻譯不僅要掌握海量專有名詞,還能結(jié)合上下文分析出對應(yīng)語境,才能給出正確的譯文。
以翻譯CVPR2025這篇滿分論文為例,給它的翻譯任務(wù)是:翻譯這張圖片的圖注。
(將圖注文字復(fù)制后輸入給模型,不涉及多模態(tài)輸入)
可以看到原文圖注中MSE、MMD都只提供了縮寫。子曰2.0準(zhǔn)確將英文縮寫翻譯為了計算機(jī)領(lǐng)域的專有詞匯,給出了更完整且正確的翻譯(下文標(biāo)粗部分)。
子曰大模型2.0:
圖 1.不同數(shù)據(jù)集蒸餾范式的比較。(a)均方誤差(MSE)方法在歐幾里得空間(記為 ZR)中比較點對點特征,而最大均值差異(MMD)則在希爾伯特空間(ZH)中評估矩差異。
對比Claude 3.5 Sonnet,并沒有做到這一點:
圖1. 不同數(shù)據(jù)集蒸餾范式的比較。(a) MSE方法在歐幾里得空間(記為ZR)中比較逐點特征,而MMD在希爾伯特空間(ZH)中評估矩分布差異。
而對于自己不了解的專有名詞,子曰2.0會選擇不翻譯而不是錯譯。相對于通用大模型,“幻覺”問題進(jìn)一步減少。
比如翻譯蜜雪冰城招股書的內(nèi)容時,原文“according to CIC”部分里的CIC(圖中紅色框),由于提供的文本片段不完整,子曰2.0根據(jù)上下文無法得知它是什么名詞的縮寫,因此選擇不翻譯。
子曰2.0結(jié)果:
Claude 3.5 Sonnet將CIC翻譯成了中投顧問,參考招股書中文版原文,CIC應(yīng)該指灼識咨詢,翻譯錯誤。
此外在譯文用詞方面(圖中綠色框),子曰2.0結(jié)合語境將expansive翻譯為“龐大的”,用來修飾供應(yīng)鏈更貼切;Claude則直譯為了廣泛的,在中文語法上有語病。
語句結(jié)構(gòu)上(圖中粉色框),子曰2.0翻譯的版本也更簡潔、符合國人遣詞造句邏輯。
在醫(yī)學(xué)論文中,對于大段翻譯,子曰2.0的結(jié)果更加自然通順、符合中文文法,也更利于被理解。
比如翻譯論文《Prohormone cleavage prediction uncovers a non-incretin anti-obesity peptide》的討論部分。
對于如下這句的翻譯,Claude 3.5 Sonnet只能做到直譯:
使用基因敲除小鼠研究切割肽很困難,因為像BRP這樣的小肽片段的治療效果可能在缺乏親本蛋白(即BRINP2)的小鼠中無法體現(xiàn)。
子曰2.0的翻譯更符合中文表達(dá)習(xí)慣,先說原因、再說結(jié)果,并讓翻譯結(jié)果更加流暢易懂:
由于小肽片段(如 BRP)的治療效果可能不會在缺乏親本蛋白(即 BRINP2)的小鼠中體現(xiàn)出來,因此使用基因敲除小鼠來研究裂解肽頗具難度。
在更全面維度的評測中,子曰2.0的表現(xiàn)也值得關(guān)注。
一方面,在國際權(quán)威翻譯測試集中,它較上一版本(子曰1.5)有全方位提升。
WMT (Workshop on Machine Translation) 數(shù)據(jù)集是一系列用于機(jī)器翻譯的基準(zhǔn)數(shù)據(jù)集。包含多種語言對的翻譯數(shù)據(jù),這些數(shù)據(jù)通常來自于新聞文章、議會記錄、書籍以及其他公開可用的文本資源。這些數(shù)據(jù)集被廣泛用于訓(xùn)練、評估和比較不同的機(jī)器翻譯系統(tǒng)。
Flores-200 數(shù)據(jù)集是Meta構(gòu)建的一個評估數(shù)據(jù)集,專門用于機(jī)器翻譯的高質(zhì)量基準(zhǔn),涵蓋204種語言,并且允許評估模型在 40,000 種不同語言方向上的性能。
另一方面,通過嚴(yán)謹(jǐn)?shù)娜斯げ杉鞒?,網(wǎng)易有道構(gòu)建了涵蓋人文學(xué)科、商學(xué)、生活服務(wù)、醫(yī)療、科學(xué)等19大領(lǐng)域的數(shù)據(jù)樣本集,并制定了全面精細(xì)的MQM評測方案,從專業(yè)性、準(zhǔn)確性、語言慣例和風(fēng)格等維度打分。
和國內(nèi)外主流通用大模型的評估結(jié)果如下(英譯中):
所以,子曰2.0如何做到?
沒有被取代,反而變更強(qiáng)
以子曰2.0為底座,網(wǎng)易有道翻譯完成了底層技術(shù)的迭代,在算法、數(shù)據(jù)、評估多個維度都帶來創(chuàng)新。
在技術(shù)層面,子曰2.0在數(shù)據(jù)、算法以及評估上都進(jìn)一步升級。
首先,翻譯模型作為一個“文科生”,更高質(zhì)量、更大規(guī)模、更豐富領(lǐng)域的訓(xùn)練語料會直接影響模型的翻譯質(zhì)量。
子曰2.0吸納了由人工清洗的數(shù)千萬高質(zhì)量翻譯數(shù)據(jù),其中包含海量學(xué)術(shù)論文、國際新聞、權(quán)威詞典,可以進(jìn)一步提高模型在專業(yè)維度的翻譯水平,比通用大模型更懂不同垂直領(lǐng)域。
更進(jìn)一步讓專業(yè)翻譯人員為海量提示詞進(jìn)行精細(xì)化標(biāo)注,為模型提供更專業(yè)權(quán)威的參考,以此增強(qiáng)模型領(lǐng)域適應(yīng)性、優(yōu)化上下文理解、提升翻譯質(zhì)量。
其次來看核心算法層面,也是本次迭代的重點。
第一,它以子曰教育大模型為基礎(chǔ)進(jìn)行二次訓(xùn)練,進(jìn)一步提升了模型在翻譯任務(wù)的表現(xiàn),使其更具專業(yè)性和針對性。
第二,通過蒸餾(也是DeepSeek物美價廉背后的關(guān)竅)和大模型融合,子曰2.0在吸收兩個大模型知識的同時,還實現(xiàn)了參數(shù)精簡,能兼顧性能和運行效率、推理效率。
大模型融合通常是將一個或多個“教師”模型的知識傳遞給“學(xué)生”模型,使得學(xué)生模型能夠在學(xué)習(xí)新任務(wù)同時保留舊知識,可以很好避免模型的災(zāi)難性遺忘問題。
第三,引入Online DPO。
DPO是一種基于人類偏好數(shù)據(jù)進(jìn)行優(yōu)化的方法,它避免了傳統(tǒng)強(qiáng)化學(xué)習(xí)中復(fù)雜的獎勵模型訓(xùn)練和策略優(yōu)化過程,將偏好學(xué)習(xí)轉(zhuǎn)化為一個簡單的二分類問題,直接優(yōu)化模型的輸出相對概率。
Online DPO更進(jìn)一步拓展了DPO的能力,在多領(lǐng)域?qū)R中能快速調(diào)整模型以符合特定領(lǐng)域偏好,并允許模型在實時反饋中動態(tài)調(diào)整,確保在不同偏好數(shù)據(jù)上的持續(xù)優(yōu)化。
最后在評估維度,子曰2.0采用了自研翻譯評估模型,其準(zhǔn)確率超越當(dāng)前最先進(jìn)的評估指標(biāo)COMET,為翻譯大模型性能評估提供可靠的量化數(shù)據(jù)。
在人工標(biāo)注與評估上,子曰2.0采用了人工標(biāo)注的開發(fā)集和盲測集。這些數(shù)據(jù)集覆蓋多個領(lǐng)域,由專業(yè)人員精細(xì)化標(biāo)注,并且在評估過程中嚴(yán)格分離開發(fā)集和盲測集,確保結(jié)果的客觀和準(zhǔn)確。
現(xiàn)在,打開網(wǎng)易有道詞典/翻譯,通過AI翻譯即可體驗到子曰2.0的能力。
這意味著,大模型浪潮下,原本被認(rèn)為會被AI取代的翻譯App,通過向大模型借力,正在變得更強(qiáng)。
場景為王趨勢下,垂直賽道玩家“拿釘找錘”,能更快速帶來落地成果。
實際上,在大模型落地趨勢中,場景玩家成為第一批將大模型深度結(jié)合并產(chǎn)生深遠(yuǎn)影響的“探險家”。
比如辦公領(lǐng)域的WPS、飛書;設(shè)計領(lǐng)域的Adobe、美圖秀秀等。它們快速完成AI化升級,并帶來實際營收上的增長。
這共同驗證了一條規(guī)律,大模型浪潮下,相比于一個大模型應(yīng)用承接所有用戶需求,更可能發(fā)生的情況或許是大模型重塑不同垂直應(yīng)用。
大模型是一個全新的工具,來撬動更大的需求和價值。
就以翻譯領(lǐng)域為例,盡管通用模型可以解決一些普通翻譯問題,但是大模型幻覺依舊存在,漏譯、錯譯、多譯的情況時有發(fā)生,對翻譯準(zhǔn)確性敏感的用戶(比如科研人員),對大模型的翻譯結(jié)果依舊無法完全信任。
這不是危言聳聽,而是許多人真實踩過的坑。尤其是在大篇幅翻譯的場景下,人工核對稍有不慎就可能給自己的論文、研究造成負(fù)面影響。
由此,在垂直領(lǐng)域內(nèi),專業(yè)的事或許還得交給專業(yè)的人。大模型時代,我們或許仍舊需要一個專業(yè)的翻譯工具。它可以由AI加持,但是翻譯出的內(nèi)容卻絲毫不帶AI味兒。
大模型東風(fēng)一吹,不只吹來大模型本身,更吹來一眾AI+應(yīng)用。
新的趨勢和浪潮,由他們共同組成。