當(dāng) AI 學(xué)會 25 種語言:達(dá)摩院 Babel 如何讓全球 90% 人口共享智能紅利? 原創(chuàng) 精華
阿里巴巴達(dá)摩院推出的Babel多語言大語言模型(LLM)是一項突破性技術(shù),旨在通過支持25種最常用語言(覆蓋全球90%以上人口)來彌合語言鴻溝。其核心技術(shù)特點及創(chuàng)新如下:
1. 模型架構(gòu)與擴(kuò)展技術(shù)
Babel采用結(jié)構(gòu)化層擴(kuò)展方法(Structured Layer Extension),通過增加參數(shù)規(guī)模提升模型能力,而非依賴傳統(tǒng)持續(xù)預(yù)訓(xùn)練(continuous pretraining)。例如:
- Babel-9B:專注于推理效率和微調(diào)優(yōu)化,適合研究與本地化部署;
- Babel-83B:參數(shù)規(guī)模對標(biāo)商業(yè)模型(如GPT-4o),在多語言NLP任務(wù)中刷新性能記錄,平均得分達(dá)73.2,顯著超越Qwen2.5-72B(69.8)和Llama3.1-70B(66.9)。
這一設(shè)計理念與達(dá)摩院早期多語言模型(如PolyLM、SeaLLMs)一脈相承。例如,SeaLLMs通過優(yōu)化非拉丁語言的長文本處理能力(可達(dá)ChatGPT的9倍效率),而PolyLM則通過課程學(xué)習(xí)(curriculum learning)策略實現(xiàn)多語言知識遷移。Babel進(jìn)一步將這些技術(shù)整合,并通過層擴(kuò)展實現(xiàn)規(guī)?;嵘?/p>
2. 語言覆蓋與數(shù)據(jù)優(yōu)化
Babel特別關(guān)注低資源語言的覆蓋,如孟加拉語、烏爾都語、斯瓦希里語、爪哇語等,這些語言在開源LLM中長期被忽視。其數(shù)據(jù)策略包括:
- 多源高質(zhì)量語料:整合Wikipedia、新聞、教科書及結(jié)構(gòu)化語料(如MADLAD-400、CulturaX);
- 基于LLM的質(zhì)量分類器:用于數(shù)據(jù)清洗與篩選,確保訓(xùn)練數(shù)據(jù)的純凈度。
類似技術(shù)曾在Qwen2模型中應(yīng)用,例如使用模型本身過濾低質(zhì)量數(shù)據(jù)并合成新數(shù)據(jù),同時優(yōu)化多語言混合比例以模擬人類學(xué)習(xí)過程。
3. 性能表現(xiàn)
推理與翻譯任務(wù):Babel-9B在MGSM推理任務(wù)中得43.4,F(xiàn)lores-200翻譯任務(wù)中得55.1,均優(yōu)于同類9B模型(如GLM4-9B、Gemma2-9B)。
低資源語言提升:Babel在低資源語言上的表現(xiàn)較此前模型提升5-10%,部分得益于達(dá)摩院在東南亞語言(如高棉語、老撾語)處理上的技術(shù)積累。
4. 應(yīng)用場景與微調(diào)
Babel的監(jiān)督微調(diào)(SFT)模型基于超過100萬對話數(shù)據(jù)集訓(xùn)練,性能接近GPT-4o等商業(yè)模型。這與SeaLLM-chat的文化適應(yīng)性微調(diào)策略類似,后者通過本地化調(diào)整實現(xiàn)對社會規(guī)范和法律背景的精準(zhǔn)理解。
5. 技術(shù)生態(tài)關(guān)聯(lián)
- 與PolyLM的關(guān)系:PolyLM(支持15種非英語語言)可視為Babel的前期探索,兩者均強調(diào)多語言平衡性與課程學(xué)習(xí),但Babel通過更大參數(shù)規(guī)模(83B)和層擴(kuò)展技術(shù)實現(xiàn)躍升。
- 與語音識別項目的區(qū)別:證據(jù)中提及的其他“Babel”項目(如IARPA Babel語音識別計劃)與達(dá)摩院的LLM無直接關(guān)聯(lián),需注意區(qū)分。
總結(jié)
Babel的推出標(biāo)志著達(dá)摩院在多語言LLM領(lǐng)域的技術(shù)整合與突破,其結(jié)構(gòu)化層擴(kuò)展、低資源語言支持及數(shù)據(jù)優(yōu)化策略為行業(yè)樹立了新標(biāo)桿。未來,結(jié)合達(dá)摩院在東南亞語言模型(SeaLLMs)和多語言遷移學(xué)習(xí)(PolyLM)中的經(jīng)驗,Babel有望進(jìn)一步推動全球化AI服務(wù)的普惠性。
本文轉(zhuǎn)載自公眾號Halo咯咯 作者:基咯咯
原文鏈接:??https://mp.weixin.qq.com/s/D0Ks4coVd2rsmuCYJkMG7g??
