495篇參考文獻(xiàn)!北交大清華等高校發(fā)布多語言大模型綜述
雖然大模型取得突破性進(jìn)展,但其在多語言場景下仍具有局限性,存在很大的改善空間。
那么,大模型多語言能力到底什么水平?其發(fā)展又存在什么樣的挑戰(zhàn)?
來自北京交通大學(xué)、加拿大蒙特利爾大學(xué)、加拿大滑鐵盧大學(xué)和清華大學(xué)的研究團(tuán)隊(duì)發(fā)表了題為”A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers” (大模型的多語言能力綜述)的論文,全面回顧了大模型在多語言能力上的最新進(jìn)展與未來發(fā)展方向。
論文鏈接:https://arxiv.org/abs/2405.10936
參考文獻(xiàn)多達(dá)495篇,可見內(nèi)容十分之詳實(shí),很全面很專業(yè)了。
本文首先重新思考了預(yù)訓(xùn)練語言模型從前期工作與當(dāng)前研究之間的過渡。
接著,論文從不同的視角對LLMs進(jìn)行討論,包括訓(xùn)練與推理方法、信息檢索、安全性、多領(lǐng)域與語言文化的融合以及數(shù)據(jù)集的使用。論文還討論了這些方面所面臨的主要挑戰(zhàn),并提出了可能的解決方案。
最后,論文還強(qiáng)調(diào)了未來研究方向,旨在進(jìn)一步提升LLMs的多語言能力。
大語言模型綜述
盡管LLMs已經(jīng)取得了顯著進(jìn)展,但它們在多語言場景中的應(yīng)用仍然有限,特別是在極低資源語言中,這表明LLMs仍有很大的改進(jìn)空間。
其原因在于,LLMs訓(xùn)練數(shù)據(jù)的語言分布高度不平衡,且不同語言的數(shù)據(jù)質(zhì)量差異較大。
當(dāng)前LLMs在多語言場景中由于數(shù)據(jù)匱乏而在不同階段,主要面臨著這些問題。
△LLMs在多語言場景中的主要局限性
基于這些挑戰(zhàn),本文從各個(gè)維度可進(jìn)行了全面的比較分析和多視角探索,展望了未來的發(fā)展方向。
(研究進(jìn)展概覽和綜述的章節(jié)安排,包括代表性模型、推理策略、信息檢索、安全性、多領(lǐng)域場景應(yīng)用、偏見和公平性、數(shù)據(jù)資源以及評測集信息)
一、訓(xùn)練方法
基于訓(xùn)練范式將現(xiàn)有的多語言LLMs分為兩類:
- (1) 從頭開始訓(xùn)練的基礎(chǔ)LLMs;
- (2) 在基礎(chǔ)模型上持續(xù)訓(xùn)練的LLMs。
本節(jié)將對兩種范式訓(xùn)練得到的LLMs的多語言能力進(jìn)行探尋。
△與多語言相關(guān)的預(yù)訓(xùn)練模型發(fā)展的歷史脈絡(luò)
△三年來具有一定多語言能力的代表性 LLM(可訓(xùn)練參數(shù)大于 7B)。
從頭訓(xùn)練的LLMs
為了獲得具有多語言能力的語言模型,一種常見的做法是利用不同語言中的所有可用數(shù)據(jù)進(jìn)行訓(xùn)練。通常會應(yīng)用**語言采樣算法來控制每種語言的重要性。近期的研究表明,根據(jù)Scaling Law,模型的參數(shù)規(guī)模對模型的性能有顯著影響,即更大的模型會帶來更好的性能。
持續(xù)訓(xùn)練的LLMs
另一種提升LLMs多語言能力的方法是持續(xù)訓(xùn)練,這種方法通過使用新數(shù)據(jù)更新模型,而不是從頭開始訓(xùn)練模型。其主要思路是從基礎(chǔ)模型中轉(zhuǎn)移知識,并通過更新的數(shù)據(jù)注入額外的多語言能力,這樣不僅不需要過多的計(jì)算或數(shù)據(jù)資源,還能降低訓(xùn)練成本。
盡管LLMs在非英語語言上取得了顯著進(jìn)展,無論是從零開始訓(xùn)練,還是在基礎(chǔ)模型上持續(xù)訓(xùn)練并擴(kuò)展語言數(shù)據(jù),但仍存在低資源、知識沖突、知識類型單一等問題。
未來研究需要從進(jìn)一步探索優(yōu)化多語言表示空間,根據(jù)任務(wù)需求量身定制架構(gòu),而不是僅僅在標(biāo)準(zhǔn)Transformer上擴(kuò)充數(shù)據(jù),并探索LLMs的終身學(xué)習(xí)能力,以持續(xù)擴(kuò)展LLMs的語言支持。
二、多語言推理策略
多語言推理策略的發(fā)展,對于在不同語言環(huán)境中部署語言模型至關(guān)重要。
主要包括以下幾種。
直接推理
直接推理方法不需要翻譯步驟,從而減少了計(jì)算開銷,并通過提高效率簡化了處理流程。結(jié)果驗(yàn)證了直接推理的優(yōu)點(diǎn),包括保持語言真實(shí)性、提高處理效率以及在低資源語言中的表現(xiàn)提升。
預(yù)翻譯
直接推理可能并不適用于所有LLMs,這取決于它們的多語言能力。預(yù)翻譯推理通過將輸入的多種語言翻譯成一個(gè)高資源語言(例如英語或中文),利用該語言作為中軸語送給LLMs進(jìn)行推理。
多語言思維鏈
多語言CoT方法對于包含特定文化背景中的復(fù)雜推理任務(wù)表現(xiàn)理想,它能夠?qū)崿F(xiàn)更自然和直觀的問題解決。多語言CoT的常見做法是提示LLMs在查詢的原始語言中建立逐步推理過程,從而能夠保留語言和文化的細(xì)微差別。
Code-switching
Code-switching是指在語言互動(dòng)中,溝通者根據(jù)語境需求在兩種或多種語言之間切換的現(xiàn)象。這個(gè)現(xiàn)象在雙語或多語社區(qū)中很常見,特別是在口頭交流中。解決code-switching是一個(gè)重要且具有挑戰(zhàn)性的任務(wù),因?yàn)樵谕评頃r(shí)無法指定所有code-switch文本的語言ID。
多語言檢索增強(qiáng)
多語言RAG的主要方法采用從開放域檢索知識并將其應(yīng)用于上下文中(即增強(qiáng)提示)。當(dāng)LLMs與低資源機(jī)器翻譯結(jié)合使用時(shí),會出現(xiàn)幻覺和偏離目標(biāo)的問題,而RAG可以通過提高低資源語言方向的翻譯質(zhì)量來緩解這些問題。但是單靠RAG方法在低資源語言上實(shí)現(xiàn)顯著提升,尤其是在LLMs表現(xiàn)較差的情況下,仍然是一個(gè)巨大的挑戰(zhàn)。同時(shí),構(gòu)建適用于低資源語言的檢索器也是一個(gè)挑戰(zhàn)。
未來研究方向包括在多語言環(huán)境下為LLMs設(shè)計(jì)通用推理范式,根據(jù)語言特定特征改進(jìn)推理方法,涌現(xiàn)能力和模型協(xié)作。
三、多語言信息檢索
與上一節(jié)介紹的RAG方法(mIR for LLM)有所不同,本節(jié)將重點(diǎn)討論多語言方面,特別是LLM帶來的多語言檢索的新機(jī)會(LLM for mIR)。
綜合訓(xùn)練數(shù)據(jù)
多語言檢索的合成數(shù)據(jù)集傳統(tǒng)上通過機(jī)器翻譯和自然語義結(jié)構(gòu),LLM帶來了第三種方法,即通過生成大規(guī)模合成數(shù)據(jù)來以經(jīng)濟(jì)的方式訓(xùn)練檢索模型。
多語言檢索器
檢索器被分為無監(jiān)督稀疏模型、監(jiān)督稀疏模型和監(jiān)督密集模型,其中密集模型可以進(jìn)一步分為單向量模型和多向量模型。許多基于LLM的embedding模型應(yīng)運(yùn)而生,在檢索任務(wù)方面,基于LLM的embedding模型可以通過微調(diào)來提高領(lǐng)域內(nèi)的效果,并具備較好的領(lǐng)域外的泛化能力。或是通過提示LLMs生成稠密和稀疏的表示,從而在段落檢索任務(wù)上實(shí)現(xiàn)具有競爭力的zero-shot性能。
多語言重排器
論文探索了使用 LLM 作為zero-shot 重排序器的方法,在不依賴封閉源 GPT 模型的情況下構(gòu)建列表式重排序器。GPT-4 在該任務(wù)上表現(xiàn)出具有競爭力的zero-shot性能,甚至在一些語言上與機(jī)器翻譯文檔的zero-shot結(jié)果相當(dāng)。
在可訪問的搜索系統(tǒng)中部署LLM仍面臨挑戰(zhàn),包括索引和搜索過程中的固有高延遲,以及推理和微調(diào)過程中對計(jì)算資源的高需求。當(dāng)前的檢索方法應(yīng)用于LLM,主要將LLM視為一個(gè)知識庫。然而,在低資源語言中,LLM缺乏生成能力且未經(jīng)過大規(guī)模數(shù)據(jù)訓(xùn)練,因此它們難以作為可靠的知識來源。
四、安全性
隨著LLMs在各種應(yīng)用中的廣泛部署,越來越多的安全問題浮出水面。本節(jié)不僅關(guān)注針對不同語言的安全問題,還列舉了常見的安全問題。所研究的方法在所有語言中都同樣有效,并且可以輕松轉(zhuǎn)移到多語言場景中,為未來的研究提供了啟發(fā)性思路。
攻擊方法
一種常見的做法是“越獄”攻擊,通常指的是未經(jīng)授權(quán)訪問或修改模型的底層代碼或功能。實(shí)質(zhì)上,它涉及突破LLMs設(shè)計(jì)或使用政策所施加的限制或約束。它包括繞過安全措施或啟用開發(fā)者未授權(quán)或不允許的功能。LLMs的越獄方法可以分為三種類型:貪婪坐標(biāo)梯度(GCG)越獄、基于提示的越獄和多語言越獄。前兩種方法涉及對LLMs的通用攻擊,后者則強(qiáng)調(diào)通過多種語言進(jìn)行越獄。所有這些方法的目標(biāo)都是繞過LLMs的安全措施,以生成惡意信息。本文基于統(tǒng)一的評估框架調(diào)查了不同越獄方法在各個(gè)LLMs上的表現(xiàn)。
防御方法
LLMs安全性中的防御方法可以分為開源和閉源LLMs兩類。對于開源LLMs,現(xiàn)有的研究通過使用安全指令對基礎(chǔ)模型進(jìn)行微調(diào)來增強(qiáng)安全性。對于閉源LLMs,之前的工作通過審計(jì)輸入提示,采用各種安全判斷策略來防范風(fēng)險(xiǎn)。然而,這些簡單的機(jī)制無法達(dá)到令人滿意的性能,然而,無論采取何種防御機(jī)制,都很難完全消除不安全內(nèi)容的生成。
未來討論
目前,大多數(shù)關(guān)于LLM安全性的研究都是在具有多語言能力的流行模型(如GPT-4和LLaMA)上進(jìn)行的?;趯ΜF(xiàn)有通用攻擊與防御方法的總結(jié),本文探討了兩個(gè)未來研究的方向:
(1)通過針對LLMs的多語言能力進(jìn)行越獄攻擊。
(2)如何提高LLMs在多語言場景下的魯棒性。
五、領(lǐng)域特定場景
LLM同時(shí)促進(jìn)了其在各個(gè)領(lǐng)域的應(yīng)用,包括金融、醫(yī)學(xué)、法律、教育、交通等領(lǐng)域。這些領(lǐng)域特定的LLM在相關(guān)領(lǐng)域中展示了良好性能和廣闊的應(yīng)用前景。然而,這些LLM主要集中在英語上,較少有面向中低資源語言的模型,這極大限制了LLM在全球范圍內(nèi)的應(yīng)用。本章介紹了在醫(yī)學(xué)和法律領(lǐng)域進(jìn)行的開創(chuàng)性多語言研究,并探討其局限性與挑戰(zhàn)。
醫(yī)學(xué)領(lǐng)域
為了緩解醫(yī)學(xué)領(lǐng)域中的多語言問題,現(xiàn)有的研究通常引入多語言醫(yī)學(xué)語料庫,以增強(qiáng)基礎(chǔ)模型的多語言能力,或通過翻譯得到訓(xùn)練語料和評估數(shù)據(jù)。為了進(jìn)一步評估醫(yī)學(xué)LLM的多語言泛化能力,有相關(guān)研究引入了大規(guī)模的多語言醫(yī)學(xué)LLM基準(zhǔn),涵蓋多種語言。但是其主要工作都是圍繞數(shù)據(jù)展開。
法律領(lǐng)域
與醫(yī)學(xué)領(lǐng)域類似,LLM在法律領(lǐng)域的應(yīng)用主要集中在英語上。當(dāng)擴(kuò)展到其他語言時(shí),普遍觀察到性能下降的現(xiàn)象。為了應(yīng)對法律領(lǐng)域的特定問題,所提出的模型需要適應(yīng)法律領(lǐng)域的特征,這些特征與其他領(lǐng)域相比,更加注重事實(shí)性、模糊性、結(jié)構(gòu)化和時(shí)效性。
現(xiàn)有LLM在解決領(lǐng)域問題時(shí)首先要考慮數(shù)據(jù)稀缺與翻譯問題。盡管知識遷移在一定程度上提供了一些緩解,但低資源語言的表現(xiàn)不足問題依然存在。通過機(jī)器翻譯或許是緩解低資源的方法,但是機(jī)器翻譯在處理跨多語言的領(lǐng)域特定術(shù)語時(shí)。翻譯中可能包含本地說話者不常用的術(shù)語或短語,也難以全面理解和考慮目標(biāo)語言的本地文化背景。在特定領(lǐng)域(如法律或金融領(lǐng)域),每種語言都承載著受歷史、文化和地區(qū)背景影響的獨(dú)特知識。除了語言的語義層面,挑戰(zhàn)在于如何捕捉這些語言之間的細(xì)微差異,并將語言特定的領(lǐng)域知識整合到LLM中。例如,歐洲理事會和美國司法體系之間的法律定義差異,以及中醫(yī)和西醫(yī)之間的對比,突顯了這一挑戰(zhàn)。
六、數(shù)據(jù)資源、基準(zhǔn)與評估
論文總結(jié)了現(xiàn)有大模型有關(guān)多語言方面的可用訓(xùn)練數(shù)據(jù)集、基準(zhǔn)數(shù)據(jù)集,并分析了各種評估方法,提出了未來的改進(jìn)方向。
數(shù)據(jù)資源
作為全球說話人數(shù)最多的語言,英語在互聯(lián)網(wǎng)中占據(jù)主導(dǎo)地位。現(xiàn)有的數(shù)據(jù)資源主要以英語為中心,這種集中化導(dǎo)致了區(qū)域性和本地語言資源的匱乏,加劇了語言瀕危和經(jīng)濟(jì)邊緣化問題。低資源語言由于標(biāo)注錯(cuò)誤或本地用法表達(dá)不充分,質(zhì)量較低,尤其是網(wǎng)絡(luò)爬取數(shù)據(jù),這些數(shù)據(jù)主要包含色情、無意義或非語言性內(nèi)容。論文收集了可靠大規(guī)模多語言數(shù)據(jù)資源,但是這些數(shù)據(jù)還存在偏見和公平性問題。
基準(zhǔn)數(shù)據(jù)集
論文列出了2018年mBERT提出之后的代表性多語言基準(zhǔn)測試?,F(xiàn)有基準(zhǔn)測試種類繁多,但這些基準(zhǔn)測試仍然存在諸如任務(wù)種類受限、缺乏文化和本地化語言特征評估的問題。
在多語言數(shù)據(jù)方面,政府、公司和研究人員需要共同推動(dòng)多語言數(shù)據(jù)資源的良性循環(huán)。通過訪問豐富、精心收集的語言數(shù)據(jù)集,研究人員和開發(fā)者能夠構(gòu)建模型和基準(zhǔn)測試。這些模型和基準(zhǔn)測試的豐富性,反過來又促進(jìn)了更多的發(fā)布、加強(qiáng)了溝通,并推動(dòng)了公司在實(shí)際應(yīng)用場景中的應(yīng)用。這些產(chǎn)出有潛力吸引更多的用戶,而政府主導(dǎo)的指南則有助于生成無毒的數(shù)據(jù),這些數(shù)據(jù)可以進(jìn)一步用于研究和開發(fā)。
七、偏見與公平性
LLM在多語言場景中的偏見可以分為語言偏見和人口偏見。前者是由于不同語言可用訓(xùn)練語料的不平衡,人口偏見則源于互聯(lián)網(wǎng)上的偏見和虛假信息,導(dǎo)致LLM不可避免地繼承了性別、種族和政治背景等方面的人口偏見。因此,其他語言中的偏見和倫理問題依然存在,可能對非英語用戶產(chǎn)生顯著的負(fù)面影響。
八、結(jié)論與未來方向
本文全面回顧了大模型多語言能力的關(guān)鍵模塊及其最新進(jìn)展,分析了大型語言模型在其中的應(yīng)用與挑戰(zhàn),并展望了未來的發(fā)展方向。
研究團(tuán)隊(duì)提出了訓(xùn)練范式、推理范式、檢索范式、安全性、多領(lǐng)域和實(shí)際評估方法以及去除偏見的創(chuàng)新,作為推動(dòng)大模型多語言性能邁向新高度的關(guān)鍵要素。
未來研究方向包括:
- 可持續(xù)訓(xùn)練范式:理想的情況是利用新獲得的語言數(shù)據(jù)來提高LLM的性能和支持的語言數(shù)量。盡管哺乳動(dòng)物的大腦可以通過皮層回路保護(hù)先前獲得的知識,避免災(zāi)難性遺忘,但神經(jīng)網(wǎng)絡(luò)模型缺乏這種能力。因此,在多種語言中實(shí)現(xiàn)所有任務(wù)的良好表現(xiàn),這一目標(biāo)仍未被充分探索。
- 通用推理范式:現(xiàn)有技術(shù)集中于利用參數(shù)調(diào)優(yōu)技術(shù)和提示工程來探索LLM的潛在多語言能力。論文提出探索在不額外訓(xùn)練的情況下有效解決語言特定問題(如代碼切換、多語言越獄、跨領(lǐng)域適應(yīng)等)的潛在機(jī)制是有益的。
- 面向?qū)嶋H的評估:為了緩解語言障礙問題,多語言社區(qū)急需構(gòu)建一個(gè)全面且權(quán)威的基準(zhǔn),來評估LLM在多個(gè)方面的多語言能力,這一目標(biāo)可以通過合理結(jié)合多個(gè)基準(zhǔn)或指南來實(shí)現(xiàn),這些基準(zhǔn)或指南應(yīng)由相應(yīng)語言社區(qū)的語言學(xué)專家發(fā)起。
- 多語言中的偏見影響:現(xiàn)有的LLM繼承了訓(xùn)練語料中的偏見,如何讓LLM避免生成有偏見/有風(fēng)險(xiǎn)的內(nèi)容,并具備在不同語言中生成文化概念的能力,是實(shí)現(xiàn)語言公平技術(shù)的重要且有意義的目標(biāo)。
這篇綜述論文為研究人員和工程師提供了對多語言以及大模型領(lǐng)域的全面了解,指引了未來研究和開發(fā)的方向。讓我們共同期待,大模型技術(shù)在多語言場景中的廣泛應(yīng)用和持續(xù)創(chuàng)新!
論文鏈接:
?????https://arxiv.org/abs/2405.10936??
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
