自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

百倍訓(xùn)練效率提升,微軟通用語(yǔ)言表示模型T-ULRv5登頂XTREME

新聞
微軟打造的圖靈通用語(yǔ)言表示模型 T-ULRv5,登頂 Google XTREME 公共排行榜。

[[426879]]

剛剛,微軟打造的最新圖靈通用語(yǔ)言表示模型 T-ULRv5 模型再次成為 SOTA 模型,并在 Google XTREME 公共排行榜上位列榜首。

這項(xiàng)研究由 Microsoft Turing 團(tuán)隊(duì)和 Microsoft Research 合作完成,T-ULRv5 XL 模型具有 22 億參數(shù),以 1.7 分的平均分優(yōu)于當(dāng)前性能第二的模型(VECO)。這也是該系列模型在排行榜上的四個(gè)子類別任務(wù)中最新技術(shù)。

百倍訓(xùn)練效率提升,微軟通用語(yǔ)言表示模型T-ULRv5登頂XTREME

XTREME 排行榜:T-ULRv5 位居榜首。

這些結(jié)果證明了 T-ULRv5 具有強(qiáng)大的能力,此外,其訓(xùn)練速度比前幾代模型快 100 倍。

這一結(jié)果標(biāo)志著微軟重返排行榜榜首,此前微軟的 T-ULRv2 模型也曾位居 XTREME 排行榜首。為了實(shí)現(xiàn)這一最新結(jié)果,研究人員將 XLM-E 模型擴(kuò)大到具有 22 億參數(shù)的 XL 模型,并將其與數(shù)據(jù)、架構(gòu)和優(yōu)化策略方面的突破相結(jié)合,以生成最終的預(yù)訓(xùn)練模型。此外,研究人員還部署了稱為 XTune 的先進(jìn)微調(diào)技術(shù)。

XTREME(Cross-lingual TRansfer Evaluation of Multilingual Encoders)基準(zhǔn)涵蓋 40 種類型不同的語(yǔ)言,跨越 12 個(gè)語(yǔ)言家族,包括九個(gè)任務(wù),這些任務(wù)需要對(duì)不同層次的語(yǔ)法或語(yǔ)義進(jìn)行推理。之所以選擇 XTREME 的語(yǔ)言作為基準(zhǔn),是為了最大限度地增加語(yǔ)言的多樣性、現(xiàn)有任務(wù)的覆蓋面和訓(xùn)練數(shù)據(jù)的可用性。

XTREME 包含的任務(wù)涵蓋了一系列的范例,包括句子文本分類、結(jié)構(gòu)化預(yù)測(cè)、句子檢索和跨語(yǔ)言問(wèn)答。因此,要使模型在 XTREME 基準(zhǔn)測(cè)試中取得成功,模型必須學(xué)習(xí)適用于標(biāo)準(zhǔn)跨語(yǔ)言遷移設(shè)置的表示。

有關(guān)基準(zhǔn)測(cè)試、語(yǔ)言和任務(wù)的完整描述,請(qǐng)參閱論文《 XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization 》。

T-ULRv5:高質(zhì)量且高效的模型

T-ULRv5 是 Turing 模型家族的最新成員,是微軟在大規(guī)模 AI 方面的代表作。這一跨語(yǔ)言模型結(jié)合了微軟近期對(duì) XLM-E 的研究,它能夠編碼來(lái)自 94 種語(yǔ)言的文本,并在共享向量空間中表示。大規(guī)模神經(jīng)網(wǎng)絡(luò)模型領(lǐng)域的前沿研究有很多條探索路線,其中之一就是模型大小,一般大模型往往比小模型表現(xiàn)更好。

在沒(méi)有其他方面創(chuàng)新的情況下增加模型大小通常會(huì)導(dǎo)致對(duì)高成本計(jì)算的低效使用,比如更好的詞匯量、更高質(zhì)量的數(shù)據(jù)、新的訓(xùn)練任務(wù)和目標(biāo)、創(chuàng)新的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練優(yōu)化等等。這一次,研究者在這些方面引入并整合了突破性創(chuàng)新,使得 T-ULRv5 成為高質(zhì)量且高效的模型。

此外,T-ULRv5 還引入了一些重要?jiǎng)?chuàng)新,與其他訓(xùn)練的多語(yǔ)言模型區(qū)分開來(lái),使得 SOTA 模型的訓(xùn)練效率大大提高。

模型架構(gòu)、預(yù)訓(xùn)練和任務(wù)

T-ULRv5 同為 transformer 架構(gòu),該架構(gòu)在新興的基礎(chǔ)模型和多語(yǔ)言模型(如 mBERT、mT5、XLM-R 和之前版本的 T-ULRv2)中很受歡迎。具體而言,這次預(yù)訓(xùn)練的最大變體 T-ULRv5 XL 具有 48 個(gè) transformer 層、1536 個(gè) hidden dimension size、24 個(gè)注意力頭、500000 個(gè) token 的多語(yǔ)言詞匯量,以及參數(shù)量總共為 22 億。

與此前的 InfoXLM 有所不同,T-ULRv5 背后的技術(shù) XLM-E 是啟發(fā)于 ELECTRA 的。它沒(méi)有選擇 InfoXLM 的 MMLM(多語(yǔ)言掩碼語(yǔ)言建模)和 TLM(翻譯語(yǔ)言建模)預(yù)訓(xùn)練任務(wù),而是采用了兩個(gè)新任務(wù) MRTD(多語(yǔ)言替換 token 檢測(cè))和 TRTD(翻譯替換 token 檢測(cè)),目標(biāo)是區(qū)分真實(shí)輸入 token 和損壞的 token。

百倍訓(xùn)練效率提升,微軟通用語(yǔ)言表示模型T-ULRv5登頂XTREME

圖 2:MRTD 預(yù)訓(xùn)練任務(wù)。生成器預(yù)測(cè)輸入中的掩碼 tokens,鑒別器預(yù)測(cè)每個(gè) token 是否被生成器樣本替換。

百倍訓(xùn)練效率提升,微軟通用語(yǔ)言表示模型T-ULRv5登頂XTREME

圖 3:TRTD 預(yù)訓(xùn)練任務(wù)。生成器預(yù)測(cè)輸入中翻譯對(duì)上的掩碼 tokens,鑒別器預(yù)測(cè)每個(gè) token 是否被生成器樣本替換。

和 ELECTRA 一樣,T-ULRv5 的訓(xùn)練涉及兩個(gè) transformer 編碼器,分別用作生成器和鑒別器。但和僅在英語(yǔ)數(shù)據(jù)集上訓(xùn)練的 ELECTRA 不同,T-ULRv5 在大規(guī)模多語(yǔ)言數(shù)據(jù)集上進(jìn)行了訓(xùn)練,包括平行文本語(yǔ)料庫(kù)。

研究者讓模型通過(guò)使生成器預(yù)測(cè)單語(yǔ)輸入和翻譯對(duì)上的掩碼 tokens,以更好地學(xué)習(xí)跨語(yǔ)言對(duì)齊和共享表征。完成預(yù)訓(xùn)練后,僅使用鑒別器作為文本編碼器對(duì)下游任務(wù)進(jìn)行微調(diào)。

訓(xùn)練效率提高 100 倍

現(xiàn)有的基于掩碼語(yǔ)言建模 (MLM) 的跨語(yǔ)言預(yù)訓(xùn)練方法通常需要大量計(jì)算資源,成本非常昂貴。相比之下,XLM-E 的訓(xùn)練速度明顯更快,它在各種跨語(yǔ)言理解任務(wù)上的表現(xiàn)優(yōu)于基線模型,而且計(jì)算成本要低得多。例如,使用相同的語(yǔ)料庫(kù)、代碼庫(kù)和模型大?。?2 層),研究者將 XLM-E(在圖 4 中用紅線表示)與 Facebook 多語(yǔ)言 XLM-R 模型的內(nèi)部版本進(jìn)行了比較翻譯語(yǔ)言建模(XLM-R + TLM,在圖 4 中用藍(lán)線表示)。

可以觀察到, XLM-E 的訓(xùn)練速度提高了 130 倍以達(dá)到相同的 XNLI 精度。12 層的 XLM-E 基礎(chǔ)模型在 64 個(gè) NVIDIA A100 GPU 上僅用了 1.7 天就完成了訓(xùn)練。

在 22 億參數(shù)的情況下,性能最佳的 T-ULRv5 XL 模型受益于 XLM-E 顯著提高的訓(xùn)練效率,用不到兩周的時(shí)間在 256 個(gè) NVIDIA A100 GPU 上完成了訓(xùn)練。引入新的 TRTD 任務(wù)與 RTD 任務(wù)以及網(wǎng)絡(luò)架構(gòu)的變化相結(jié)合,提升了模型的收斂速度和質(zhì)量。

百倍訓(xùn)練效率提升,微軟通用語(yǔ)言表示模型T-ULRv5登頂XTREME

圖 4。

多語(yǔ)言訓(xùn)練數(shù)據(jù)

T-ULRv5 性能的改進(jìn),一部分來(lái)自更好的訓(xùn)練數(shù)據(jù)和更大的詞匯量。訓(xùn)練一個(gè)支持 94 種語(yǔ)言、具有 22 億參數(shù)的模型,需要高數(shù)量、高質(zhì)量的數(shù)據(jù)集。在多語(yǔ)言語(yǔ)料庫(kù)中,許多語(yǔ)料是來(lái)自網(wǎng)絡(luò),從而使得語(yǔ)料庫(kù)在高資源語(yǔ)言和低資源語(yǔ)言之間存在很大的表示差異,特別是在數(shù)據(jù)量、清潔度和多樣性方面。研究人員在數(shù)據(jù)工程和清理步驟上投入了大量精力,以大規(guī)模生成高質(zhì)量的數(shù)據(jù)集來(lái)支持 T-ULRv5 訓(xùn)練。

擴(kuò)大詞匯量

隨著數(shù)據(jù)集的更新,研究者還構(gòu)建了一個(gè)包含 500000 個(gè) token 的新詞匯表,比 T-ULRv2 大兩倍,這進(jìn)一步提高了 T-ULRv5 模型在語(yǔ)言上的性能。關(guān)于詞匯擴(kuò)展的工作,感興趣的讀者,可以參考論文《Allocating Large Vocabulary Capacity for Cross-lingual Language Model Pre-training》獲得更多細(xì)節(jié)。

百倍訓(xùn)練效率提升,微軟通用語(yǔ)言表示模型T-ULRv5登頂XTREME

微軟表示,研究人員正在探索多語(yǔ)言技術(shù),通過(guò)解決諸如缺乏訓(xùn)練數(shù)據(jù)、語(yǔ)言建模的高成本以及多語(yǔ)言系統(tǒng)的復(fù)雜性等障礙來(lái)幫助實(shí)現(xiàn)人工智能的簡(jiǎn)單化。T-ULRv5 是一個(gè)重要里程碑,因?yàn)槠淇缯Z(yǔ)言可遷移性和 zero-shot 應(yīng)用程序范式為開發(fā)跨語(yǔ)言系統(tǒng)提供了一個(gè)更高效和可擴(kuò)展的框架。

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2012-11-21 17:35:21

Oracle技術(shù)嘉年華

2023-05-31 07:24:48

2023-04-14 07:09:04

2018-10-11 15:18:23

阿里云數(shù)據(jù)庫(kù)數(shù)據(jù)

2023-06-26 22:15:14

ChatGPT思維模型

2024-08-01 08:06:11

虛擬線程性能

2014-11-11 15:57:07

2018-06-26 15:23:34

華為云

2017-08-09 10:02:12

NMT神經(jīng)網(wǎng)絡(luò)自然語(yǔ)言處理

2021-04-19 05:44:18

顯示器Twinkle Tra亮度調(diào)節(jié)

2024-03-19 10:55:34

Spark

2013-09-23 10:03:29

擬態(tài)計(jì)算機(jī)能效

2022-05-26 08:12:39

PandasApply技巧

2024-01-29 00:24:07

圖像模型預(yù)訓(xùn)練

2017-03-01 17:24:05

5G5G網(wǎng)絡(luò)4G

2020-11-04 15:30:46

神經(jīng)網(wǎng)絡(luò)訓(xùn)練標(biāo)簽

2016-07-28 10:03:03

Intel

2022-07-15 09:25:01

AI制藥
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)