自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

重回榜首的BERT改進(jìn)版開源了,千塊V100、160GB純文本的大模型

新聞 開源
前段時間 Facebook 創(chuàng)建的改進(jìn)版 BERT——RoBERTa,打敗 XLNet 登上了 GLUE 排行榜榜首。

 前段時間 Facebook 創(chuàng)建的改進(jìn)版 BERT——RoBERTa,打敗 XLNet 登上了 GLUE 排行榜榜首。近日,F(xiàn)acebook 公開了該模型的研究細(xì)節(jié),并開源了模型代碼。

BERT 自誕生以來就展現(xiàn)出了卓越的性能,GLUE 排行榜上前幾名的模型一度也大多使用 BERT。然而,XLNet 的橫空出世,

打破了 BERT 的紀(jì)錄

。不過,不久之后,劇情再次出現(xiàn)反轉(zhuǎn),F(xiàn)acebook 創(chuàng)建的改進(jìn)版 BERT——RoBERTa,登上了 GLUE 排行榜榜首。

重回榜首的BERT改進(jìn)版開源了,千塊V100、160GB純文本的大模型

圖源:https://gluebenchmark.com/leaderboard/

Facebook 的研究人員表示,如果訓(xùn)練得更久一點(diǎn)、數(shù)據(jù)再大一點(diǎn),

BERT 就能重返SOTA

。

那么 RoBERTa 到底訓(xùn)練了多長時間,使用了多少數(shù)據(jù)呢?近日,F(xiàn)acebook 研究人員公開了研究細(xì)節(jié)。

論文地址:https://arxiv.org/pdf/1907.11692.pdf

GitHub 地址:https://github.com/pytorch/fairseq/tree/master/examples/roberta

RoBERTa 到底有多大

之前 XLNet 團(tuán)隊(duì)就對標(biāo)準(zhǔn)的 BERT 和 XLNet

做過一次公平的對比

,他們測試了在相同參數(shù)水平、預(yù)訓(xùn)練數(shù)據(jù)、超參配置等情況下兩者的效果。當(dāng)然,XLNet 通過修改架構(gòu)與任務(wù),它的效果是全面超過標(biāo)準(zhǔn) BERT 的。但如果 BERT 要再次超越 XLNet,那么數(shù)據(jù)和算力都需要更多。

算力

據(jù)介紹,F(xiàn)acebook 研究人員在多臺 DGX-1 計(jì)算機(jī)上使用混合精度浮點(diǎn)運(yùn)算,每臺計(jì)算機(jī)具備 8 個 32GB Nvidia V100 GPU,這些 GPU 通過 Infiniband 連接。

但研究者并沒有具體說 RoBERTa 使用了多少張 V100 GPU 訓(xùn)練了多長時間,我們只能了解到他們訓(xùn)練 Large 模型用 1024 塊 V100 訓(xùn)練了一天,這樣以谷歌云的價(jià)格來算需要 6.094 萬美元。如下是原論文所述:

We pretrain for 100K steps over a comparable BOOKCORPUS plus WIKIPEDIA dataset as was used in Devlin et al. (2019). We pretrain our model using 1024 V100 GPUs for approximately one day.

因?yàn)?XLNet 的 TPU 訓(xùn)練價(jià)格也是 6 萬美元,而且直觀上用 GPU 訓(xùn)練會比 TPU 貴,所以我們根據(jù)上面的描述猜測 6.094 萬美元是在 BOOKCORPUS 加 WIKIPEDIA 數(shù)據(jù)集上訓(xùn)練的成本。此外,XLNet 數(shù)據(jù)集擴(kuò)充十倍,它的 TPU 訓(xùn)練成本也增加了 5 倍,也許 RoBERTa 也遵循同樣的規(guī)則?

數(shù)據(jù)

BERT 模型預(yù)訓(xùn)練的關(guān)鍵是大量文本數(shù)據(jù)。Facebook 研究人員收集了大量數(shù)據(jù)集,他們考慮了五個不同大小、不同領(lǐng)域的英語語料庫,共有 160GB 純文本,而 XLNet 使用的數(shù)據(jù)量是 126GB。這些語料庫分別是:

  • BOOKCORPUS (Zhu et al., 2015) 和英語維基百科:這是 BERT 訓(xùn)練時所用的原始數(shù)據(jù) (16GB);
  • CC-NEWS:Facebook 研究人員從 CommonCrawl News 數(shù)據(jù)集的英語部分收集到的數(shù)據(jù),包含 2016 年 9 月到 2019 年 2 月的 6300 萬英語新聞文章(過濾后有 76GB 大?。?;
  • OPENWEBTEXT (Gokaslan and Cohen, 2019):Radford et al. (2019) 中介紹的 WebText 語料庫的開源克隆版本。其中包含爬取自 Reddit 網(wǎng)站共享鏈接的網(wǎng)頁內(nèi)容 (38GB);
  • STORIES:Trinh and Le (2018) 中提到的數(shù)據(jù)集,包含 CommonCrawl 數(shù)據(jù)的子集,該數(shù)據(jù)集經(jīng)過過濾以匹配 Winograd schemas 的故事性風(fēng)格 (31GB)。

這樣的數(shù)據(jù)量已經(jīng)非常大了,它是原來 BERT 數(shù)據(jù)量的十多倍。但正如 XLNet 作者楊植麟所言,數(shù)據(jù)量大并不一定能帶來好處,我們還需要在數(shù)量與質(zhì)量之間做權(quán)衡。也許十倍量級的數(shù)據(jù)增加,可能還不如幾倍高質(zhì)量數(shù)據(jù)帶來的提升大。

RoBERTa 到底是什么

Facebook 對 BERT 預(yù)訓(xùn)練模型進(jìn)行了復(fù)現(xiàn)研究,對調(diào)參和訓(xùn)練數(shù)據(jù)規(guī)模的影響進(jìn)行了評估,發(fā)現(xiàn) BERT 訓(xùn)練嚴(yán)重不足。于是他們提出了 BERT 的改進(jìn)版——RoBERTa,它可以匹敵甚至超過所有 post-BERT 方法的性能。

這些改進(jìn)包括:

  • 模型訓(xùn)練時間更長,batch 規(guī)模更大,數(shù)據(jù)更多;
  • 移除「下一句預(yù)測」這一訓(xùn)練目標(biāo);
  • 在更長的序列上訓(xùn)練;
  • 動態(tài)改變應(yīng)用于訓(xùn)練數(shù)據(jù)上的掩碼模式。

Facebook 研究人員還收集了一個新型大數(shù)據(jù)集 CC-NEWS,以更好地控制訓(xùn)練數(shù)據(jù)集規(guī)模的影響。CC-NEWS 數(shù)據(jù)集的規(guī)模與其他私人使用數(shù)據(jù)集差不多。

總之,F(xiàn)acebook 研究人員關(guān)于 RoBERTa 的研究貢獻(xiàn)可以總結(jié)如下:

  • 展示了一組重要的 BERT 設(shè)計(jì)選擇、訓(xùn)練策略,介紹了一些可使下游任務(wù)性能更優(yōu)的替代方法;
  • 使用新型數(shù)據(jù)集 CCNEWS,并確認(rèn)使用更多數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練可以進(jìn)一步提升模型在下游任務(wù)上的性能;
  • 訓(xùn)練方面的改進(jìn)證明,在正確的設(shè)計(jì)選擇下,掩碼語言模型預(yù)訓(xùn)練的性能堪比其他近期方法。

RoBERTa 都改了些啥

對于原版 BERT,直接用它來做極大數(shù)據(jù)的預(yù)訓(xùn)練并不能 Work,我們還需要一些特殊的技巧來提升模型的魯棒性,這也就是 Facebook 研究者主要嘗試的。如下研究人員在論文中揭示并量化了 BERT 要進(jìn)行哪些改進(jìn)才能真正變得穩(wěn)健。

1. 靜態(tài) vs. 動態(tài)掩碼

BERT 依賴隨機(jī)掩碼和預(yù)測 token。原版的 BERT 實(shí)現(xiàn)在數(shù)據(jù)預(yù)處理期間執(zhí)行一次掩碼,得到一個靜態(tài)掩碼。Facebook 研究者將該策略與動態(tài)掩碼進(jìn)行比較,動態(tài)掩碼即,每次向模型輸入一個序列時都會生成掩碼模式。在預(yù)訓(xùn)練進(jìn)行更多步或使用更大的數(shù)據(jù)集時,這點(diǎn)變得尤其重要。

重回榜首的BERT改進(jìn)版開源了,千塊V100、160GB純文本的大模型

表 1: BERT_BASE 的靜態(tài)和動態(tài)掩碼比較。

2. 模型輸入格式和下一句預(yù)測

在原版的 BERT 預(yù)訓(xùn)練步驟中,模型觀察到兩個連接在一起的文檔片段,這兩個片段要么是從相同的文檔中連續(xù)采樣,要么采樣自一個文檔的連續(xù)部分或不同文檔。為了更好地理解這種結(jié)構(gòu),研究者比較了幾種訓(xùn)練格式:

  • SEGMENT-PAIR+NSP:這種方式和 BERT 中用到的原始輸入格式相同,NSP 是 Next Sentence Prediction(下一句預(yù)測)結(jié)構(gòu)的縮寫。
  • SENTENCE-PAIR+NSP:每個輸入包含一對自然語言句子,采樣自一個文檔的連續(xù)部分或不同文檔。
  • FULL-SENTENCES:每個輸入都包含從一或多個文檔中連續(xù)采樣的完整句子,以保證總長度至多 512 token。
  • DOC-SENTENCES:這種輸入的構(gòu)造與 FULL-SENTENCES 類似,只是它們可能不會跨過文檔邊界。
重回榜首的BERT改進(jìn)版開源了,千塊V100、160GB純文本的大模型

表 2:在 BOOKCORPUS 和 WIKIPEDIA 上預(yù)訓(xùn)練的基礎(chǔ)模型的開發(fā)集結(jié)果。所有的模型都訓(xùn)練 1M 步,batch 大小為 256 個序列。

3. 大批量訓(xùn)練

神經(jīng)機(jī)器翻譯領(lǐng)域之前的工作表明,在學(xué)習(xí)率適當(dāng)提高時,以非常大的 mini-batch 進(jìn)行訓(xùn)練可以同時提升優(yōu)化速度和終端任務(wù)性能。最近的研究表明,BERT 也能適應(yīng)大批量訓(xùn)練。

重回榜首的BERT改進(jìn)版開源了,千塊V100、160GB純文本的大模型

表 3:在 BOOKCORPUS 和 WIKIPEDIA 上用不同的 batch 大?。╞sz)訓(xùn)練的基礎(chǔ)模型在留出訓(xùn)練數(shù)據(jù)(ppl)和開發(fā)集上的困惑度。

4. 文本編碼

Byte-Pair Encoding(BPE)是字符級和詞級別表征的混合,支持處理自然語言語料庫中的眾多常見詞匯。

原版的 BERT 實(shí)現(xiàn)使用字符級別的 BPE 詞匯,大小為 30K,是在利用啟發(fā)式分詞規(guī)則對輸入進(jìn)行預(yù)處理之后學(xué)得的。Facebook 研究者沒有采用這種方式,而是考慮用更大的 byte 級別 BPE 詞匯表來訓(xùn)練 BERT,這一詞匯表包含 50K 的 subword 單元,且沒有對輸入作任何額外的預(yù)處理或分詞。這種做法分別為 BERTBASE 和 BERTLARGE 增加了 15M 和 20M 的額外參數(shù)量。

實(shí)驗(yàn)結(jié)果

Facebook 研究人員綜合所有這些改進(jìn),并評估了其影響。結(jié)合所有改進(jìn)后的方法叫作 RoBERTa(Robustly optimized BERT approach)。

為了厘清這些改進(jìn)與其他建模選擇之前的重要性區(qū)別,研究人員首先基于 BERT LARGE 架構(gòu)訓(xùn)練 RoBERTa,并做了一系列對照試驗(yàn)以確定效果。

重回榜首的BERT改進(jìn)版開源了,千塊V100、160GB純文本的大模型

表 4:隨著訓(xùn)練數(shù)據(jù)的增大(文本數(shù)量從 16GB → 160GB)、訓(xùn)練步長的增加(100K → 300K → 500K 訓(xùn)練步),RoBERTa 在開發(fā)集上的結(jié)果。在對照試驗(yàn)中,表格中每一行都累積了前幾行的改進(jìn)。

對于 GLUE,研究人員考慮了兩種微調(diào)設(shè)置。在第一種設(shè)置中(單任務(wù)、開發(fā)集),研究人員分別針對每一項(xiàng) GLUE 任務(wù)微調(diào) RoBERTa,僅使用對應(yīng)任務(wù)的訓(xùn)練數(shù)據(jù)。在第二種設(shè)置中(集成,測試集),研究人員通過 GLUE 排行榜對比 RoBERTa 和其他方法。

重回榜首的BERT改進(jìn)版開源了,千塊V100、160GB純文本的大模型

表 5:多個模型在 GLUE 上的結(jié)果。所有結(jié)果都基于 24 層的模型架構(gòu)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2009-01-12 09:42:11

固態(tài)硬盤SSD2.5寸固態(tài)盤

2023-03-08 15:54:49

2018-06-04 14:53:21

Tesla V100NVIDIA計(jì)算平臺

2020-07-30 14:05:53

谷歌華為芯片

2022-09-06 08:31:09

線程池工具系統(tǒng)

2023-09-26 08:39:28

限流方式滑動窗口計(jì)數(shù)器

2023-02-06 18:10:22

模型算法

2011-04-20 14:16:02

愛普生V100掃描儀

2011-04-20 13:59:28

愛普生V100掃描儀

2023-10-31 13:01:00

2012-07-31 09:47:22

微軟Windows 8

2012-07-31 13:31:34

Windows 8鼠標(biāo)鍵盤

2025-02-28 12:32:42

2017-12-29 12:14:12

易觀千帆

2023-12-01 12:31:22

AI模型

2022-01-25 08:52:26

微軟Edge瀏覽器

2021-08-30 09:25:25

Bert模型PyTorch語言

2022-02-15 16:32:13

惡意軟件網(wǎng)絡(luò)安全漏洞

2023-07-12 14:28:45

谷歌模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號