自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

首次利用半監(jiān)督注入知識(shí)，達(dá)摩院推出新型預(yù)訓(xùn)練對(duì)話模型，取得顯著提升

作者：Synced 2022-04-12 14:36:58

人工智能新聞

達(dá)摩院對(duì)話智能團(tuán)隊(duì)提出了一種基于半監(jiān)督預(yù)訓(xùn)練的新訓(xùn)練范式，通過(guò)半監(jiān)督的方式將對(duì)話領(lǐng)域的少量有標(biāo)數(shù)據(jù)和海量無(wú)標(biāo)數(shù)據(jù)一起進(jìn)行預(yù)訓(xùn)練，將標(biāo)注數(shù)據(jù)中蘊(yùn)含的知識(shí)注入到預(yù)訓(xùn)練模型中去

?隨著深度學(xué)習(xí)的迅猛發(fā)展，學(xué)術(shù)界每年都會(huì)有許多高質(zhì)量標(biāo)注數(shù)據(jù)集被公開(kāi)，如文本分類、情感分析等等，同時(shí)工業(yè)界也會(huì)積累沉淀面向任務(wù)的各類標(biāo)注數(shù)據(jù)，怎樣將儲(chǔ)存在標(biāo)注數(shù)據(jù)中的特定任務(wù)知識(shí)注入到預(yù)訓(xùn)練模型中，從而帶來(lái)該類任務(wù)的普遍效果提升，就成為一個(gè)重要的研究方向。

本文從將預(yù)訓(xùn)練模型的兩大經(jīng)典范式簡(jiǎn)介開(kāi)始，圍繞預(yù)訓(xùn)練語(yǔ)言模型學(xué)到哪些知識(shí)、如何向預(yù)訓(xùn)練模型注入知識(shí)展開(kāi)，然后重點(diǎn)介紹預(yù)訓(xùn)練對(duì)話模型及達(dá)摩院對(duì)話智能團(tuán)隊(duì)在半監(jiān)督預(yù)訓(xùn)練對(duì)話模型方面的進(jìn)展，最后對(duì)未來(lái)研究方向作出展望。

1. 預(yù)訓(xùn)練語(yǔ)言模型的兩大范式

1.1. 有監(jiān)督預(yù)訓(xùn)練

神經(jīng)網(wǎng)絡(luò)模型的預(yù)訓(xùn)練一直是深度學(xué)習(xí)中備受關(guān)注的問(wèn)題。最早的研究可追溯到 Hinton 教授在 2006 年提出的一種基于受限玻爾茲曼機(jī)優(yōu)化的貪心算法 [2]，該方法利用無(wú)標(biāo)數(shù)據(jù)針對(duì)深度信度網(wǎng)絡(luò)（Deep Belief Nets, DBN）進(jìn)行一層層地初始化，從而能夠保證較深的網(wǎng)絡(luò)在下游任務(wù)上也能快速收斂。隨著大數(shù)據(jù)的興起和算力的提升，人們逐漸發(fā)現(xiàn)直接在具有高度相關(guān)性的大型有標(biāo)數(shù)據(jù)集上進(jìn)行有監(jiān)督預(yù)訓(xùn)練，然后再某個(gè)特定下游任務(wù)進(jìn)行遷移學(xué)習(xí)能夠帶來(lái)更強(qiáng)的表現(xiàn)，比較常見(jiàn)的工作是利用 VGG，ResNet 等超深模型在 ImageNet 上進(jìn)行預(yù)訓(xùn)練，將有關(guān)圖像分類的專家標(biāo)注的大量經(jīng)驗(yàn)知識(shí)注入到模型的參數(shù)中，從而在目標(biāo)追蹤、圖片分割等其他相關(guān)任務(wù)上進(jìn)行更好地適應(yīng)學(xué)習(xí)。

1.2. 自監(jiān)督預(yù)訓(xùn)練

近一兩年里，隨著預(yù)訓(xùn)練語(yǔ)言模型的興起，利用自監(jiān)督的方式在無(wú)標(biāo)數(shù)據(jù)上針對(duì)鑒別式模型構(gòu)造有監(jiān)督損失函數(shù)進(jìn)行超大規(guī)模的自監(jiān)督預(yù)訓(xùn)練成為了新的主流，例如在自然語(yǔ)言處理領(lǐng)域中，BERT 使用基于上下文的詞 token 預(yù)測(cè)可以訓(xùn)練出很好的自然語(yǔ)言表征，在大量 NLP 任務(wù)上都得到了效果驗(yàn)證 [3]；而在計(jì)算機(jī)視覺(jué)領(lǐng)域中，近期以 ViT [4] 為基礎(chǔ)的一系列工作，也利用了類似 BERT 的 transformer 結(jié)構(gòu)進(jìn)行圖片 patch 重建的預(yù)訓(xùn)練，從而習(xí)得良好的圖片表征，并在 imagenet-1K 等圖片分類數(shù)據(jù)集上取得顯著提升。

清華研究者們?cè)诰C述 [5] 中從遷移學(xué)習(xí)的角度來(lái)統(tǒng)一審視了目前已有的兩大預(yù)訓(xùn)練范式，如下圖 1 所示，無(wú)論是有監(jiān)督預(yù)訓(xùn)練還是自監(jiān)督預(yù)訓(xùn)練，歸根結(jié)底都是直接從數(shù)據(jù)中學(xué)出更加合理的分布式表示，從而能夠更好地遷移適配到具體的下游任務(wù)。

圖 1：神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練兩大范式（改自綜述 [5]）

總結(jié)來(lái)看，兩種范式各有自己的優(yōu)劣點(diǎn)：有監(jiān)督預(yù)訓(xùn)練因?yàn)榇嬖谟袠?biāo)數(shù)據(jù)進(jìn)行指導(dǎo)，所學(xué)出的特征對(duì)某些相關(guān)下游任務(wù)更加適配，但是卻嚴(yán)重依賴人工標(biāo)注；自監(jiān)督預(yù)訓(xùn)練可不再受到人工標(biāo)注的局限，利用海量無(wú)標(biāo)數(shù)據(jù)進(jìn)行學(xué)習(xí)，但所設(shè)計(jì)的損失函數(shù)一般都需要簡(jiǎn)單通用，例如 LM loss, MLM loss 和 contrastive loss 等，這就使得大模型學(xué)習(xí)到的更多是普適的語(yǔ)義表示。

2. 預(yù)訓(xùn)練語(yǔ)言模型學(xué)會(huì)了什么？

2.1. 模型的知識(shí)探測(cè)

依目前發(fā)展來(lái)看，以 BERT 為代表的自監(jiān)督預(yù)訓(xùn)練已經(jīng)成為了研究主流。論文 [6] 曾對(duì) BERT 模型 “庖丁解?！?，通過(guò)知識(shí)探測(cè)的手段，深入地探究了每一層的注意力權(quán)重的關(guān)系（如圖 2 所示），發(fā)現(xiàn)不同層的不同注意力頭（attention head）都對(duì)不同的語(yǔ)言特征敏感，例如有的注意力頭對(duì)于定冠詞修飾的名詞敏感，有的注意力頭對(duì)于被動(dòng)語(yǔ)態(tài)關(guān)注度更高，有的則在一定程度上實(shí)現(xiàn)了長(zhǎng)距離指代消解。

圖 2：解析 BERT 不同注意力頭的權(quán)重圖 (引自 [6])

預(yù)訓(xùn)練的本質(zhì)是將訓(xùn)練數(shù)據(jù)中蘊(yùn)含的信息以模型可理解的方式隱含地存儲(chǔ)到參數(shù)中 [5]，不少研究工作已經(jīng)表明 [7][8][9]，預(yù)訓(xùn)練模型如 BERT 能夠?qū)W習(xí)到較好的語(yǔ)言學(xué)知識(shí)（句法、語(yǔ)法），甚至一定程度上的世界知識(shí)和常識(shí)知識(shí)。但是預(yù)訓(xùn)練模型在如何更好地學(xué)習(xí)利用人類經(jīng)驗(yàn)知識(shí)上依舊存在不少問(wèn)題，需要更多的研究與探索，例如如何對(duì)其進(jìn)行更好的建模，如何更有效地進(jìn)行預(yù)訓(xùn)練，如何評(píng)價(jià)知識(shí)融入的程度等等。

2.2. 人類經(jīng)驗(yàn)知識(shí)

這里，我們將人類經(jīng)驗(yàn)知識(shí)粗略分為三類：

第一類是事實(shí)型知識(shí)，例如人工構(gòu)建的知識(shí)表格、知識(shí)圖譜和結(jié)構(gòu)化文檔（包含篇章結(jié)構(gòu)、圖文信息）。目前已經(jīng)有一些預(yù)訓(xùn)練的工作針對(duì)這類知識(shí)進(jìn)行更好地利用，例如達(dá)摩院不久前開(kāi)源的最大中文預(yù)訓(xùn)練表格模型（詳見(jiàn)《達(dá)摩院開(kāi)源中文社區(qū)首個(gè)表格預(yù)訓(xùn)練模型，取得多個(gè)基準(zhǔn) SOTA》一文）；清華的 KEPLER [12] 和北大的 K-BERT [11] 是通過(guò)將三元組融合到神經(jīng)網(wǎng)絡(luò)輸入并引入新的損失函數(shù)或結(jié)構(gòu)來(lái)實(shí)現(xiàn)圖譜知識(shí)的有效融入；微軟的 LayoutLM 系列模型 [13] 和 Adobe 的 UDoc [14] 則研究了如何針對(duì)結(jié)構(gòu)化文檔進(jìn)行預(yù)訓(xùn)練。
第二類是數(shù)理邏輯知識(shí)，包括數(shù)理公式、公理定理、符號(hào)計(jì)算等，這一類知識(shí)不作為本文討論內(nèi)容。
第三類是標(biāo)注知識(shí)，即標(biāo)注數(shù)據(jù)中蘊(yùn)含的知識(shí)。這類知識(shí)十分普遍，屬于任務(wù)相關(guān)的，例如文本分類、情感分析等。人類在標(biāo)注過(guò)程中需要根據(jù)該特定的任務(wù)進(jìn)行歸納總結(jié)，在預(yù)先定義的高層語(yǔ)義分類空間中對(duì)無(wú)標(biāo)數(shù)據(jù)進(jìn)行推斷并賦值相應(yīng)的標(biāo)簽。因此，利用標(biāo)注知識(shí)來(lái)增強(qiáng)預(yù)訓(xùn)練模型理應(yīng)會(huì)對(duì)相關(guān)下游任務(wù)帶來(lái)明顯效果提升。

3. 如何注入人類標(biāo)注知識(shí)？

盡管現(xiàn)在各類預(yù)訓(xùn)練模型包打天下，但是如何向模型中注入標(biāo)注知識(shí)依舊是一個(gè)尚未充分探索的方向。早期工作中，谷歌的 T5 [16] 就已經(jīng)嘗試了將有標(biāo)和無(wú)標(biāo)數(shù)據(jù)統(tǒng)一成語(yǔ)言生成任務(wù)進(jìn)行學(xué)習(xí)，但是實(shí)驗(yàn)卻表明簡(jiǎn)單地混合有標(biāo)無(wú)標(biāo)數(shù)據(jù)訓(xùn)練反而會(huì)帶來(lái)負(fù)面影響。

經(jīng)過(guò)大量的實(shí)驗(yàn)探索，我們發(fā)現(xiàn)如果還是基于原先的兩大預(yù)訓(xùn)練范式，是難以很好地進(jìn)行預(yù)訓(xùn)練的。首先，單利用自監(jiān)督預(yù)訓(xùn)練或者有監(jiān)督預(yù)訓(xùn)練是無(wú)法同時(shí)利用好有標(biāo)和無(wú)標(biāo)的預(yù)訓(xùn)練數(shù)據(jù)，因?yàn)閮H僅自監(jiān)督損失函數(shù)是無(wú)法學(xué)習(xí)出標(biāo)注知識(shí)中的高層語(yǔ)義的，有監(jiān)督損失函數(shù)亦不能學(xué)出無(wú)標(biāo)語(yǔ)料中的通用底層語(yǔ)義；其次，在大規(guī)模預(yù)訓(xùn)練中，由于所使用的預(yù)訓(xùn)練數(shù)據(jù)往往存在著少量有標(biāo)數(shù)據(jù)和海量無(wú)標(biāo)數(shù)據(jù)之間的數(shù)量鴻溝，如果簡(jiǎn)單混合兩種預(yù)訓(xùn)練，會(huì)使得標(biāo)注知識(shí)的信息要么淹沒(méi)在無(wú)標(biāo)數(shù)據(jù)中，要么就會(huì)出現(xiàn)嚴(yán)重的過(guò)擬合，因此我們需要全新的預(yù)訓(xùn)練范式來(lái)解決該問(wèn)題。

這里，我們提出半監(jiān)督預(yù)訓(xùn)練。如圖 3 所示，半監(jiān)督預(yù)訓(xùn)練從遷移學(xué)習(xí)的角度來(lái)看，可以認(rèn)為是一個(gè)前兩種范式的自然延伸，通過(guò)構(gòu)造半監(jiān)督學(xué)習(xí)的損失函數(shù)來(lái)充分綜合利用有限的標(biāo)注知識(shí)和大量的無(wú)標(biāo)數(shù)據(jù)。在半監(jiān)督學(xué)習(xí)理論里 [17]，模型既需要在無(wú)標(biāo)數(shù)據(jù)上進(jìn)行自我推斷，根據(jù)結(jié)果進(jìn)一步約束優(yōu)化，也需要利用有標(biāo)數(shù)據(jù)進(jìn)行一定程度的有監(jiān)督，指導(dǎo)自監(jiān)督預(yù)訓(xùn)練的過(guò)程，同時(shí)避免模型參數(shù)陷入平凡解。

圖 3：半監(jiān)督預(yù)訓(xùn)練新范式

我們團(tuán)隊(duì)專注在對(duì)話智能（Conversational AI）方向，所以我們率先將半監(jiān)督預(yù)訓(xùn)練的思路應(yīng)用在了對(duì)話領(lǐng)域，提出了半監(jiān)督預(yù)訓(xùn)練對(duì)話模型，在 MultiWoz 等國(guó)際經(jīng)典對(duì)話數(shù)據(jù)集上取得了顯著提升，論文已經(jīng)被 AAAI2022 錄用 [1]。接下來(lái)我們先簡(jiǎn)單介紹一下什么是預(yù)訓(xùn)練對(duì)話模型，然后重點(diǎn)介紹半監(jiān)督預(yù)訓(xùn)練對(duì)話模型。

4. 預(yù)訓(xùn)練對(duì)話模型

預(yù)訓(xùn)練語(yǔ)言模型（Pre-trained Language Model, PLM）需要回答的什么樣的句子更像自然語(yǔ)言，而預(yù)訓(xùn)練對(duì)話模型（Pre-trained Conversation Model, PCM）需要回答的是給定對(duì)話歷史什么樣的回復(fù)更合理。因此，預(yù)訓(xùn)練對(duì)話模型相比預(yù)訓(xùn)練語(yǔ)言模型任務(wù)更加特定化，需綜合考慮對(duì)話輪次、對(duì)話角色、對(duì)話策略、任務(wù)目標(biāo)等預(yù)訓(xùn)練語(yǔ)言模型不太關(guān)注的特征，圖 4 給出了一個(gè)對(duì)話特有屬性的總結(jié)。

圖 4：對(duì)話特有的屬性總結(jié)

目前預(yù)訓(xùn)練對(duì)話模型的建模，基本按照對(duì)話理解和對(duì)話生成兩大任務(wù)類進(jìn)行建模，利用類似于 BERT 或者 GPT-2 的 loss 在對(duì)話語(yǔ)料上進(jìn)行預(yù)訓(xùn)練。例如，針對(duì)話理解，常見(jiàn)模型有 PolyAI 的 ConvRT [20]，Salesforce 的 TOD-BERT [21] 和亞馬遜的 ConvBERT [31]，針對(duì)對(duì)話生成，常見(jiàn)模型有微軟的 DialoGPT [18]，谷歌的 Meena [19] 和 Facebook 的 Blender [30]。但是，這些模型都沒(méi)有融入標(biāo)注知識(shí)。

5. 半監(jiān)督預(yù)訓(xùn)練建模方案

我們的目標(biāo)評(píng)測(cè)基準(zhǔn)是劍橋 MultiWOZ2.0，亞馬遜 MultiWOZ2.1 等經(jīng)典對(duì)話數(shù)據(jù)集，該任務(wù)需要通過(guò)構(gòu)建對(duì)話模型來(lái)進(jìn)行用戶意圖識(shí)別、對(duì)話策略選擇和回復(fù)生成。針對(duì)下游任務(wù)模型，我們直接沿用已有的端到端對(duì)話模型 UBAR [24]，將其通用的 GPT-2 模型底座換成我們的 SPACE 模型底座，再進(jìn)行相同設(shè)置下的評(píng)測(cè)。

5.1. 對(duì)話策略知識(shí)

對(duì)話策略是對(duì)話過(guò)程中的一個(gè)重要模塊，一般用對(duì)話動(dòng)作標(biāo)簽（dialog act, DA）來(lái)進(jìn)行刻畫(huà)，即給定雙方的對(duì)話歷史，對(duì)話策略需要選擇出正確的對(duì)話動(dòng)作用于指導(dǎo)對(duì)話生成（圖 5）。當(dāng)前各種常見(jiàn)預(yù)訓(xùn)練對(duì)話模型，如 Meena，DialoGPT 等往往都直接將對(duì)話動(dòng)作的選擇過(guò)程隱含建模到模型參數(shù)里，存在著不可解釋和不可控等問(wèn)題。由于策略是一種高層語(yǔ)義，難以僅僅利用自監(jiān)督的方式就能很好地學(xué)習(xí)出來(lái)。因此，接下來(lái)我們將從對(duì)話策略建模出發(fā)，提出利用半監(jiān)督的方式實(shí)現(xiàn)更好的預(yù)訓(xùn)練，將標(biāo)注數(shù)據(jù)中的對(duì)話策略知識(shí)融入到預(yù)訓(xùn)練對(duì)話模型中來(lái)。

圖 5：一輪完整對(duì)話過(guò)程

經(jīng)過(guò)總結(jié)分析，我們從 ISO 國(guó)際對(duì)話動(dòng)作標(biāo)準(zhǔn) [25] 中歸納出了 20 個(gè)對(duì)于任務(wù)型對(duì)話最高頻的對(duì)話動(dòng)作集合（見(jiàn)圖 6），并整理合并了現(xiàn)有的多個(gè)對(duì)話數(shù)據(jù)集，經(jīng)過(guò)人工對(duì)齊刪改后我們給出了目前最大的英文任務(wù)對(duì)話動(dòng)作標(biāo)注數(shù)據(jù)集 UniDA（一共 97 萬(wàn)輪次），同時(shí)我們也從各種公開(kāi)論壇，開(kāi)源 benchmark 等渠道收集處理得到了高質(zhì)量的英文無(wú)標(biāo)對(duì)話語(yǔ)料 UnDial (一共 3.5 千萬(wàn)輪次)。具體細(xì)節(jié)可參考論文 [1]。

圖 6：英文對(duì)話 UniDA 體系

5.2. 策略知識(shí)注入

在本文中，我們提出利用半監(jiān)督預(yù)訓(xùn)練的方式來(lái)解決對(duì)話策略的建模難題，將對(duì)話動(dòng)作預(yù)測(cè)任務(wù)改造成半監(jiān)督學(xué)習(xí)任務(wù)，并設(shè)計(jì)出 SPACE 系列的第一款預(yù)訓(xùn)練模型 SPACE 1.0 (亦即我們 AAAI 論文 [1] 中 GALAXY 模型)。

具體來(lái)看，SPACE1.0 采用了 encoder+decoder 架構(gòu)，預(yù)訓(xùn)練的目標(biāo)既包含了傳統(tǒng)的建模對(duì)話理解和對(duì)話生成的自監(jiān)督 loss，也包含了建模對(duì)話策略的半監(jiān)督 loss，完整框架見(jiàn)圖 7。

圖 7：半監(jiān)督對(duì)話預(yù)訓(xùn)練框架

首先，對(duì)于對(duì)話理解，我們采用了回復(fù)選擇（response selection）作為預(yù)訓(xùn)練目標(biāo)（如圖 7 右側(cè)所示），即給定對(duì)話上下文（context）和候選回復(fù)（response）在 [CLS] 處進(jìn)行二分類判決是否是正確的回復(fù)。在諸多 PCM 工作中 [20][21] 中都已經(jīng)證明了回復(fù)選擇的訓(xùn)練對(duì)于對(duì)話理解至關(guān)重要，因此我們保留該目標(biāo)。

對(duì)于對(duì)話生成，我們則使用了常見(jiàn)的回復(fù)生成（response generation）目標(biāo)，即給定對(duì)話上下文生成正確回復(fù)語(yǔ)句（如圖 7 左側(cè)所示）。

圖 8：基于 R-drop 的一致性正則損失

對(duì)于對(duì)話策略，我們采用了半監(jiān)督學(xué)習(xí)中十分高效的一致性正則 (consistency regularization) 方法來(lái)建模對(duì)話動(dòng)作。理論可以證明，在滿足低密度假設(shè)下（即分類邊界處于低密度分布），通過(guò)對(duì)同一個(gè)樣本進(jìn)行擾動(dòng)后分類結(jié)果仍然具備一定程度上的一致性（即分布接近或預(yù)測(cè)結(jié)果接近），那么最終基于一致性正則的半監(jiān)督學(xué)習(xí)可以保證找到正確的分類面 [23]。針對(duì)對(duì)話策略的具體損失函數(shù)組成如下：

針對(duì)無(wú)標(biāo)對(duì)話數(shù)據(jù)，我們采用了 R-drop [22] 的思路，如圖 7 所示，給定同樣的對(duì)話輸入 c，經(jīng)過(guò)兩次帶有 dropout 的 forward 得到了兩次經(jīng)過(guò)隨機(jī)擾動(dòng)后在對(duì)話動(dòng)作空間上預(yù)測(cè)的不同分布，然后通過(guò)雙向 KL 正則損失函數(shù)來(lái)約束兩個(gè)分布；
針對(duì)有標(biāo)對(duì)話數(shù)據(jù)，我們則直接利用基礎(chǔ)的有監(jiān)督交叉熵 loss 來(lái)優(yōu)化對(duì)話動(dòng)作預(yù)測(cè)。

最終對(duì)于模型的預(yù)訓(xùn)練，我們將整個(gè)模型的理解、策略、生成目標(biāo)加在一起進(jìn)行優(yōu)化。更多具體細(xì)節(jié)可參考論文 [1]。

6. 半監(jiān)督預(yù)訓(xùn)練效果顯著

我們?cè)谒固垢５?In-Car [28]，劍橋的 MultiWOZ2.0 [26] 和亞馬遜的 MultiWOZ2.1 [27] 這三個(gè)國(guó)際對(duì)話數(shù)據(jù)集上進(jìn)行效果驗(yàn)證。In-Car 數(shù)據(jù)集提出時(shí)間最早，是車載語(yǔ)音對(duì)話數(shù)據(jù)，一共有約 3k 個(gè)完整對(duì)話，難度較為簡(jiǎn)單；MultiWOZ2.0 是目前最大最難使用最廣泛的任務(wù)型對(duì)話數(shù)據(jù)集，包含 1w 個(gè)完整對(duì)話，橫跨 7 個(gè)場(chǎng)景，如訂餐館、訂酒店等。MultiWOZ2.1 是在 MultiWOZ2.0 基礎(chǔ)上進(jìn)行人工標(biāo)注校正后數(shù)據(jù)集。

如圖 9 所示，經(jīng)過(guò)半監(jiān)督預(yù)訓(xùn)練融入策略知識(shí)后，可以看到我們的 SPACE1.0 模型在這些對(duì)話榜單上均大幅超過(guò)了之前的 SOTA 模型，端到端混合分?jǐn)?shù)在 In-Car，MultiWOZ2.0 和 MultiWOZ2.1 分別提升 2.5,5.3 和 5.5 個(gè)點(diǎn)：

圖 9：各數(shù)據(jù)集端到端得分總體結(jié)果比較

以上的結(jié)果充分證明了半監(jiān)督預(yù)訓(xùn)練的效果。同時(shí)我們也做了低訓(xùn)練資源下實(shí)驗(yàn)，發(fā)現(xiàn)在利用不同訓(xùn)練數(shù)據(jù)比例下，我們的模型都保持著顯著的效果提升。如圖 10 所示，SPACE1.0 模型在僅利用 5% 訓(xùn)練數(shù)據(jù)量下就能夠和利用全量 100% 訓(xùn)練數(shù)據(jù)的基于 GPT-2 的對(duì)話模型 SimpleTOD 可比，僅利用 10% 訓(xùn)練數(shù)據(jù)量就直接超過(guò)了利用全量訓(xùn)練數(shù)據(jù)量的基于 T5 的對(duì)話模型 MinTL。

圖 10：低資源訓(xùn)練下端到端得分結(jié)果比較

我們也進(jìn)行了案例分析，從圖 11 中可以發(fā)現(xiàn)，相比之前的 SOTA 模型，SPACE1.0 模型能夠預(yù)測(cè)出更加正確的對(duì)話動(dòng)作，因此，合理的對(duì)話策略能夠提升整體的端到端任務(wù)完成效果。

圖 11：案例分析 Case Study

SPACE1.0 模型（即 GALAXY）目前在 MultiWOZ 官網(wǎng)上仍然排名第一，成績(jī)截圖如下所示：

7. 總結(jié)展望

本工作主要介紹了如何通過(guò)半監(jiān)督預(yù)訓(xùn)練向大模型中注入特定的人類標(biāo)注知識(shí)，從而使得模型在下游任務(wù)上有更加卓越的效果。和過(guò)往的半監(jiān)督學(xué)習(xí)相比，我們關(guān)注的不再是如何降低對(duì)標(biāo)注數(shù)據(jù)量的依賴，而是如何更加高效地融入特定標(biāo)注知識(shí)，如下圖 12 所示：

圖 12：將半監(jiān)督學(xué)習(xí)從下游訓(xùn)練推廣到預(yù)訓(xùn)練過(guò)程

在后續(xù)的工作里，怎樣將該范式進(jìn)一步推廣到各類 NLP 的任務(wù)中去，打造出一套有實(shí)用價(jià)值的半監(jiān)督預(yù)訓(xùn)練 SPACE 模型體系，是需要持續(xù)探索的方向，具體包括：

知識(shí)自動(dòng)選擇：如何利用算法模型自動(dòng)選擇出合適的任務(wù)知識(shí)，從大量標(biāo)注數(shù)據(jù)集中找出對(duì)目標(biāo)下游任務(wù)最有用的數(shù)據(jù)集集合來(lái)進(jìn)行半監(jiān)督預(yù)訓(xùn)練是使得該范式成為通用范式的亟需研究問(wèn)題。
半監(jiān)督算法：目前我們嘗試的是基于一致性正則化的半監(jiān)督預(yù)訓(xùn)練方案，但整個(gè)半監(jiān)督領(lǐng)域還有 self-taught, co-training, deep generative modeling 等諸多方法，如何綜合利用他們是一個(gè)重要研究課題。
異構(gòu)知識(shí)統(tǒng)一：本文中我們僅關(guān)注了分類標(biāo)注知識(shí)，針對(duì)其他類型的標(biāo)注知識(shí)，序列標(biāo)注知識(shí)、層次化分類知識(shí)、回歸標(biāo)注等，如何進(jìn)行更好的形式化表示，統(tǒng)一地融入到一個(gè)預(yù)訓(xùn)練模型中也是一個(gè)開(kāi)放問(wèn)題。
知識(shí)注入評(píng)價(jià)：如何更加定量且顯式地度量出特定任務(wù)知識(shí)注入的程度，利用 probing 等方法對(duì)知識(shí)融入有個(gè)合理的評(píng)價(jià)也值得進(jìn)一步的研究探索。

預(yù)訓(xùn)練模型的打造離不開(kāi)強(qiáng)大的 AI 算力支持，SPACE 模型的研發(fā)也得益于阿里云 EFLOPS 團(tuán)隊(duì)提供的高效算力服務(wù)，在此鳴謝！?

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

達(dá)摩院訓(xùn)練模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="hfhh4"></blockquote>}

<style id="hfhh4"></style>