自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="vagj6"><li id="vagj6"></li></p>

^{<blockquote id="vagj6"></blockquote>}

<optgroup id="vagj6"><li id="vagj6"></li></optgroup>

<style id="vagj6"><rp id="vagj6"></rp></style>

<legend id="vagj6"></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

如何將知識圖譜與AIGC結(jié)合？京東是這么做的

作者：李浩然博士 2024-01-18 08:15:05

本文將分享如何將知識圖譜應(yīng)用到電商場景下的 AIGC。近年來，可控文本生成技術(shù)在學術(shù)界的關(guān)注也呈現(xiàn)出爆發(fā)增長的趨勢，根據(jù)最近幾年 NLP 領(lǐng)域兩個頂會 ACL 和 EMNLP 的文本生成相關(guān)論文統(tǒng)計。

一、導(dǎo)言

首先介紹一下京東在電商場景下 AIGC 方面的探索。

這是一個商品營銷文案自動生成的全景圖，自下而上首先是商品的輸入信息。輸入信息是異構(gòu)多源的，包括商品的商詳頁里的圖片、文本、商品的標題以及商品的知識圖譜。通用的知識圖譜是三元組的形式，也就是頭實體、尾實體以及關(guān)系，比如“中國的首都是北京”（頭實體：中國；尾實體：北京；關(guān)系：首都）。在電商場景下，三元組的知識圖譜轉(zhuǎn)化為一個二元組，是一個“商品屬性-屬性值”對。商品里含有圖片信息，也就是說實際上這是一個多模態(tài)文本生成的場景。當我們拿到這些較為豐富的信息后，會對信息做一些初步處理，包括提取它的賣點（描述了商品非常好的、值得大家去參考的一些價值點）、要素（對商品知識圖譜的凝練，比如空調(diào)，它的要素就有電機、靜音、能效等等，當描述到能效可能就會介紹到環(huán)保、節(jié)能、省電這樣的要素和要素詞的體系）。

信息得到初步處理后會進入模型側(cè)。模型側(cè)有編碼器、解碼器，因為輸入信息是多模態(tài)的，所以編碼器又分文本編碼器和圖片編碼器。在解碼器方面會使用受限解碼、復(fù)制解碼的形式來滿足 AIGC 在電商這一嚴肅場景下的應(yīng)用。除此之外也會用到現(xiàn)在比較流行的預(yù)訓練語言模型、句間流暢度模型。句間流暢度模型是對傳統(tǒng)解碼器的加強，因為傳統(tǒng)解碼器最關(guān)注的點是詞與詞之間的銜接性（或者說連貫性），但是對短句與短句之間的銜接性的關(guān)注并不直接，所以需要加入一個句間流暢度模型加強短句之間的連貫性或者邏輯的一致性。

此外，還會涉及標點糾錯模型，比如有時生成的文案會傾向于“一逗到底”（整個文案里面所有的標點都是逗號）。

最上面就是輸出，輸出是多種多樣的文案，包括 50 字、100 字較短的文案，也包括 500 字甚至 1000 字更長的直播文案。

接下來給大家展示一些京東電商場景下的真實應(yīng)用。

首先是京東 APP 的發(fā)現(xiàn)好貨頻道，這個頻道內(nèi)會給用戶推薦優(yōu)質(zhì)商品，有圖片、商品賣點標題以及商品文案等展示形式。

第二個場景是導(dǎo)購機器人，當和京東客服進行交流的時候，在人工客服或智能客服解答用戶問題之前，導(dǎo)購機器人會根據(jù)用戶需要咨詢的商品，首先給他推送一條商品的介紹文案，預(yù)期達到通過介紹文案直接解答用戶的一些疑問和進一步對商品進行促銷的效果。

第三個場景是社交 APP 京粉，這是個社交團購的場景，通過對文案進行一些個性化的處理（加一些表情符號、促銷信息），方便分享到社交平臺。

第四個場景是直播機器人，直播場景下需要生成比較長的文案，有時可能超過一千字，用于給虛擬主播或者一些沒有經(jīng)驗、沒有運營團隊的真人直播提供文案參考。

最后一個場景就是搭配購，搭配購和前面四個場景不同點在于前面四個場景都是為單一商品生成文案，搭配購是給多個商品生成文案。例中商品是上衣、褲子和書包，他們都是符合某一種風格的——比如顏色相近，或者說都是運動風——模型需要基于這種相似性自動生成文案對商品組合形成促銷。

實際上，大多數(shù)使用場景的底層技術(shù)都是文本生成，或者說可控文本生成。也就是在相對嚴肅場景下，不借助人工的審核或編輯，直接生成文案展示給用戶，并且不會出現(xiàn)一些比較離奇的、難以接受的錯誤，比如說描述出一個錯誤的屬性，描述出一個不通順的文本。

近年來，可控文本生成技術(shù)在學術(shù)界的關(guān)注也呈現(xiàn)出爆發(fā)增長的趨勢，根據(jù)最近幾年 NLP 領(lǐng)域兩個頂會 ACL 和 EMNLP 的文本生成相關(guān)論文統(tǒng)計，2018 年之前相關(guān)論文投稿數(shù)僅有個位數(shù)，而到 2019 年之后出現(xiàn)了激增，并一直保持在兩位數(shù)以上，說明相關(guān)話題在學術(shù)界已經(jīng)得到了足夠的關(guān)注。

那么如何做到可控文本生成呢？主要有三個角度去實現(xiàn)。

首先第一個角度，是從輸入方面控制輸入文本，我們知道“garbage in garbage out”，如果輸入里面有非常多的垃圾信息，模型學習壓力就比較大。比如說一些違反廣告法的“最”、“頂級”等詞，就不希望出現(xiàn)在輸入里面。

第二個控制方向是詞表，比如希望某些詞（如賣點詞、屬性詞、知識圖譜相關(guān)的描述詞）被鼓勵，或某些詞是被禁止的，我們可以以調(diào)整詞表的形式，在解碼端對詞的概率進行調(diào)整。

第三個角度是模型，這是一個比較有效但難度也比較大的方式，例如可以通過改變解碼器的初始化、解碼器改變編碼器的初始化、添加一些輔助任務(wù)以及做一些多任務(wù)學習來調(diào)整模型。

電商領(lǐng)域的文本生成研究面臨著非常多挑戰(zhàn)。

首先就是文本生成的基礎(chǔ)挑戰(zhàn)。所謂文本生成的基礎(chǔ)挑戰(zhàn)就是指無論在學術(shù)界使用，還是在做閑聊機器人、生成文案等任務(wù)時，都會面臨的挑戰(zhàn)，概括來說主要是希望生成的內(nèi)容像人寫的，有以下幾個性質(zhì)的表現(xiàn)：

重要性，讓生成的文案會描述重要的內(nèi)容而不是閑聊。
非冗余性，當生成一個較長的文案——例如 500 字文案——時，不會一直重復(fù)某一個角度。
可讀性，要能比較流暢地表達。

在電商場景，會面臨一些進階的要求：

多樣性，要求描述商品的角度非常豐富。
忠實性，要求描述出來的商品的屬性必須符合商品知識圖譜。
商品的內(nèi)容的豐富性，比如說除了描述商品本身的信息外，還希望有一些常識性的信息，例如有一些和通用知識圖譜相關(guān)的信息能夠展示給用戶，從而使文案的促銷性更強。

接下來，我們將針對上述提到的四個方面正式展開介紹。一是基于電商知識圖譜對真實性的控制，通過電商知識圖譜使屬性的描述更加忠實。二是基于通用知識圖譜的內(nèi)容豐富度拓展，讓商品的文案里面不僅有商品信息，還有額外的能夠引發(fā)用戶共鳴的信息。第三和第四個角度是在大模型方面的探索——將領(lǐng)域知識和通用知識融入到大模型里。

二、基于領(lǐng)域知識圖譜的商品文案生成

領(lǐng)域知識圖譜可以定義成一個屬性規(guī)格參數(shù)，比如說一款洗衣機的兩個規(guī)格：

容量：9 kg，

產(chǎn)品類型：波輪洗衣機。

在這種情況下，有一些屬性很容易出現(xiàn)描述錯誤的問題，比如說屬性值為數(shù)字的容量。我們通過查詢商品知識圖譜，很容易得知這款商品的容量是 9kg，但實際上眾多洗衣機里，還有各種其它規(guī)格的洗衣機，比如一些非常尾部的 1-2kg 的小型洗衣機，當模型描述這些數(shù)字相關(guān)的屬性值的時候，很容易出錯。我們可以回憶，早年在機器翻譯任務(wù)比較火熱時，對數(shù)字的翻譯就一直是一個難題；現(xiàn)在在商品文案生成中，數(shù)字相關(guān)信息的處理也還是一個難點，尤其對一些低頻的屬性數(shù)值。而在電商場景下，數(shù)值是一定不能出錯的，否則很容易引發(fā)用戶的投訴。

在這里，我們想描述出真實的 9kg 這個屬性值，如何讓模型在解碼（模型解碼就是在一個大詞表里面去找到一個概率最高的值，讓模型去參考的信息是最正確的。）時找到最高、最好的那個正確值呢？模型可能有非常多的參考信息來源，第一種是模型通過理解輸入，綜合性地判斷哪個屬性值是正確的。第二種是，比如前面介紹的商品的各種描述——有可能來自于商品的標題，有可能來自于商品詳情頁的文本——在成百上千字的文本里，找到這個正確屬性值。

第三種方式就是我想介紹的一個非常好的捷徑——通過商品知識圖譜直接查找。比如這里我們希望使模型意識到，當他在描述到“這款洗衣機的容量是”時，要形成一種模式讓模型知道這里要描述的是商品容量屬性。當模型能學習到這個模式，就可以直接去查詢商品知識圖譜，找到容量對應(yīng)的屬性值，確保一定不會出錯。而不必通過綜合理解輸入來判斷應(yīng)該輸入什么屬性值，綜合理解輸入對于模型是非常難的。

綜合來說，我們希望通過類似于檢索的形式，讓知識圖譜充當一個指針，讓模型查詢知識圖譜，從而使商品屬性值一定不會出錯。

如何用公式來表達這個過程呢？

首先是原始的復(fù)制機制，就是當拿到商品屬性值時，在輸入的所有信息里面找到一個正確的解碼的詞。那么我們提出的改進的復(fù)制機制就不僅僅是從輸入的文本中進行復(fù)制，而是先找到 token 的屬性類型，比如這里的“容量”，然后再檢索”容量”這一屬性對應(yīng)的屬性值，從而使這類屬性值 token 的解碼結(jié)果忠實度更高。

使用知識圖譜參與到過程里的一個難題是如何使知識圖譜能夠提供足夠的信息，電商平臺上的商品可能是上千萬甚至上億的，很多商品的知識圖譜是非常稀缺的。以服飾為例，電商場景下服飾是分 12 個季的，更換頻率非常高，有的大店鋪可能有幾千上萬件的商品，很容易有一些知識圖譜的缺失現(xiàn)象。我們希望利用商品的信息去補齊商品的知識圖譜，在補齊過程中，我們也注意到很多屬性值在補齊過程中會有一些“奇怪”現(xiàn)象，比如有時候會描述一個尺寸，但是我們不知道尺寸是內(nèi)徑還是外徑，有的會描述到一個長度，我們不知道是袖長還是褲長。但是通過觀察商品的圖片，我們很容易知道它的顏色，具體是描述哪個部分，或者說長度描述的是褲子還是上衣，所以我們希望利用商品的多模態(tài)信息——就是圖片信息和文本信息——一起補齊商品知識圖譜。

具體來說，商品的圖片信息可以提供兩方面的幫助，第一方面就是通過商品的圖片能夠清楚地知道某一部位的屬性是什么。比如可以通過觀察圖片里衣服的領(lǐng)子部分，知道領(lǐng)子是圓領(lǐng)還是直領(lǐng)，所以這里用了一個局部的視覺門，就是想在描述不同的商品屬性時，讓模型關(guān)注到具體商品圖片的某個區(qū)域。

第二個方面就是我們根據(jù)任務(wù)（我們定義的實際上是一個序列標注任務(wù)，就是從文本里邊去抽出具體的屬性對應(yīng)的屬性值）非常容易可以想到的方向：如何增強文本的理解。圖片實際上和文本之間是有跨模態(tài)的聯(lián)系的，所以我們希望利用圖片的信息去提升模型對文本的理解，所以這里定義了第二個門——一個全局視覺門——去利用圖片信息增強文本理解。最后在這兩個視覺信息的幫助下，完成商品知識圖譜的補齊問題。

下面是如何使用商品知識圖譜進一步加強復(fù)制機制。

傳統(tǒng)的文本生成模型在生成文本時有一個非常好的機制——復(fù)制機制。解碼文本是由兩部分構(gòu)成的，第一部分是一個生成概率，需要計算生成詞表里哪個詞的概率是最大的，第二個方面是復(fù)制概率，計算在當前時刻輸入里哪個詞放到輸出里，最終解碼概率實際上是兩個概率的疊加。傳統(tǒng)的復(fù)制概率，在選擇復(fù)制某一個詞時，是從輸入里去復(fù)制，但是生成概率則不一定。

比如這個“美的”的變頻空調(diào)，我們探討它會不會生成錯誤的“定頻”屬性，傳統(tǒng)的復(fù)制概率在計算“定頻”的解碼概率時，是由兩部分構(gòu)成，復(fù)制概率（P_copy）和生成概率（P_gen），因為輸入中只有“變頻”，沒有“定頻”，所以“定頻”的復(fù)制概率為 0。但是生成概率，因為”定頻”和”變頻“這兩個 token 都處于解碼詞表中，所以很難保證”定頻“的解碼生成概率一定等于 0。最終結(jié)論就是我們不能夠確保傳統(tǒng)的復(fù)制概率不生成一個錯誤的屬性值——也就是”定頻“。所以我們對這種現(xiàn)象進行了一個改進，就是在生成屬性值的時候，將生成概率置 0，也就是說當生成屬性值時，它的解碼概率只剩下復(fù)制概率，只有出現(xiàn)在輸入中的屬性值才能被解碼到輸出里，這樣就避免了錯誤的屬性值出現(xiàn)在解碼文本中。

接下來我們看一下最終的實驗結(jié)果。我們使用了從屬性詞表里復(fù)制以及加入屬性詞 Only-Copy，最終就能夠取得一個非常好的一個結(jié)果。從忠實度和可讀性人工評價表可以看出，最早的也就是第一個模型 PGNet 是傳統(tǒng)的 pointer-generator，傳統(tǒng)的復(fù)制模型忠實度只有 64%，加入 Only-Copy 機制之后能提升到 93% 以上。

三、基于通用知識圖譜的商品文案生成

接下來介紹如何將通用知識圖譜用在商品文案生成的場景里。

我們在實際使用知識圖譜時，存在知識圖譜融合的問題，比如在使用商品知識圖譜時，希望商品知識圖譜和通用知識圖譜互聯(lián)，我們在這里互聯(lián)是比較簡單地使用產(chǎn)品詞作為一個橋梁進行互聯(lián)，比如一個方便面，我們從商品的知識圖譜里知道產(chǎn)地、原材料等，但是通用知識圖譜——就是右邊綠色的圖譜——能給我們提供更加豐富的信息，比如在食用方便面時能搭配什么，方便面的原材料會有一些什么，會有一些什么樣的食用場景。在這種情況下，我們就能給用戶提供更多的信息，比如當你在工作繁忙，沒有時間做飯，你可以食用方便面，然后使文案更具有促銷效果。

當然我們也注意到一個問題，就是當使用商品知識圖譜時，當前商品的商品知識圖譜——也就說它的屬性和屬性值——都是符合當前商品的。但是我們關(guān)聯(lián)進來的通用知識圖譜里的一些信息，它并不一定忠實于我們當前的商品。比如說方便面，是有小麥作為原料也有蕎麥作為原料的，通常很難區(qū)分出哪個通用知識圖譜引進的信息是忠實的，但是又希望能使用通用知識圖譜，所以我們進行一定改進，將輸入信息的信息來源做了一個 token，因為傳統(tǒng)做編碼時，基于 Transformer 模型是有兩部分編碼的，一部分是輸入 token，另外一部分是位置信息，那么這時我們加入第三部分，就是 token 的類別信息，比如來自于商品類目的描述 token，它描述的是商品的產(chǎn)品詞，然后 token 是來自于商品商詳，或者說來自于商品的知識圖譜，或者來自于通用知識圖譜，那么引入 token 向量想要做什么事呢？就是當我們模型在解碼時，在參考輸入信息的過程中，如果是參考的是商品知識圖譜應(yīng)該完全信賴，但是在使用通用知識圖譜時，應(yīng)該選擇性地使用，而不是一味從里面拿信息。

最終我們可以看一個 case，就是當我們引入通用知識圖譜后，比如對于一款太陽眼鏡，它的功效是能夠減輕眼睛疲勞和強光的刺激傷害，引入通用知識圖譜之后，它會對功效信息做一個描述，它描述的信息就是能夠阻隔強光和有害光線對眼睛的傷害。我們在家電、服飾、食品三個類目上評測了 ROUGE 指標。所謂 ROUGE 指標就是衡量模型生成的文案和人工寫的文案之間有多少相似度?？梢钥吹剑尤肓松唐吠ㄓ弥R圖譜之后，也就是圖里的紅色柱形，ROUGE 指標有一定提升。

在使用改進之后，其實還有另外一個發(fā)現(xiàn)，就是當我們將 token 的類別信息加入后，模型對產(chǎn)品詞的描述有一個比較明顯提升。如果讀第一個文案的時候，他沒有提到耳機，我們有可能還認為它是一個手機，加入 token 類別向量之后，他明確地描述這是一款耳機，這其實對我們來說是非常希望看到的一個現(xiàn)象。

四、基于領(lǐng)域知識圖譜的 LLM

下面分享一下我們在大模型方面的探索，首先是基于領(lǐng)域知識圖譜的一個大模型。

近幾年，大模型的發(fā)展非常迅猛，從 2017 年 Transformer 出現(xiàn)之后，這幾年模型參數(shù)量已經(jīng)由十億、百億，增長到了萬億級別。但是硬件資源進展卻非常緩慢，還是停留在兩三年前的 A100 這樣一個水平，雖說現(xiàn)在推出了 H800、A800，但是實際計算能力上沒有見到明顯的提升，所以在這種情況下，到底應(yīng)該怎么去看待大模型，也是值得我們思考的一個話題。

我們可以簡單回顧一下，從最開始推出的大家關(guān)注到的通用大模型，比如說在自然語言理解 NLU（Natural Language Understanding）方向，有個非常里程碑式的就是 BERT（Bidirectional Encoder Representation from Transformers）模型，以及文本生成方向，有一個非常里程碑的 BART（Bidirectional and Auto-Regressive Transformers）模型，分別作用在文本生成、文本摘要或者一些翻譯任務(wù)上。然后業(yè)界出現(xiàn)了一些基于通用知識的大模型，比如說基于知識圖譜的 KGPT（Knowledge-grounded Pre-training），以及百度提出的 ERNIE。我們針對趨勢做了一些思考，就是如何將大模型真正應(yīng)用于產(chǎn)業(yè)界或者應(yīng)用場景里為我們創(chuàng)造價值。我們最終得出的結(jié)論是領(lǐng)域大模型，面臨的挑戰(zhàn)是如何將領(lǐng)域知識圖譜或者領(lǐng)域知識融合到大模型里面。

為了實現(xiàn)這一目標，我們首先要定義我們需要的領(lǐng)域知識，這里定義了四類領(lǐng)域知識：

比較通用的商品的知識圖譜，比如商品的二元組信息，商品的一些相關(guān)聯(lián)的通用知識圖譜信息等。
商品的要素知識，要素知識其實是對商品知識圖譜的一個凝練，商品知識圖譜或商品屬性的某些類目量級是非常大的，可能有幾萬甚至幾十萬這樣一個量級，這導(dǎo)致某些尾部商品的知識圖譜非常低頻，所以我們需要對這些知識圖譜，或者對他的一些 schema 進行一些重新設(shè)計，這就是我們的商品要素。
一些類別信息，比如說商品它是耳機還是手機。
商品賣點，我們希望賣點知識被我們文案生成模型更好的去捕捉到，從而有助于賣點文案生成的場景。

針對這四類知識，我們定義了五個預(yù)訓練任務(wù)，前兩類是比較通用的掩碼的語言模型任務(wù)，分別是掩碼生成單個詞和掩碼生成文本片段，我們在設(shè)計這樣的任務(wù)時，也著重對知識信息優(yōu)先去掩碼。剩下三類是針對我們的知識去設(shè)計的三類預(yù)訓練任務(wù)。第三類是商品的要素檢測任務(wù)，因為在描述一款商品時會分很多角度，比如說在描述洗衣機時，會描述它的電機、是否靜音，我們能否讓模型意識到前兩句是在描述電機，后兩句在描述靜音，實際上就是去檢測這兩個要素的分界點。第四個任務(wù)是商品的類別分類任務(wù)，我們需要讓模型意識到商品的文案是在描述耳機而不是手機。第五個是商品的賣點短語，或者說商品賣點句，它的生成任務(wù)實際上是為了作用在 AIGC 場景里，通過設(shè)計我們希望模型在預(yù)訓練過程中既能學習到一些語言相關(guān)的信息，也能學習到知識圖譜相關(guān)的信息。

接下來是對我們模型的一個評價，我們分別測評了 NLU 任務(wù)和 NLG 任務(wù)，分別是知識圖譜補齊、電商多輪對話以及商品摘要生成任務(wù)。一共測試了三類模型，一個是 C-PLUG，C-PLUG 就是通用的、不加入任何知識的模型；一個是 E-PLUG 就是將通用知識加入到模型里去；最后就是 K-PLUG，是將電商知識注入到模型中去。我們發(fā)現(xiàn)加入電商知識后，在我們電商領(lǐng)域下的三個下游任務(wù)上，模型表現(xiàn)有一個比較明顯的提升。然后這里我們也給大家看一個非常有意思的 case，是一個電商場景下的真實場景。一個紙皮核桃，它的尺寸在三到五厘米，產(chǎn)地是新疆，然后模型根據(jù)商品的知識圖譜回復(fù)顧客，顧客其實問的就是這是不是紙皮核桃，然后是不是特級的紙皮核桃。但是我們把問題輸入給 ChatGPT，當然也是把商品的知識圖譜以知識注入的形式輸給了 ChatGPT，但是 ChatGPT 并沒有意識到“特級”是什么意思，因為它沒有特級的評價指標。但是如果是有領(lǐng)域知識的，就可以知道“特級”其實就是尺寸在三到五厘米的這個尺寸內(nèi)，通過融入知識，模型能夠意識到，如果它的尺寸是三到五厘米，那就是一個特級核桃。

這是我們在一個文本生成任務(wù)里的一個更直觀的評測，我們發(fā)現(xiàn)三點：第一個就是融入知識后，擬人化更好，也就是 ROUGE 得分更高，模型生成的文案和人寫的文案相似度更高。第二個角度就是描述更豐富，我們對比了通用預(yù)訓練模型 T5，它的描述的長度只能達到 60 個字左右，而融入知識訓練后，單條文案的描述長度能達到 80 個字以上。第三點就是它的可信度會更高，通過對模型進行人工評測，我們可以看到傳統(tǒng)通用的預(yù)訓練模型 T5 只能達到 76% 的審核通過率，而我們模型僅僅是融入知識的訓練，沒有做任何的后處理，就能達到 90% 的審核通過率。

五、基于通用知識圖譜的 LLM

最后要分享的是如何使用通用知識圖譜去加強預(yù)訓練語言模型。

最初代的預(yù)訓練語言模型有一個預(yù)訓練方式是去噪的自編碼器，就是選擇性或者隨機性地對輸入文本進行掩碼，輸入在掩碼過程中變成一個含噪音的輸入，然后希望文本生成模型對輸入去噪。但是我們發(fā)現(xiàn)其中有一些問題的，第一個方面是在訓練過程中，模型不會對所有的信息進行區(qū)分對待，比如如果是對知識進行加強學習，我們會希望知識的掩碼概率要大。第二個方面是在訓練過程中，無論是掩碼語言模型，還是現(xiàn)在比較流行的 Decoder-only 的語言模型，訓練方式都是 Teacher-Forcing 的形式，就是當我們預(yù)測下一個詞時，模型會給到上個詞或者說歷史信息的真值的詞。

這里舉一個例子，傳統(tǒng)的預(yù)訓練語言模型在預(yù)訓練的時候，比如要訓練 Tom Cruise 出生于什么地方，這時因為他真實出生地是紐約，那么在預(yù)測出生地第一個字時，模型可能根據(jù)上文“出生于”，預(yù)測出第一個字是“紐”，但是可能模型沒有學習到這樣一個知識，所以預(yù)測出來的是華盛頓，也就是算出來概率最高的第一個字是“華”，但是在預(yù)測第二個詞時，模型不會將第一個詞最高的那個概率“華”作為輸入，而會把“紐”詞作為輸入預(yù)測“約”。這會導(dǎo)致雖然我們看起來模型使用的是“紐約”詞做訓練，但實際上它根本就沒有學習到這個知識，它還是認為華盛頓才是 Tom Cruise 的出生地，也就是這種 Teacher-Forcing 形式并不足以使模型很好地學習到知識的表達。

為了解決這個問題，我們提出了一個不僅要在編碼器或者在輸入信息里加噪，還要在輸出里加噪，就是當模型去預(yù)測這樣的一個知識 entity（實體）時，我們并不只是用 Teacher-Forcing形式，而是要讓他完整地預(yù)測，比如說在預(yù)測第二詞“約”時，我們并不把“紐”作為一個輸入，而是把噪音作為輸入，例如一個[MASK]token，讓模型完整地依次預(yù)測出“紐”、“約”這兩個字。

具體來說就是傳統(tǒng)的掩碼只在 Encoder（編碼器）端加噪，比如說對所有的詞隨機加噪，80% 換成一個[MASK]字符，10% 替換成隨機字符，10% 保持不變，然后在 Decoder（解碼器）端不再做加噪處理。但是我們提出的策略，不僅延續(xù)了在編碼器加噪的處理，在解碼器也會加噪。也就是在我們已經(jīng)解碼出的文本里，不是將一個 Ground-Truth 的 token 作為 Decoder 的一個輸入，而是說有 80% 替換成一個[MASK]字符，10% 替換成一個隨機 token，10% 保持不變的這樣一個加噪方式，讓模型去完整地預(yù)測出一個實體 token。當然，雖然我們這些工作是 2022 年 EMNLP 的工作，當時 Decoder-only 框架可能還沒引起大家的轟動，但實際上，我們提出的訓練框架也是能夠很好適用于 Decoder-only 框架的。

我們也圍繞實體 NLG 的任務(wù)，在 WebNLG 和 WikiBio 這兩個數(shù)據(jù)上進行了測試，可以看到我們提出的面向知識的、在解碼側(cè)加入噪音的掩碼預(yù)訓練大模型的提升是非常明顯的。

責任編輯：姜華來源： DataFunTalk

AIGC 知識圖譜大模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="6gzr8"></sub>

<sup id="6gzr8"></sup>
<style id="6gzr8"></style>