知識(shí)圖譜是否是自然語(yǔ)言處理的未來?
知識(shí)圖譜是NLP的未來嗎?
2021年了,不少當(dāng)年如日中天技術(shù)到今天早已無人問津,而知識(shí)圖譜這個(gè)AI界的大IP最火的時(shí)候應(yīng)該是18,19年,彼時(shí)上到頭部大廠下到明星創(chuàng)業(yè)公司都在PR自己圖譜+NLP布局能夠賦予AI認(rèn)知能力。到了當(dāng)下這個(gè)AI總體降溫的時(shí)間節(jié)點(diǎn),我們是時(shí)候冷靜思考知識(shí)圖譜的未來到底該何去何從了。
回到這個(gè)問題本身:知識(shí)圖譜是否是NLP的未來呢?
我的看法:知識(shí)圖譜不是NLP的未來,因?yàn)橹R(shí)圖譜是另外一種與NLP有很多交集的技術(shù)。在目前所有已知的發(fā)展方向中,知識(shí)圖譜是最有可能長(zhǎng)期和NLP互利共生的技術(shù)。
那么,知識(shí)圖譜和NLP到底是什么關(guān)系呢?直覺上看,機(jī)器學(xué)習(xí)可以類比我們?nèi)祟悓W(xué)習(xí)?;仡櫼幌挛覀冏约旱膶W(xué)習(xí)過程,大腦和感官主要負(fù)責(zé)信息獲取、處理、分析、決策。對(duì)于簡(jiǎn)單問題或少數(shù)天才,接受到信息后,只需要在大腦中思考一遍即可得出結(jié)論。但是對(duì)于復(fù)雜問題,比如工作匯報(bào)或期末考試,只靠大腦很難記住所有信息,這個(gè)時(shí)候,很多人都會(huì)選擇將一些加工過的結(jié)構(gòu)化或半結(jié)構(gòu)化的知識(shí)整理成筆記,方便需要的時(shí)候快速回顧。
發(fā)現(xiàn)了嗎?大腦的角色非常類似NLP以及其他ML技術(shù),而筆記幾乎就是KG的靈感來源。具體來說,NLP在圖譜構(gòu)建過程中舉足輕重,而圖譜又通過引入知識(shí)的方式反哺NLP。
不少證據(jù)已經(jīng)表明諸如Bert之類的預(yù)訓(xùn)練語(yǔ)言模型本身已經(jīng)存儲(chǔ)了知識(shí),就像我們的大腦中也存在一些關(guān)鍵記憶一樣,但它不可能將所有現(xiàn)實(shí)世界中的事實(shí)全部?jī)?nèi)化,猶如人腦不可能記住所有見過的東西一樣,而知識(shí)圖譜通過引入知識(shí)能緩解NLP的學(xué)習(xí)壓力。另一個(gè)嚴(yán)重的問題是,由于NLP技術(shù)目前遠(yuǎn)沒有人腦智能,模型在訓(xùn)練中記住的知識(shí)實(shí)際上是不可控的(此處可以圍觀隔壁的AI偏見問題[1]),這對(duì)NLP技術(shù)的落地應(yīng)用是一個(gè)需要考慮的風(fēng)險(xiǎn),而在可解釋性方面,知識(shí)圖譜是Bug級(jí)的存在。
知識(shí)圖譜如何賦能NLP技術(shù)?
NLP技術(shù)如何賦能圖譜構(gòu)建的資料很多,知識(shí)圖譜落地應(yīng)用近些年也是進(jìn)展地如火如荼,但,知識(shí)圖譜如何賦能NLP技術(shù)這個(gè)話題聊的人卻不太多。
我自己總結(jié)了最近幾年KG賦能NLP技術(shù)的一些打法,歡迎補(bǔ)充~
預(yù)訓(xùn)練中引入知識(shí)
代表工作:
ERNIE[2],使用短語(yǔ)和實(shí)體mask策略在中文NLP任務(wù)上取得了較好的效果,其中短語(yǔ)和實(shí)體來自KG
圖2. ERNIE
K-BERT[3],預(yù)訓(xùn)練過程中注入相關(guān)的KG三元組,為模型配備領(lǐng)域知識(shí),提高模型在特定領(lǐng)域任務(wù)上的性能,同時(shí)降低大規(guī)模預(yù)訓(xùn)練成本。
圖3. K-BERT
信息抽取中做遠(yuǎn)程監(jiān)督
用KG對(duì)齊文本做遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)是信息抽取領(lǐng)域的大殺器,能夠有效降低人工標(biāo)注成本,可以將實(shí)體抽取、關(guān)系抽取、事件抽取等子任務(wù)一網(wǎng)打盡,用過的小伙伴都說好。
圖4. 遠(yuǎn)程監(jiān)督
實(shí)體鏈接中引入實(shí)體信息
實(shí)體鏈接,就是把文本中的mention鏈接到KG里的entity的任務(wù)。如下圖所示[4]:
圖5. 實(shí)體鏈接
顯然,KG中的實(shí)體信息,如實(shí)體描述、實(shí)體屬性、實(shí)體embedding以及實(shí)體間關(guān)系等都是該任務(wù)的關(guān)鍵特征,想深入了解的朋友請(qǐng)移步[4]。
文本生成中融合知識(shí)
通過知識(shí)圖譜中的顯示事實(shí)來指導(dǎo)生成文本是實(shí)現(xiàn)可控文本生成的一個(gè)重要方向,如下所示[5]:
圖6. 文本生成
具體大致分為4種較為典型的方式[6]:
多任務(wù)學(xué)習(xí)(生成+文本蘊(yùn)含)
基于knowledge graph 的文本生成
基于memory network 的文本生成
結(jié)合分布-采樣進(jìn)行文本生成
想詳細(xì)了解的朋友請(qǐng)移步[6]。
語(yǔ)義匹配中引入關(guān)鍵詞信息
在深度語(yǔ)義匹配任務(wù)中,有人發(fā)現(xiàn),通過文本中關(guān)鍵詞之間的交互即可較為容易的找到匹配對(duì)象,與其他詞匯關(guān)系不大[7][8]。
圖7. 語(yǔ)義匹配case
因此,考慮通過從KG中引入特定領(lǐng)域的關(guān)鍵詞表,然后在建模時(shí)highlight關(guān)鍵詞的重要度,從而達(dá)到更好的效果[8]。
圖8. 關(guān)鍵字注意力機(jī)制
[1]AI的偏見:機(jī)器就是絕對(duì)理性的么?https://baijiahao.baidu.com/s?id=1684480115111405061&wfr=spider&for=pc[2]ERNIE: Enhanced Representation through Knowledge Integration https://arxiv.org/pdf/1904.09223.pdf[3]K-BERT: Enabling Language Representation with Knowledge Graph https://arxiv.org/pdf/1909.07606.pdf[4]ab【知識(shí)圖譜】實(shí)體鏈接:一份“由淺入深”的綜述 - Nicolas的文章 - 知乎 https://zhuanlan.zhihu.com/p/100248426[5]Text Generation from Knowledge Graphs with Graph Transformers https://arxiv.org/pdf/1904.02342v1.pdf[6]ab文本生成12:4種融合知識(shí)的text generation(推薦收藏) - 林小平的文章 - 知乎 https://zhuanlan.zhihu.com/p/133266258[8]abKeyword-Attentive Deep Semantic Matching https://arxiv.org/abs/2003.11516