自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

知識(shí)圖譜是否是自然語(yǔ)言處理的未來?

人工智能 知識(shí)圖譜 自然語(yǔ)言處理
2021年了,不少當(dāng)年如日中天技術(shù)到今天早已無人問津,而知識(shí)圖譜這個(gè)AI界的大IP最火的時(shí)候應(yīng)該是18,19年,彼時(shí)上到頭部大廠下到明星創(chuàng)業(yè)公司都在PR自己圖譜+NLP布局能夠賦予AI認(rèn)知能力。到了當(dāng)下這個(gè)AI總體降溫的時(shí)間節(jié)點(diǎn),我們是時(shí)候冷靜思考知識(shí)圖譜的未來到底該何去何從了。

 知識(shí)圖譜是NLP的未來嗎?

2021年了,不少當(dāng)年如日中天技術(shù)到今天早已無人問津,而知識(shí)圖譜這個(gè)AI界的大IP最火的時(shí)候應(yīng)該是18,19年,彼時(shí)上到頭部大廠下到明星創(chuàng)業(yè)公司都在PR自己圖譜+NLP布局能夠賦予AI認(rèn)知能力。到了當(dāng)下這個(gè)AI總體降溫的時(shí)間節(jié)點(diǎn),我們是時(shí)候冷靜思考知識(shí)圖譜的未來到底該何去何從了。

回到這個(gè)問題本身:知識(shí)圖譜是否是NLP的未來呢?

我的看法:知識(shí)圖譜不是NLP的未來,因?yàn)橹R(shí)圖譜是另外一種與NLP有很多交集的技術(shù)。在目前所有已知的發(fā)展方向中,知識(shí)圖譜是最有可能長(zhǎng)期和NLP互利共生的技術(shù)。

那么,知識(shí)圖譜和NLP到底是什么關(guān)系呢?直覺上看,機(jī)器學(xué)習(xí)可以類比我們?nèi)祟悓W(xué)習(xí)?;仡櫼幌挛覀冏约旱膶W(xué)習(xí)過程,大腦和感官主要負(fù)責(zé)信息獲取、處理、分析、決策。對(duì)于簡(jiǎn)單問題或少數(shù)天才,接受到信息后,只需要在大腦中思考一遍即可得出結(jié)論。但是對(duì)于復(fù)雜問題,比如工作匯報(bào)或期末考試,只靠大腦很難記住所有信息,這個(gè)時(shí)候,很多人都會(huì)選擇將一些加工過的結(jié)構(gòu)化或半結(jié)構(gòu)化的知識(shí)整理成筆記,方便需要的時(shí)候快速回顧。

發(fā)現(xiàn)了嗎?大腦的角色非常類似NLP以及其他ML技術(shù),而筆記幾乎就是KG的靈感來源。具體來說,NLP在圖譜構(gòu)建過程中舉足輕重,而圖譜又通過引入知識(shí)的方式反哺NLP。

不少證據(jù)已經(jīng)表明諸如Bert之類的預(yù)訓(xùn)練語(yǔ)言模型本身已經(jīng)存儲(chǔ)了知識(shí),就像我們的大腦中也存在一些關(guān)鍵記憶一樣,但它不可能將所有現(xiàn)實(shí)世界中的事實(shí)全部?jī)?nèi)化,猶如人腦不可能記住所有見過的東西一樣,而知識(shí)圖譜通過引入知識(shí)能緩解NLP的學(xué)習(xí)壓力。另一個(gè)嚴(yán)重的問題是,由于NLP技術(shù)目前遠(yuǎn)沒有人腦智能,模型在訓(xùn)練中記住的知識(shí)實(shí)際上是不可控的(此處可以圍觀隔壁的AI偏見問題[1]),這對(duì)NLP技術(shù)的落地應(yīng)用是一個(gè)需要考慮的風(fēng)險(xiǎn),而在可解釋性方面,知識(shí)圖譜是Bug級(jí)的存在。

知識(shí)圖譜如何賦能NLP技術(shù)?

NLP技術(shù)如何賦能圖譜構(gòu)建的資料很多,知識(shí)圖譜落地應(yīng)用近些年也是進(jìn)展地如火如荼,但,知識(shí)圖譜如何賦能NLP技術(shù)這個(gè)話題聊的人卻不太多。

我自己總結(jié)了最近幾年KG賦能NLP技術(shù)的一些打法,歡迎補(bǔ)充~

預(yù)訓(xùn)練中引入知識(shí)

代表工作:

ERNIE[2],使用短語(yǔ)和實(shí)體mask策略在中文NLP任務(wù)上取得了較好的效果,其中短語(yǔ)和實(shí)體來自KG

圖2. ERNIE

K-BERT[3],預(yù)訓(xùn)練過程中注入相關(guān)的KG三元組,為模型配備領(lǐng)域知識(shí),提高模型在特定領(lǐng)域任務(wù)上的性能,同時(shí)降低大規(guī)模預(yù)訓(xùn)練成本。

圖3. K-BERT

信息抽取中做遠(yuǎn)程監(jiān)督

用KG對(duì)齊文本做遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)是信息抽取領(lǐng)域的大殺器,能夠有效降低人工標(biāo)注成本,可以將實(shí)體抽取、關(guān)系抽取、事件抽取等子任務(wù)一網(wǎng)打盡,用過的小伙伴都說好。

圖4. 遠(yuǎn)程監(jiān)督

實(shí)體鏈接中引入實(shí)體信息

實(shí)體鏈接,就是把文本中的mention鏈接到KG里的entity的任務(wù)。如下圖所示[4]:

圖5. 實(shí)體鏈接

顯然,KG中的實(shí)體信息,如實(shí)體描述、實(shí)體屬性、實(shí)體embedding以及實(shí)體間關(guān)系等都是該任務(wù)的關(guān)鍵特征,想深入了解的朋友請(qǐng)移步[4]。

文本生成中融合知識(shí)

通過知識(shí)圖譜中的顯示事實(shí)來指導(dǎo)生成文本是實(shí)現(xiàn)可控文本生成的一個(gè)重要方向,如下所示[5]:

圖6. 文本生成

具體大致分為4種較為典型的方式[6]:

多任務(wù)學(xué)習(xí)(生成+文本蘊(yùn)含)

基于knowledge graph 的文本生成

基于memory network 的文本生成

結(jié)合分布-采樣進(jìn)行文本生成

想詳細(xì)了解的朋友請(qǐng)移步[6]。

語(yǔ)義匹配中引入關(guān)鍵詞信息

在深度語(yǔ)義匹配任務(wù)中,有人發(fā)現(xiàn),通過文本中關(guān)鍵詞之間的交互即可較為容易的找到匹配對(duì)象,與其他詞匯關(guān)系不大[7][8]。

圖7. 語(yǔ)義匹配case

因此,考慮通過從KG中引入特定領(lǐng)域的關(guān)鍵詞表,然后在建模時(shí)highlight關(guān)鍵詞的重要度,從而達(dá)到更好的效果[8]。

圖8. 關(guān)鍵字注意力機(jī)制

[1]AI的偏見:機(jī)器就是絕對(duì)理性的么?https://baijiahao.baidu.com/s?id=1684480115111405061&wfr=spider&for=pc[2]ERNIE: Enhanced Representation through Knowledge Integration https://arxiv.org/pdf/1904.09223.pdf[3]K-BERT: Enabling Language Representation with Knowledge Graph https://arxiv.org/pdf/1909.07606.pdf[4]ab【知識(shí)圖譜】實(shí)體鏈接:一份“由淺入深”的綜述 - Nicolas的文章 - 知乎 https://zhuanlan.zhihu.com/p/100248426[5]Text Generation from Knowledge Graphs with Graph Transformers https://arxiv.org/pdf/1904.02342v1.pdf[6]ab文本生成12:4種融合知識(shí)的text generation(推薦收藏) - 林小平的文章 - 知乎 https://zhuanlan.zhihu.com/p/133266258[8]abKeyword-Attentive Deep Semantic Matching https://arxiv.org/abs/2003.11516

責(zé)任編輯:梁菲 來源: 互聯(lián)網(wǎng)
相關(guān)推薦

2017-03-28 17:52:58

自然語(yǔ)言處理商業(yè)智能

2017-03-30 14:52:34

自然語(yǔ)言商業(yè)智能

2021-05-17 09:00:00

自然語(yǔ)言人工智能技術(shù)

2020-04-24 10:53:08

自然語(yǔ)言處理NLP是人工智能

2021-05-13 07:17:13

Snownlp自然語(yǔ)言處理庫(kù)

2017-03-06 16:48:56

知識(shí)圖譜構(gòu)建存儲(chǔ)

2021-01-19 10:52:15

知識(shí)圖譜

2025-04-27 00:10:00

AI人工智能知識(shí)圖譜

2021-07-07 17:46:32

人工智能自然語(yǔ)言處理AI

2021-01-25 10:36:32

知識(shí)圖譜人工智能

2017-10-19 17:05:58

深度學(xué)習(xí)自然語(yǔ)言

2024-04-24 11:38:46

語(yǔ)言模型NLP人工智能

2023-09-27 09:00:00

大型語(yǔ)言模型自然語(yǔ)言處理

2024-02-05 14:18:07

自然語(yǔ)言處理

2021-01-21 10:28:16

自然語(yǔ)言NLP人工智能

2019-07-17 14:14:28

WOT2019人工智能

2017-04-17 15:03:16

Python自然語(yǔ)言處理

2017-05-05 15:34:49

自然語(yǔ)言處理

2020-02-25 12:00:53

自然語(yǔ)言開源工具

2020-02-25 23:28:50

工具代碼開發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)