自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

擔心GPT-3被喂假消息?谷歌新研究,將知識圖譜轉(zhuǎn)“人話”來訓練

新聞 人工智能 知識圖譜
他們做了個名為TEKGEN的AI模型,直接將知識圖譜用“人話”再描述一遍,生成語料庫,再喂給NLP模型訓練。

 本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

還在擔心大語言模型“啥都吃”,結(jié)果被用假信息訓練了?

放在以前,這確實是訓練NLP模型時值得擔心的一個難題。

現(xiàn)在,谷歌從根本上解決了這個問題。

他們做了個名為TEKGEN的AI模型,直接將知識圖譜用“人話”再描述一遍,生成語料庫,再喂給NLP模型訓練。

擔心GPT-3被喂假消息?谷歌新研究,將知識圖譜轉(zhuǎn)“人話”來訓練

這是因為,知識圖譜的信息來源往往準確靠譜,而且還會經(jīng)過人工篩選、審核,質(zhì)量有保障。

目前,這項研究已經(jīng)被NAACL 2021接收。

擔心GPT-3被喂假消息?谷歌新研究,將知識圖譜轉(zhuǎn)“人話”來訓練

如何讓AI用“人話”描述知識圖譜?

谷歌用來描述知識圖譜的TEKGEN模型,全名Text from KG Generator(知識圖譜文本生成器)。

它會讀取一個知識圖譜中的所有詞語,捋清它們之間的關系,再用“人話”說出來。

從下圖中來看,轉(zhuǎn)換語句分為2步:

首先,將關系圖譜中的詞語,按邏輯進行排列;然后,再添加一些詞語、并調(diào)整語句間的邏輯關系,將它們變成一段完整的話。

擔心GPT-3被喂假消息?谷歌新研究,將知識圖譜轉(zhuǎn)“人話”來訓練

為了實現(xiàn)這個功能,TEKGEN包含4個部分:

  • 三元組(包含主語、賓語、關系詞)生成器。將維基百科的知識圖譜、和維基百科文本描述進行對應,生成訓練數(shù)據(jù)集。
  • T5的文本-文本生成器,用于將三元組轉(zhuǎn)換成文本信息。
  • 實體子圖創(chuàng)建器。用于將三元組中的文本信息轉(zhuǎn)換成語句。
  • 語義質(zhì)量濾波器。這部分用來處理低質(zhì)量的輸出,保證生成的語句質(zhì)量。
擔心GPT-3被喂假消息?谷歌新研究,將知識圖譜轉(zhuǎn)“人話”來訓練

整體來看,用TEKGEN生成語句的流程是這樣的:

擔心GPT-3被喂假消息?谷歌新研究,將知識圖譜轉(zhuǎn)“人話”來訓練

生成后的語句,就能用來放心地訓練大語言模型了。

這份生成的語料庫,由4500萬個三元組生成,組合起來的句子有1600萬句。

擔心GPT-3被喂假消息?谷歌新研究,將知識圖譜轉(zhuǎn)“人話”來訓練

那么,用這個語料庫訓練的NLP模型,是否真能取得更好的效果呢?

“滿分5分,人類給它4.3分”

先來看幾個連詞成句的實例效果。

從輸入的詞語來看,只有主語、賓語,以及這兩個詞語之間的關系。

擔心GPT-3被喂假消息?谷歌新研究,將知識圖譜轉(zhuǎn)“人話”來訓練

但TEKGEN似乎“”出了什么,很快就將這些句子組合成了一段正常的語句。

不僅時間、地點、從屬關系等分得非常清楚,邏輯上也符合我們平時說話的語序。

那么,滿分5分的話,人類對于AI的“圖文轉(zhuǎn)換”能力給出幾分呢?

谷歌找了些志愿者來進行測評,從結(jié)果來看,TEKGEN在“語義”和“流暢度”兩方面,均取得了4.3分以上的好成績。

擔心GPT-3被喂假消息?谷歌新研究,將知識圖譜轉(zhuǎn)“人話”來訓練

當然,這里面也用LAMA(LAnguage Model Analysis) probe,來對用這個語料庫訓練的模型進行了評估。

在Google-RE和TREx兩個數(shù)據(jù)集上,經(jīng)過預訓練的模型,在各項任務上均取得了非常好的效果。

擔心GPT-3被喂假消息?谷歌新研究,將知識圖譜轉(zhuǎn)“人話”來訓練

說不定,將來真能讓AI去試試高考語文的“圖文轉(zhuǎn)換”題:

擔心GPT-3被喂假消息?谷歌新研究,將知識圖譜轉(zhuǎn)“人話”來訓練

作者介紹

[[403766]]

論文一作小姐姐Oshin Agarwal,是賓夕法尼亞大學的計算機系在讀博士生,研究方向是自然語言處理中的信息抽取。

這篇論文,是她在谷歌實習期間完成的。

來自谷歌的Heming Ge、Siamak Shakeri和Rami Al-Rfou也參與了這項工作。

目前,作者們已經(jīng)將這個用知識圖譜生成的語料庫放了出來。

想要訓練NLP模型的小伙伴,可以用起來了~

論文地址:
https://arxiv.org/abs/2010.12688

用知識圖譜生成的語料庫:
https://github.com/google-research-datasets/KELM-corpus

 

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2017-03-06 16:48:56

知識圖譜構建存儲

2021-01-19 10:52:15

知識圖譜

2025-04-27 00:10:00

AI人工智能知識圖譜

2023-08-22 15:34:01

Python開發(fā)

2023-09-11 08:12:39

圖形結(jié)構圖譜

2021-01-25 10:36:32

知識圖譜人工智能

2021-03-23 15:21:00

人工智能機器學習技術

2020-01-08 09:31:58

知識圖譜互聯(lián)網(wǎng)

2024-06-03 07:28:43

2022-05-27 17:10:51

知識圖譜谷歌

2021-01-18 10:50:29

知識圖譜人工智能深度學習

2017-04-13 11:48:05

NLP知識圖譜

2017-05-04 13:18:18

深度學習知識圖譜

2019-05-07 10:01:49

Redis軟件開發(fā)

2021-02-01 22:41:05

語義網(wǎng)知識圖譜

2024-10-08 10:37:12

語言數(shù)據(jù)自然語言

2019-01-18 16:02:33

知識圖譜圖數(shù)據(jù)庫AI

2020-04-30 09:22:06

人工智能知識圖譜研究

2021-04-12 11:47:21

人工智能知識圖譜

2025-04-18 12:49:58

知識圖譜大模型人工智能
點贊
收藏

51CTO技術棧公眾號