自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

徹底摒棄人工標(biāo)注,AutoAlign方法基于大模型讓知識(shí)圖譜對(duì)齊全自動(dòng)化

人工智能 新聞
來自清華大學(xué)、墨爾本大學(xué)、香港中文大學(xué)、中國(guó)科學(xué)院大學(xué)的學(xué)者聯(lián)合提出了一種基于大模型的全自動(dòng)進(jìn)行知識(shí)圖譜對(duì)齊的方法——AutoAlign。

本工作由來自清華大學(xué)、墨爾本大學(xué)、香港中文大學(xué)、中國(guó)科學(xué)院大學(xué)的 Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng, Jianzhong Qi 等學(xué)者團(tuán)隊(duì)聯(lián)合完成。該團(tuán)隊(duì)專注于大模型、知識(shí)圖譜、推薦搜索、自然語言處理、大數(shù)據(jù)等方向的研究。

知識(shí)圖譜作為結(jié)構(gòu)化知識(shí)的重要載體,廣泛應(yīng)用于信息檢索、電商、決策推理等眾多領(lǐng)域。然而,由于不同機(jī)構(gòu)或方法構(gòu)建的知識(shí)圖譜存在表示方式、覆蓋范圍等方面的差異,如何有效地將不同的知識(shí)圖譜進(jìn)行融合,以獲得更加全面、豐富的知識(shí)體系,成為提高知識(shí)圖譜覆蓋度和準(zhǔn)確率的重要問題,這就是知識(shí)圖譜對(duì)齊(Knowledge Graph Alignment)任務(wù)所要解決的核心挑戰(zhàn)。

傳統(tǒng)的知識(shí)圖譜對(duì)齊方法必須依賴人工標(biāo)注來對(duì)齊一些實(shí)體(entity)和謂詞(predicate)等作為種子實(shí)體對(duì)。這樣的方法昂貴、低效、而且對(duì)齊的效果不佳。來自清華大學(xué)、墨爾本大學(xué)、香港中文大學(xué)、中國(guó)科學(xué)院大學(xué)的學(xué)者聯(lián)合提出了一種基于大模型的全自動(dòng)進(jìn)行知識(shí)圖譜對(duì)齊的方法——AutoAlign。AutoAlign徹底不需要人工來標(biāo)注對(duì)齊的種子實(shí)體或者謂詞對(duì),而是完全通過算法對(duì)于實(shí)體語義和結(jié)構(gòu)的理解來進(jìn)行對(duì)齊,顯著提高了效率和準(zhǔn)確性。

圖片


  • 論文:AutoAlign: Fully Automatic and Effective Knowledge Graph Alignment enabled by Large Language Models,36 (6) TKDE 2024
  • 論文鏈接:https://arxiv.org/abs/2307.11772
  • 代碼鏈接:https://github.com/ruizhang-ai/AutoAlign

模型介紹

AutoAlign 主要由兩部分組成:

  • 用于將謂詞(predicate)對(duì)齊的謂詞嵌入模塊(Predicate Embedding Module)。
  • 用于將實(shí)體(entity)對(duì)齊的實(shí)體嵌入學(xué)習(xí)部分,包括兩個(gè)模塊:屬性嵌入模塊 (Attribute Embedding Module)和結(jié)構(gòu)嵌入模塊(Structure Embedding Module)。

總體流程如下圖所示:

圖片

謂詞嵌入模塊:謂詞嵌入模塊旨在對(duì)齊兩個(gè)知識(shí)圖譜中代表相同含義的謂詞。例如,將“is_in”和“l(fā)ocated_in”進(jìn)行對(duì)齊。為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)創(chuàng)建了一個(gè)謂詞鄰近圖(Predicate Proximity Graph),將兩個(gè)知識(shí)圖譜合并成一個(gè)圖,并將其中的實(shí)體替換為其對(duì)應(yīng)的類型(Entity Type)。這種方式基于以下假設(shè):相同(或相似)的謂詞,其對(duì)應(yīng)的實(shí)體類型也應(yīng)相似(例如,“is_in”和“l(fā)ocated_in”的目標(biāo)實(shí)體類型大概率屬于location或city)。通過大語言模型對(duì)類型的語義理解,進(jìn)一步對(duì)齊這些類型,提高了三元組學(xué)習(xí)的準(zhǔn)確性。最終,通過圖編碼方法(如TransE)對(duì)謂詞鄰近圖的學(xué)習(xí),使得相同(或相似)的謂詞具有相似的嵌入,從而實(shí)現(xiàn)謂詞的對(duì)齊。

具體實(shí)現(xiàn)上,研究團(tuán)隊(duì)首先構(gòu)建謂詞鄰近圖。謂詞鄰近圖是一種描述實(shí)體類型之間關(guān)系的圖。實(shí)體類型表示實(shí)體的廣泛類別,可以自動(dòng)鏈接不同的實(shí)體。即使某些謂詞的表面形式不同(例如“l(fā)gd:is_in”和“dbp:located_in”),通過學(xué)習(xí)謂詞鄰近圖,可以有效識(shí)別它們的相似性。構(gòu)建謂詞鄰近圖的步驟如下:

  • 實(shí)體類型提取:研究團(tuán)隊(duì)通過獲取每個(gè)實(shí)體在知識(shí)圖譜中的rdfs:type謂詞的值來提取實(shí)體類型。通常,每個(gè)實(shí)體有多個(gè)類型。例如,德國(guó)(Germany)實(shí)體在知識(shí)圖譜中可能有多個(gè)類型,如“thing”、“place”、“l(fā)ocation”和“country”。在謂詞鄰近圖中,他們用一組實(shí)體類型替換每個(gè)三元組的頭實(shí)體和尾實(shí)體。
  • 類型對(duì)齊:由于不同知識(shí)圖譜中的實(shí)體類型可能使用不同的表面形式(例如,“person”和“people”),研究團(tuán)隊(duì)需要對(duì)齊這些類型。為此,研究團(tuán)隊(duì)利用最新的大語言模型(如ChatGPT和Claude)來自動(dòng)對(duì)齊這些類型。例如,研究團(tuán)隊(duì)可以使用Claude2來識(shí)別兩個(gè)知識(shí)圖譜中相似的類型對(duì),然后將所有相似類型對(duì)齊為統(tǒng)一的表示形式。為此,研究團(tuán)隊(duì)設(shè)計(jì)了一套自動(dòng)化提示詞(prompt),能夠根據(jù)不同的知識(shí)圖譜進(jìn)行自動(dòng)化對(duì)齊詞的獲取。

為了捕捉謂詞相似性,需要聚合多個(gè)實(shí)體類型。研究團(tuán)隊(duì)提出了兩種聚合方法:加權(quán)和基于注意力的函數(shù)。在實(shí)驗(yàn)中,他們發(fā)現(xiàn)基于注意力的函數(shù)效果更好。具體而言,他們計(jì)算每個(gè)實(shí)體類型的注意力權(quán)重,并通過加權(quán)求和的方式獲得最終的偽類型嵌入。接下來,研究團(tuán)隊(duì)通過最小化目標(biāo)函數(shù)來訓(xùn)練謂詞嵌入,使得相似的謂詞具有相似的向量表示。

屬性嵌入模塊和結(jié)構(gòu)嵌入模塊:屬性嵌入模塊和結(jié)構(gòu)嵌入模塊都用于實(shí)體(entity)對(duì)齊。它們的思想和謂詞嵌入相似,即對(duì)于相同(或相似)的實(shí)體,其對(duì)應(yīng)的三元組中的謂詞和另一個(gè)實(shí)體也應(yīng)該具有相似性。因此,在謂詞對(duì)齊(通過謂詞嵌入模塊)和屬性對(duì)齊(通過 Attribute Character Embeding 方法)的情況下,我們可以通過TransE使相似的實(shí)體學(xué)習(xí)到相似的嵌入。具體來說:

  • 屬性嵌入學(xué)習(xí):屬性嵌入模塊通過編碼屬性值的字符序列來建立頭實(shí)體和屬性值之間的關(guān)系。研究團(tuán)隊(duì)提出了三種組合函數(shù)來編碼屬性值:求和組合函數(shù)、基于LSTM的組合函數(shù)和基于N-gram的組合函數(shù)。通過這些函數(shù),我們能夠捕捉屬性值之間的相似性,從而使得兩個(gè)知識(shí)圖譜中的實(shí)體屬性可以對(duì)齊。
  • 結(jié)構(gòu)嵌入學(xué)習(xí):結(jié)構(gòu)嵌入模塊基于TransE方法進(jìn)行了改進(jìn),通過賦予不同鄰居不同的權(quán)重來學(xué)習(xí)實(shí)體的嵌入。已對(duì)齊的謂詞和隱含對(duì)齊的謂詞將獲得更高的權(quán)重,而未對(duì)齊的謂詞則被視為噪聲。通過這種方式,結(jié)構(gòu)嵌入模塊能夠更有效地從已對(duì)齊的三元組中學(xué)習(xí)。
  • 聯(lián)合訓(xùn)練:謂詞嵌入模塊、屬性嵌入模塊和結(jié)構(gòu)嵌入模塊這三個(gè)模塊可以進(jìn)行交替訓(xùn)練,通過交替學(xué)習(xí)的方式互相影響,通過優(yōu)化嵌入使其在各個(gè)結(jié)構(gòu)的表示中達(dá)到整體最優(yōu)。訓(xùn)練完成后,研究團(tuán)隊(duì)獲得了實(shí)體(entity)、謂詞(predicate)、屬性(attribute)和類型(type)的嵌入表示。最后,我們通過對(duì)比兩個(gè)知識(shí)圖譜中的實(shí)體相似性(如cosine similarity),找到相似性高的實(shí)體對(duì)(需要高于一個(gè)閾值)來進(jìn)行實(shí)體對(duì)齊。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在最新的基準(zhǔn)數(shù)據(jù)集DWY-NB (Rui Zhang, 2022) 上進(jìn)行了實(shí)驗(yàn),主要結(jié)果如下表所示。

圖片

AutoAlign在知識(shí)圖譜對(duì)齊性能方面有顯著提升,特別是在缺少人工標(biāo)注種子的情況下,表現(xiàn)尤為出色。在沒有人工標(biāo)注的情況下,現(xiàn)有的模型幾乎無法進(jìn)行有效對(duì)齊。然而,AutoAlign在這種條件下依然能夠取得優(yōu)異的表現(xiàn)。在兩個(gè)數(shù)據(jù)集上,AutoAlign在沒有人工標(biāo)注種子的情況下,相比于現(xiàn)有最佳基準(zhǔn)模型(即使有人工標(biāo)注)有顯著的提升。這些結(jié)果表明,AutoAlign不僅在對(duì)齊準(zhǔn)確性上優(yōu)于現(xiàn)有方法,而且在完全自動(dòng)化的對(duì)齊任務(wù)中展現(xiàn)了強(qiáng)大的優(yōu)勢(shì)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-01-29 00:25:59

人工智能結(jié)構(gòu)化編碼

2023-08-17 08:29:22

2023-09-27 09:00:00

大型語言模型自然語言處理

2020-12-18 11:59:21

人工智能知識(shí)圖譜

2020-11-29 19:03:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-02-26 00:00:00

RAG系統(tǒng)圖譜

2024-05-16 08:23:26

大語言模型知識(shí)圖譜人工智能

2024-10-08 10:37:12

語言數(shù)據(jù)自然語言

2024-06-17 07:49:53

2017-03-06 16:48:56

知識(shí)圖譜構(gòu)建存儲(chǔ)

2021-04-12 11:47:21

人工智能知識(shí)圖譜

2021-01-19 10:52:15

知識(shí)圖譜

2025-04-27 00:10:00

AI人工智能知識(shí)圖譜

2024-01-23 10:58:49

2024-01-09 14:05:15

大型語言模型RAG向量數(shù)據(jù)庫

2023-08-22 15:34:01

Python開發(fā)

2021-01-25 10:36:32

知識(shí)圖譜人工智能

2021-10-13 10:06:49

自動(dòng)化IT安全

2022-02-04 21:50:37

網(wǎng)絡(luò)安全自動(dòng)化

2024-02-20 08:17:55

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)