一個增量式構(gòu)建知識圖譜的項(xiàng)目:iText2KG
?iText2KG是一個開源項(xiàng)目,能夠利用大型語言模型(zero-shot)跨領(lǐng)域從文本中提取實(shí)體和關(guān)系,自動構(gòu)建和更新知識圖譜,并通過Neo4j進(jìn)行可視化。
iText2KG由四個主要模塊組成:文檔提取器、增量實(shí)體提取器、增量關(guān)系提取器、圖形集成器和可視化。它們協(xié)同工作,從非結(jié)構(gòu)化文本構(gòu)建和可視化知識圖譜。
iText2KG整體架構(gòu)概述
- 文檔提取器(Document Distiller):該模塊處理原始文檔,并根據(jù)用戶定義的模式將其重新表述為語義塊。它通過關(guān)注相關(guān)信息并以預(yù)定義的格式對其進(jìn)行結(jié)構(gòu)化來提高信噪比。
- 增量實(shí)體提取器(Incremental Entity Extractor):此模塊從語義塊中提取唯一實(shí)體并解決歧義以確保每個實(shí)體都有明確定義。它使用余弦相似度度量將局部實(shí)體與全局實(shí)體進(jìn)行匹配。
- 增量關(guān)系提取器(Incremental Relation Extractor):此模塊識別提取實(shí)體之間的關(guān)系。它可以以兩種模式運(yùn)行:使用全局實(shí)體豐富圖形中的潛在信息,或使用局部實(shí)體建立更精確的關(guān)系。
- 圖形集成器和可視化(Graph Integrator and Visualization):此模塊將提取的實(shí)體和關(guān)系集成到 Neo4j 數(shù)據(jù)庫中,提供知識圖譜的可視化表示。它允許對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行交互式探索和分析。
四個模塊中,增量實(shí)體提取器與增量關(guān)系提取器最為關(guān)鍵,采用大模型來實(shí)現(xiàn),LLM提取代表一個唯一概念的實(shí)體,以避免語義混合的實(shí)體。
顯示了使用 Langchain JSON 解析器的實(shí)體和關(guān)系提取prompt。分類如下:藍(lán)色 - 由 Langchain 自動格式化的prompt;常規(guī) - iText2KG設(shè)計的prompt;斜體 - 專門為實(shí)體和關(guān)系提取設(shè)計的prompt。(a)關(guān)系提取prompt和(b)實(shí)體提取prompt。
為了說明知識圖譜構(gòu)建的結(jié)果,在三種不同場景下,將基線方法與iText2KG進(jìn)行了比較:
- 基線方法在所有三種知識圖譜構(gòu)建場景中都揭示了存在沒有關(guān)系的孤立節(jié)點(diǎn)。這種現(xiàn)象可能歸因于實(shí)體提取和關(guān)系提取的同時執(zhí)行,這可能會在語言模型中引起幻覺效應(yīng),導(dǎo)致“遺忘”效應(yīng),即分離實(shí)體和關(guān)系提取的過程可以提高性能。
- 在“網(wǎng)站到知識圖譜”的場景中,輸入文檔數(shù)量的增加與圖中噪聲節(jié)點(diǎn)的出現(xiàn)有關(guān)。這強(qiáng)調(diào)了對文檔進(jìn)行有效精煉和蒸餾的模塊1的關(guān)鍵需求。
- iText2KG方法在三種知識圖譜構(gòu)建場景中展示了改進(jìn)的實(shí)體和關(guān)系解析能力。當(dāng)輸入文檔較少且由簡單、非復(fù)雜短語組成時,語言模型在實(shí)體和關(guān)系解析方面表現(xiàn)出高效率,如“簡歷到知識圖譜”過程中所證明的。相反,隨著數(shù)據(jù)集變得更加復(fù)雜和龐大,挑戰(zhàn)也隨之增加,如“網(wǎng)站到知識圖譜”場景所示。此外,重要的是要強(qiáng)調(diào)輸入文檔的分塊大小和閾值對知識圖譜構(gòu)建的影響。文檔分餾器的輸入文檔可以是獨(dú)立的文檔或分塊。如果分塊大小較小,則語義塊將從文檔中捕獲更具體的詳細(xì)信息,反之亦然
在三個場景中,基線方法與iText2KG在知識圖譜構(gòu)建方面的比較
https://github.com/AuvaLab/itext2kg
https://arxiv.org/pdf/2409.03284
iText2KG: Incremental Knowledge Graphs Construction Using Large Language Models
本文轉(zhuǎn)載自??PaperAgent??
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報

回復(fù)
相關(guān)推薦