KGGen用語(yǔ)言模型從純文本中提取知識(shí)圖譜
從事大模型應(yīng)用的讀者都可能受到知識(shí)圖譜(KG)不足的困擾,知識(shí)圖譜的構(gòu)建與運(yùn)營(yíng)常常是耗時(shí)費(fèi)力的手工過程。
斯坦福最新工作KGGen【文獻(xiàn)1】,利用大語(yǔ)言模型(LLM)從非結(jié)構(gòu)化文本中自動(dòng)生成高質(zhì)量知識(shí)圖譜,等于從LLM提取出語(yǔ)義。
簡(jiǎn)介
知識(shí)圖譜是信息檢索等應(yīng)用中基本的數(shù)據(jù)結(jié)構(gòu),通過主謂賓三元組表示實(shí)體之間的關(guān)系。
然而,許多現(xiàn)有的KG存在不完整性,缺乏實(shí)體之間的眾多關(guān)系,這對(duì)下游任務(wù)如KG嵌入和基于圖的推理造成了挑戰(zhàn)。
KGGen通過利用LLM從純文本中提取主謂賓三元組,構(gòu)建密集且全面的KG,從而緩解數(shù)據(jù)稀缺和不完整性的問題。
方法
KGGen三步從文本中生成KG:
實(shí)體和關(guān)系提取:基于LLM的提取器讀取非結(jié)構(gòu)化文本,預(yù)測(cè)主謂賓三元組,捕捉實(shí)體及其關(guān)系,并確保實(shí)體之間的一致性。
聚合:從每個(gè)源文本中提取三元組后,收集所有源圖中的所有唯一實(shí)體和邊,將其組合成一個(gè)整體圖Graph。聚合無(wú)需LLM。
相關(guān)實(shí)體聚類:為減少提取的KG中的稀疏性,對(duì)相關(guān)實(shí)體進(jìn)行聚類,確保生成的圖是密集且相互關(guān)聯(lián)的。靈感來(lái)自人群如何逐漸就合并術(shù)語(yǔ)達(dá)成一致。
這種多步方法使KGGen能夠從純文本中生成高質(zhì)量的KG,成為下游各種應(yīng)用的非常有價(jià)值工具。
基準(zhǔn)測(cè)試和性能
為了評(píng)估KGGen的有效性,學(xué)者們引入了節(jié)點(diǎn)和邊信息度量(MINE)基準(zhǔn)測(cè)試。
MINE通過確定特定事實(shí)是否被捕捉到生成的圖中,評(píng)估提取器從純文本生成有用KG的能力。
KGGen在該基準(zhǔn)測(cè)試中優(yōu)于現(xiàn)存的提取器,展示了其利用LLM生成功能性KG的潛力。
可用性
KGGen作為Python庫(kù)提供,用戶可以通過pip(pip install kg-gen)訪問。
該項(xiàng)目的代碼可以在??https://github.com/stair-lab/kg-gen??找到,可促進(jìn)KGGen在各種應(yīng)用和研究項(xiàng)目中的集成。
結(jié)論
KGGen的開發(fā)代表了從非結(jié)構(gòu)化文本中自動(dòng)生成知識(shí)圖譜的重大進(jìn)展。
通過利用LLM和聚類算法,KGGen解決了傳統(tǒng)KG中數(shù)據(jù)稀缺和不完整性的問題。
其在MINE基準(zhǔn)測(cè)試中的優(yōu)異表現(xiàn)和作為開源Python庫(kù)的可用性,可作為知識(shí)圖譜構(gòu)建和利用領(lǐng)域從業(yè)者的寶貴資源。
文獻(xiàn)1,KGGen: Extracting Knowledge Graphs from Plain Text with Language Models,https://arxiv.org/pdf/2502.09956v1
本文轉(zhuǎn)載自??清熙??,作者: 王慶法
