自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

螞蟻?zhàn)匝兄R(shí)增強(qiáng)大模型服務(wù)框架KAG，可顯著提升知識(shí)推理準(zhǔn)確率

作者：機(jī)器之心 2024-09-12 13:50:00

人工智能新聞

近期，螞蟻將發(fā)布 KAG 的整體技術(shù)報(bào)告。我們希望真正融合知識(shí)圖譜的符號(hào)計(jì)算和向量檢索的優(yōu)勢(shì)，因?yàn)樗鼈冊(cè)诤芏喾矫媸腔パa(bǔ)的。

近日，在 2024 Inclusion?外灘大會(huì) “超越平面思維，圖計(jì)算讓 AI 洞悉復(fù)雜世界” 見(jiàn)解論壇上，螞蟻集團(tuán)知識(shí)圖譜負(fù)責(zé)人梁磊分享了 “構(gòu)建知識(shí)增強(qiáng)的專(zhuān)業(yè)智能體” 相關(guān)工作，并帶來(lái)了知識(shí)圖譜與大模型結(jié)合最新研發(fā)成果 —— 知識(shí)增強(qiáng)大模型服務(wù)框架 KAG。

梁磊介紹，專(zhuān)業(yè)領(lǐng)域增強(qiáng)大模型服務(wù)框架 KAG 通過(guò)圖譜邏輯符號(hào)引導(dǎo)決策和檢索，顯著提升了垂直領(lǐng)域決策的精準(zhǔn)性和邏輯嚴(yán)謹(jǐn)性；通過(guò)信息檢索可補(bǔ)全知識(shí)圖譜的稀疏性和知識(shí)覆蓋的不足，同時(shí)充分利用大語(yǔ)言模型的理解和生成能力降低領(lǐng)域知識(shí)圖譜的構(gòu)造門(mén)檻。KAG 框架在垂直領(lǐng)域的適用性得到了有效驗(yàn)證。比如，支付寶最新推出的 AI 原生 App “支小寶” 采用這套框架，在政務(wù)問(wèn)答場(chǎng)景的準(zhǔn)確率提升到了 91%，醫(yī)療問(wèn)答垂直的指標(biāo)解讀準(zhǔn)確率可達(dá) 90% 以上。梁磊還透露，KAG 框架會(huì)進(jìn)一步向社區(qū)開(kāi)放，并在開(kāi)源框架 OpenSPG (https://github.com/OpenSPG/openspg) 中原生支持，也歡迎社區(qū)共建。

以下是梁磊在外灘大會(huì)上的演講內(nèi)容摘要，機(jī)器之心做了不改變?cè)獾恼怼?/span>

1、可信是大語(yǔ)言模型真正落地應(yīng)用的前提

大語(yǔ)言模型有著很好的理解和生成能力，在垂直領(lǐng)域的應(yīng)用有巨大的機(jī)會(huì)，但同時(shí)也存在著非常大的挑戰(zhàn)。比如在垂直領(lǐng)域跟專(zhuān)家經(jīng)驗(yàn)、一些具體業(yè)務(wù)結(jié)合的時(shí)候，依然存在著不懂領(lǐng)域知識(shí)、做不了復(fù)雜決策、不可靠等問(wèn)題。

首先，大語(yǔ)言模型本身不具備比較嚴(yán)謹(jǐn)?shù)乃伎寄芰ΑＴ谝恍y(cè)試中，我們讓大語(yǔ)言模型做復(fù)雜問(wèn)題的拆解，問(wèn)兩部電影之間的共同主演是誰(shuí)，結(jié)果顯示總體上回復(fù)的準(zhǔn)確性和一致性相對(duì)較低，甚至還有一些拆解錯(cuò)誤。這種情況下，大語(yǔ)言模型很難嚴(yán)格遵從人類(lèi)的指令。此外，大語(yǔ)言模型還存在事實(shí)性不足的問(wèn)題。今年以來(lái)行業(yè)嘗試把 RAG、搜索引擎之類(lèi)的技術(shù)引入到大語(yǔ)言模型，來(lái)補(bǔ)充事實(shí)性不足的問(wèn)題，以及 GraphRAG，用圖的方式去重新組織它的檢索。但問(wèn)題是，即便引入了一些外部知識(shí)庫(kù)，把一些垂直領(lǐng)域的知識(shí)庫(kù)和事實(shí)文檔給到語(yǔ)言模型，模型也不見(jiàn)得能夠完全生成一個(gè)準(zhǔn)確的答案。

除此以外，大模型在外部知識(shí)庫(kù)召回的時(shí)候，也依然會(huì)存在召回不準(zhǔn)的問(wèn)題。舉個(gè)基于向量計(jì)算的 RAG 的例子。比如問(wèn) “怎么查找我的養(yǎng)老金”，常見(jiàn)的有兩種做法，一種是直接基于向量計(jì)算去召回文檔，但是往往和業(yè)務(wù)專(zhuān)家定義的知識(shí)不相關(guān)。但在垂直領(lǐng)域，有很多知識(shí)在字面上不相似，但卻是很相關(guān)的。比如政策明確規(guī)定了五險(xiǎn)一金的范圍，大模型不能對(duì)這些內(nèi)容做胡亂生成，這就必須有一些預(yù)定義的領(lǐng)域知識(shí)和預(yù)定義的知識(shí)結(jié)構(gòu)，來(lái)約束大模型的行為，甚至給它提供一個(gè)更有效的知識(shí)注入，而這些都是模型在文本上不相似，但卻是強(qiáng)相關(guān)的。在這種情況下，今年討論引入知識(shí)圖譜技術(shù)的也越來(lái)越多。通過(guò)知識(shí)圖譜的語(yǔ)義相關(guān)性來(lái)提升模型內(nèi)容的相關(guān)性，以此可以做更好的語(yǔ)義計(jì)算和語(yǔ)義的召回。

大模型幻覺(jué)也是阻礙應(yīng)用的關(guān)鍵挑戰(zhàn)之一。那么，引入了 RAG、知識(shí)庫(kù)之后，大模型就能解決幻覺(jué)問(wèn)題了嗎？其實(shí)不然，而且有些幻覺(jué)問(wèn)題不仔細(xì)觀(guān)察便難以察覺(jué)。舉個(gè)例子，比如原文提到功能飲料中的維生素、礦物質(zhì)等，對(duì)運(yùn)動(dòng)后補(bǔ)充身體營(yíng)養(yǎng)、消除疲勞具有一定作用，而大模型重新生成以后，可能會(huì)改寫(xiě)成對(duì)于增加疲勞有一定作用。這種其實(shí)就會(huì)給一個(gè)錯(cuò)誤的引導(dǎo)，但這種錯(cuò)誤的引導(dǎo)，尤其是大模型生成的文案可能是幾百字，甚至上千字的，這時(shí)候就很難從里面觀(guān)察到這類(lèi)細(xì)節(jié)問(wèn)題。通過(guò)測(cè)評(píng)發(fā)現(xiàn)，大語(yǔ)言模型即便是加入 RAG 以后，依然有大概 30% 到 40% 的幻覺(jué)率。

在真實(shí)業(yè)務(wù)決策場(chǎng)景，挑戰(zhàn)就更多了。以金融場(chǎng)景為例，無(wú)論是研報(bào)生成，還是醫(yī)療問(wèn)診等等，業(yè)務(wù)上都有比較嚴(yán)格的問(wèn)題規(guī)劃、信息獲取、決策建議，甚至生成和反饋的過(guò)程。也就是說(shuō)，因?yàn)榇笳Z(yǔ)言模型還是要為人類(lèi)服務(wù)，應(yīng)用在一個(gè)個(gè)垂直業(yè)務(wù)場(chǎng)景，每一類(lèi)都需要準(zhǔn)確的決策過(guò)程，如果這個(gè)決策過(guò)程不能得到很好的控制的話(huà)，就很難真正意義上用在垂直領(lǐng)域。在專(zhuān)業(yè)性的知識(shí)服務(wù)場(chǎng)景，大語(yǔ)言模型服務(wù)的首要前提是知識(shí)精準(zhǔn)。這就包括知識(shí)的邊界是完備的，知識(shí)的結(jié)構(gòu)及語(yǔ)義清晰、邏輯嚴(yán)謹(jǐn)。另外，在垂直領(lǐng)域落地，也一定要對(duì)時(shí)間、數(shù)字和邏輯敏感，無(wú)論讓它做多跳推理，還是邏輯規(guī)則數(shù)字計(jì)算，而這些恰好是大語(yǔ)言模型所不擅長(zhǎng)的，包括前一段時(shí)間熱議的 9.9 和 9.12 比大小的例子。

基于此，我們認(rèn)為在垂直領(lǐng)域落地的時(shí)候，大語(yǔ)言模型一定確保專(zhuān)業(yè)和可信。可信是大語(yǔ)言模型真正意義上落地的前提。如果不能保證可信，我們可能不會(huì)迎來(lái)真正意義上的 AGI 的變革。這也是螞蟻為什么要做知識(shí)增強(qiáng)的重要原因。

2、KAG：專(zhuān)業(yè)領(lǐng)域知識(shí)增強(qiáng)大模型服務(wù)框架

應(yīng)對(duì)大模型在真實(shí)應(yīng)用場(chǎng)景遇到的挑戰(zhàn)，螞蟻研發(fā)了基于知識(shí)增強(qiáng)在垂直領(lǐng)域的可控生成框架 KAG。

KAG 可控生成框架是基于開(kāi)源系統(tǒng) OpenSPG 升級(jí)，并且結(jié)合了螞蟻?zhàn)匝械膱D數(shù)據(jù)庫(kù) TuGraph-DB 的能力。TuGraph-DB 作為 KAG 中知識(shí)圖譜 SPG 的底層圖引擎，為 KAG 提供了高效的知識(shí)存儲(chǔ)與檢索能力。KAG 將抽取的知識(shí)存儲(chǔ)于 SPG 中，由 TuGraph-DB 提供圖存儲(chǔ)；在檢索流程中，SPG 通過(guò) TuGraph-DB 的 Cypher 接口檢索與用戶(hù)提問(wèn)相關(guān)的知識(shí)信息，并將結(jié)果反饋給大模型生成回答。

KAG 框架針對(duì)大語(yǔ)言模型和圖譜的結(jié)合做了五方面的增強(qiáng)：分別是知識(shí)表示的增強(qiáng)、圖結(jié)構(gòu)與文本互索引、符號(hào)引導(dǎo)的拆解和推理、基于概念的知識(shí)對(duì)齊、KAG Model。具體包括以下關(guān)鍵能力：

1） KAG: LLMs 友好的知識(shí)表示

今年，我們對(duì)語(yǔ)義表示進(jìn)行了升級(jí)，旨在進(jìn)一步發(fā)展 OpenSPG 項(xiàng)目，推動(dòng)知識(shí)圖譜從靜態(tài)二元結(jié)構(gòu)向多元?jiǎng)討B(tài)結(jié)構(gòu)持續(xù)升級(jí)。通過(guò)原始文本增強(qiáng)深度上下文感知，我們實(shí)現(xiàn)了更豐富的可解釋文本的知識(shí)關(guān)聯(lián)，對(duì)大語(yǔ)言模型也更友好，同時(shí)，參考 DIKW 層次范式在同一實(shí)體空間中支持 Schema 約束、無(wú)模式建模及文本結(jié)構(gòu)的分層表示。

同時(shí)，我們探討了 GraphRAG 范式的兩種主要實(shí)現(xiàn)：微軟的 GraphRAG 和 HippoRAG。盡管微軟的 GraphRAG 在摘要生成類(lèi)任務(wù)上有不錯(cuò)表現(xiàn)，但在事實(shí)問(wèn)答準(zhǔn)確率上表現(xiàn)不佳。而 HippoRAG 通過(guò)圖結(jié)構(gòu)構(gòu)建倒排索引，顯著提升了文檔召回的相關(guān)性和事實(shí)問(wèn)答的準(zhǔn)確性。我們的目標(biāo)是在專(zhuān)業(yè)領(lǐng)域內(nèi)實(shí)現(xiàn)準(zhǔn)確的事實(shí)性回答和報(bào)告生成，融合不同層級(jí)知識(shí)創(chuàng)建從嚴(yán)格到寬松的決策范式。

2）互索引：結(jié)構(gòu)化知識(shí)與文本數(shù)據(jù)互索引結(jié)構(gòu)

我們將原有的 term-based 倒排索引升級(jí)為 graph-based 倒排索引，通過(guò)開(kāi)放信息抽取獲取原始文檔中的關(guān)鍵元素和描述性信息，進(jìn)行有效的語(yǔ)義切分，最終形成一個(gè)包含業(yè)務(wù)實(shí)體、通用概念知識(shí)和文本塊的圖結(jié)構(gòu)。這種結(jié)構(gòu)不僅便于遍歷和檢索文本塊，還能有效分析文檔間的關(guān)聯(lián)。

3）混合推理：符號(hào)決策、向量檢索與大模型混合推理

我們?cè)?KAG 中構(gòu)建了一個(gè)混合推理引擎，旨在解決知識(shí)圖譜在嚴(yán)謹(jǐn)決策中的應(yīng)用問(wèn)題。目標(biāo)是開(kāi)發(fā)一套技術(shù)范式，支持復(fù)雜推理決策的執(zhí)行，同時(shí)通過(guò)信息檢索來(lái)彌補(bǔ)知識(shí)圖譜的不足。

該框架采用符號(hào)驅(qū)動(dòng)的方法生成邏輯可執(zhí)行的查詢(xún)表達(dá)式（Logic form Query）。通過(guò)圖結(jié)構(gòu)操作，利用分層知識(shí)進(jìn)行決策：先在邏輯知識(shí)層檢索，若無(wú)解則轉(zhuǎn)向開(kāi)放信息層，再通過(guò)關(guān)聯(lián)文檔檢索提高召回率和準(zhǔn)確性。在生成階段，我們應(yīng)用 query-focused summary 方法，以通過(guò)查詢(xún)結(jié)構(gòu)提取答案，解決傳統(tǒng)知識(shí)圖譜與用戶(hù)查詢(xún)的粒度匹配問(wèn)題。同時(shí)，基于知識(shí)圖譜的反饋有助于抑制語(yǔ)言模型生成中的幻覺(jué)，提高準(zhǔn)確性。系統(tǒng)將問(wèn)題拆解為邏輯符號(hào)表達(dá)，可轉(zhuǎn)化為 KGDSL 或 GQL。我們的兩階段規(guī)劃包含圖譜存儲(chǔ)中的精確匹配和 SPO 子圖檢索，最后集成知識(shí)圖譜以減輕幻覺(jué)。通過(guò)文本抽取的三元組注入語(yǔ)言模型，在生成時(shí)遵循結(jié)構(gòu)范式，有效降低幻覺(jué)率。這種方法在內(nèi)部業(yè)務(wù)中如區(qū)域風(fēng)險(xiǎn)報(bào)告生成中已顯著改善，我們將繼續(xù)深入探索這一方向。

4）語(yǔ)義對(duì)齊：平衡信息檢索與專(zhuān)業(yè)決策

問(wèn)題的關(guān)鍵在于如何有效整合信息檢索和專(zhuān)業(yè)決策。信息檢索允許一定的錯(cuò)誤率，而專(zhuān)業(yè)決策對(duì)準(zhǔn)確性要求則是嚴(yán)格的。因此，我們通過(guò)開(kāi)放信息抽取構(gòu)建結(jié)構(gòu)化知識(shí)，并應(yīng)用 schema 約束以提升決策的嚴(yán)謹(jǐn)性。此外，基于概念的語(yǔ)義對(duì)齊讓我們能兼顧這兩者，形成一個(gè)基于 SPG 的領(lǐng)域知識(shí)圖譜，從而改善信息檢索和專(zhuān)業(yè)決策的能力。

我們通過(guò)傳統(tǒng)圖譜方法，如實(shí)體鏈接和概念分層等，提升了圖結(jié)構(gòu)的稠密性和語(yǔ)義完備性。借助與浙江大學(xué)的 OpenKG 合作，推進(jìn) OneGraph 項(xiàng)目，我們致力于通過(guò)增強(qiáng)知識(shí)對(duì)齊能力，降低構(gòu)建成本。同時(shí)，在垂直領(lǐng)域的探索中，例如醫(yī)療和法律術(shù)語(yǔ)的應(yīng)用，我們優(yōu)化了開(kāi)放抽取的效率，顯著提升了與領(lǐng)域知識(shí)的對(duì)齊準(zhǔn)確性。我們的框架在通用數(shù)據(jù)集上較現(xiàn)有 SOTA 的 F1 提高了 10-20 個(gè)百分點(diǎn)，并在實(shí)際應(yīng)用中，比如政務(wù)和醫(yī)療問(wèn)答場(chǎng)景，取得了顯著的精度提升，表明其在專(zhuān)業(yè)決策中的有效性。

5） KAG 模型：定義 LLMs 與 KGs 之間的協(xié)同任務(wù)

KAG 模型旨在降低大型語(yǔ)言模型（LLMs）與知識(shí)圖譜（KGs）結(jié)合的成本，利用指令合成技術(shù)使較小模型在性能上接近更大模型。我們對(duì) LLMs 和 KGs 的能力進(jìn)行對(duì)齊，強(qiáng)調(diào)自然語(yǔ)言理解、推理和生成能力，確保從文本中提取結(jié)構(gòu)化信息并提升知識(shí)融合效率。結(jié)構(gòu)化、語(yǔ)義化的知識(shí)圖譜和原始文檔之間形成了良好的雙向映射，從文本到圖譜則是刻畫(huà)文本內(nèi)的關(guān)鍵信息和符號(hào)結(jié)構(gòu)，從圖譜到文本則是描述文本生成中所必須滿(mǎn)足的知識(shí)和邏輯約束。

為構(gòu)建知識(shí)圖譜，我們注重知識(shí)點(diǎn)的文本可解釋性，要求附帶描述信息、關(guān)聯(lián)原始文本段，避免僅只有原始詞條。知識(shí)圖譜的結(jié)構(gòu)化特性有助于生成高質(zhì)量指令，通過(guò)邏輯拆解和語(yǔ)義關(guān)系合成提升大語(yǔ)言模型的自然語(yǔ)言理解和推理能力。此外，指令的合成和語(yǔ)義對(duì)齊使小參數(shù)量模型達(dá)到接近或超越更大參數(shù)模型的效果，同時(shí)大幅提升性能。實(shí)踐中發(fā)現(xiàn)圖譜指令合成微調(diào)后的小模型在概念補(bǔ)全、信息抽取等圖譜專(zhuān)用任務(wù)上的準(zhǔn)確率均高于更大參數(shù)模型。

3. KAG 在垂直領(lǐng)域的典型應(yīng)用

今年以來(lái)，我們?cè)跇I(yè)務(wù)應(yīng)用中不斷完善 KAG 框架。在支付寶 AI 生活管家 “支小寶” 的熱點(diǎn)事件功能、政務(wù)民生場(chǎng)景，以及研報(bào)生成類(lèi)任務(wù)，KAG 都能夠生成邏輯上更為準(zhǔn)確的內(nèi)容。此外，支付寶今年在政務(wù)辦事和醫(yī)療健康兩個(gè)重要功能升級(jí)中也應(yīng)用了知識(shí)圖譜技術(shù)。例如，“去醫(yī)院針灸能否報(bào)銷(xiāo)？” 這一問(wèn)題包含了特定條件，而帶有條件的檢索是傳統(tǒng)搜索引擎或向量計(jì)算所不具備的功能。通過(guò)知識(shí)圖譜的方式，我們可以更有效地找到相關(guān)知識(shí)并生成更加完備的回答。

近期，螞蟻將發(fā)布 KAG 的整體技術(shù)報(bào)告。我們希望真正融合知識(shí)圖譜的符號(hào)計(jì)算和向量檢索的優(yōu)勢(shì)，因?yàn)樗鼈冊(cè)诤芏喾矫媸腔パa(bǔ)的。同時(shí)，利用大型語(yǔ)言模型的理解和生成能力，構(gòu)建一個(gè)知識(shí)增強(qiáng)的大語(yǔ)言模型生成系統(tǒng)。

在這個(gè)過(guò)程中，我們首先需要解決的是垂直領(lǐng)域應(yīng)用的問(wèn)題。系統(tǒng)既能進(jìn)行復(fù)雜的符號(hào)決策，又能在復(fù)雜符號(hào)決策無(wú)法滿(mǎn)足需求時(shí)，通過(guò)向量檢索進(jìn)行補(bǔ)充。在框架的后續(xù)版本中，我們將提供一些用戶(hù)可調(diào)的參數(shù)。這意味著，如果用戶(hù)對(duì)準(zhǔn)確率有極高要求，可以減少基于信息檢索生成的內(nèi)容；如果對(duì)準(zhǔn)確率有一定容忍度，則可以適當(dāng)放寬標(biāo)準(zhǔn)。這為用戶(hù)提供了一個(gè)可調(diào)節(jié)的垂直領(lǐng)域解決方案。因?yàn)椴⒉皇撬写怪鳖I(lǐng)域應(yīng)用場(chǎng)景都要求絕對(duì)的準(zhǔn)確率，而是存在一定的容忍范圍。因此，我們可以為用戶(hù)提供更多的動(dòng)態(tài)選擇。

除了上述工作，為加速知識(shí)圖譜與大語(yǔ)言模型的雙向融通，螞蟻集團(tuán)也和浙江大學(xué)成立了知識(shí)圖譜聯(lián)合實(shí)驗(yàn)室。聯(lián)合實(shí)驗(yàn)室已發(fā)布了大模型抽取框架 OneKE，下一步還將構(gòu)建增強(qiáng)語(yǔ)言模型的 OneGraph。

后記：在 2024Inclusion?外灘大會(huì) “超越平面思維，圖計(jì)算讓 AI 洞悉復(fù)雜世界” 見(jiàn)解論壇上，美國(guó)伊利諾伊大學(xué)芝加哥分校計(jì)算機(jī)科學(xué)與技術(shù)系特聘教授俞士綸、國(guó)際關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)委員會(huì)（LDBC）副主席 Alastair Green、中國(guó)人壽財(cái)產(chǎn)保險(xiǎn)有限公司人工智能開(kāi)發(fā)團(tuán)隊(duì)負(fù)責(zé)人孔宇飛、螞蟻數(shù)字科技 AI 技術(shù)負(fù)責(zé)人章鵬、螞蟻集團(tuán)圖計(jì)算解決方案架構(gòu)師崔安頎等嘉賓也帶來(lái)了精彩分享，更多觀(guān)點(diǎn)可點(diǎn)擊閱讀原文查看。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)