別搞 GraphRAG 了,擁抱新一代 RAG 范式 DeepSearcher 原創(chuàng)
剛在朋友圈興奮慶?!赌倪?》榮登全球IMAX票房歷史前八,喜悅之情還未平復(fù);
午后,老板便發(fā)話:“小王,你這么有見解,用 DeepSeek 做個(gè)《上古神話中龍族形象在流行文化中的變遷》分析吧,下班前交給我……”
別忘了,還得融合孫悟空和哪吒的魅力點(diǎn),借鑒《山海經(jīng)》到《哪吒》的成功策略,結(jié)合古典文學(xué)理論與現(xiàn)代精神分析,打造出我們獨(dú)有的用戶體驗(yàn)(此處省略800字)
老板的要求如同煙花般絢爛
然而,在時(shí)間轉(zhuǎn)換器從哈利波特的世界變?yōu)楝F(xiàn)實(shí)之前,我們這些打工族的辦公時(shí)間依然是有限的。
采用傳統(tǒng)的 RAG 方法應(yīng)付差事?它只能幫你解決信息檢索的問題
嘗試 GraphRAG?老板還期望能結(jié)合知識(shí)圖譜與大模型生成的新高度
不得不說,近期 Open AI 推出的 Deep Research(深度研究)功能,確實(shí)能在短時(shí)間內(nèi)滿足老板的高要求。
通過融合大模型、超級(jí)搜索與研究助手于一體的 Deep Research,
能夠幫助金融機(jī)構(gòu)快速生成報(bào)告,科研人員快速撰寫綜述。該服務(wù)一經(jīng)推出,便在全球范圍內(nèi)廣受歡迎。
但 Deep Research 的底層模型綁定在 OpenAI 上,且無法利用本地?cái)?shù)據(jù)。
這項(xiàng)工作看似閉環(huán),實(shí)則仍有缺口。
基于這一理念,向量數(shù)據(jù)庫公司 Zilliz 推出了開源項(xiàng)目 DeepSearcher,目前在Github上已獲得 3.8+ star 的關(guān)注。
DeepSearcher 不僅繼承了 Deep Research 的優(yōu)點(diǎn),用戶還可以自由選擇底層大模型,并通過Milvus接入本地?cái)?shù)據(jù),更適合企業(yè)級(jí)應(yīng)用場(chǎng)景。
體驗(yàn)鏈接:https://github.com/zilliztech/deep-searcher
本文將圍繞 DeepSearcher 的技術(shù)分析、與傳統(tǒng) RAG 的對(duì)比,以及實(shí)際操作展示三個(gè)方面,為大家?guī)砩钊虢庾x。
1、RAG 技術(shù)演進(jìn):從基礎(chǔ)到增強(qiáng)
第一、我們?yōu)楹涡枰?RAG?
RAG(檢索增強(qiáng)生成)技術(shù),通過融合實(shí)時(shí)搜索與大模型的能力,有效解決了傳統(tǒng)生成技術(shù)的以下難題:
(1) 知識(shí)更新的時(shí)效性問題
大型模型如 GPT-4 的訓(xùn)練數(shù)據(jù)有時(shí)間限制(僅更新至2023年),而 RAG 能夠?qū)崟r(shí)檢索最新文檔(如科研論文或新聞),從而動(dòng)態(tài)擴(kuò)展模型的知識(shí)庫。
(2) 事實(shí)準(zhǔn)確性的挑戰(zhàn)
純生成模型容易產(chǎn)生錯(cuò)誤信息(即“幻覺”),RAG 則先進(jìn)行相關(guān)證據(jù)文檔的檢索,確保模型基于檢索結(jié)果生成內(nèi)容,大幅降低錯(cuò)誤率。
(3) 領(lǐng)域適配的成本問題
傳統(tǒng)的微調(diào)(Fine-tuning)需要大量標(biāo)注數(shù)據(jù)和計(jì)算資源,而 RAG 只需構(gòu)建領(lǐng)域文檔庫,就能讓通用模型生成專業(yè)領(lǐng)域的內(nèi)容(如法律、醫(yī)療)。
第二、傳統(tǒng) RAG、Graph RAG、DeepSearcher 的區(qū)別解析
設(shè)想你在圖書館查找資料的情景:
傳統(tǒng) RAG - 類似于圖書館找書
就像在圖書館根據(jù)書名和簡介找書一樣,傳統(tǒng) RAG 會(huì)將文檔內(nèi)容“向量化”,為每段文字打上特征標(biāo)簽。當(dāng)你提問時(shí),它就像圖書管理員,根據(jù)標(biāo)簽快速匹配相關(guān)內(nèi)容。例如,詢問“哪吒的性格特點(diǎn)”,它會(huì)找到描述哪吒性格的段落。其優(yōu)點(diǎn)是直接明了,但可能遺漏深層次的關(guān)聯(lián)信息。
GraphRAG - 類似于查閱族譜
GraphRAG 更像是探索一個(gè)互動(dòng)式的族譜,將人物、事件、關(guān)系構(gòu)建成一張大網(wǎng)。每個(gè)人物是一個(gè)節(jié)點(diǎn),關(guān)系則是連線。詢問“哪吒和敖丙的關(guān)系”,它能通過關(guān)系網(wǎng)絡(luò)找到答案,并揭示意想不到的關(guān)聯(lián),如他們的共同朋友或敵人。
DeepSearcher - 類似于 RPG 游戲的角色面板
DeepSearcher 像是 RPG 游戲中的人物屬性面板,將信息分層組織,如主線任務(wù)和支線任務(wù)。詢問“哪吒在劇中的重要關(guān)系”,它會(huì)先展示核心關(guān)系,然后逐層深入到具體情節(jié)和細(xì)節(jié),使得信息層次清晰,易于理解。
第三、RAG 技術(shù)架構(gòu)對(duì)比
(1)傳統(tǒng) RAG 架構(gòu)
(2)GraphRAG 架構(gòu)
(3)DeepSearcher 架構(gòu)
第四、RAG 數(shù)據(jù)組織方式對(duì)比
RAG:采用扁平化的向量空間,使信息關(guān)系直觀可見。
GraphRAG:利用圖結(jié)構(gòu)存儲(chǔ),適合表示復(fù)雜且相互關(guān)聯(lián)的數(shù)據(jù)。
DeepSearcher:通過樹形層次結(jié)構(gòu)組織數(shù)據(jù),便于像瀏覽文件夾一樣高效查找信息。
第五、RAG 檢索機(jī)制對(duì)比
RAG(檢索增強(qiáng)生成):通過比較文本向量相似度來檢索相關(guān)信息。
GraphRAG:結(jié)合圖結(jié)構(gòu)的數(shù)據(jù)遍歷和路徑查詢,精確定位信息。
DeepSearcher:采用多層次并行搜索加智能過濾,從大量數(shù)據(jù)中快速準(zhǔn)確提取所需信息。
第六、RAG 結(jié)果生成對(duì)比
RAG:直接基于相關(guān)文本內(nèi)容生成答案。
GraphRAG:利用子圖中的結(jié)構(gòu)化信息生成答案。
DeepSearcher:結(jié)合多層信息,深入挖掘信息及其關(guān)系,生成全面準(zhǔn)確的答案。希望這樣的改寫能幫助大家更好地理解這些檢索機(jī)制的特點(diǎn)。
2、三種 RAG 設(shè)計(jì)模式試驗(yàn)效果
第一、經(jīng)典 RAG 實(shí)施流程
(1)搭建技術(shù)框架
(2)操作步驟
在 Dify 平臺(tái)上配置 deepseek-r1 模型。
構(gòu)建《哪吒2》的專題知識(shí)庫。
設(shè)立聊天助手,將其與知識(shí)庫和模型關(guān)聯(lián)。
進(jìn)行問答測(cè)試,以觀察實(shí)際效果。
(3)測(cè)試數(shù)據(jù)集
哪吒,一位天生的叛逆少年英雄,掌握雷電之力,隸屬于闡教。
他的父親是李靖(陳塘關(guān)總兵),母親是殷夫人。
他的導(dǎo)師是太乙真人,同為闡教門下。
敖丙,東海龍王的三太子,擁有冰雪之力,屬于龍族。
(4)測(cè)試問答示例
哪吒的父母是誰?
(5)問答效果展示
第二、GraphRAG 的實(shí)施流程
(1)技術(shù)棧準(zhǔn)備
(2)實(shí)施步驟
利用 DeepSeek 生成測(cè)試數(shù)據(jù)集。
安裝 NebulaGraph 并導(dǎo)入測(cè)試數(shù)據(jù)。
在 Dify 平臺(tái)上創(chuàng)建工作流應(yīng)用。
配置 Nebula API 調(diào)用等參數(shù)。
編排工作流節(jié)點(diǎn)。
進(jìn)行測(cè)試,驗(yàn)證問答效果。
(3)在 Nebula 中插入數(shù)據(jù)的步驟
創(chuàng)建圖空間:
CREATE SPACE IF NOT EXISTS nezha2(partition_num=1, replica_factor=1, vid_type=fixed_string(128));
(4)使用圖空間
USE nezha2;
(5)創(chuàng)建角色標(biāo)簽
CREATE TAG role (
name string, // 角色名
meteorological string, // 氣象屬性
faction string, // 所屬陣營
role_desc string, // 角色描述
voice_actor string // 配音演員
);
(6)創(chuàng)建各種關(guān)系邊
CREATE EDGE father_of (edge_time timestamp); // 父子關(guān)系
CREATE EDGE mother_of (edge_time timestamp); // 母子關(guān)系
CREATE EDGE teacher_of (edge_time timestamp); // 師徒關(guān)系
CREATE EDGE enemy_of (edge_time timestamp); // 敵對(duì)關(guān)系
CREATE EDGE friend_of (edge_time timestamp); // 朋友關(guān)系
CREATE EDGE lover_of (edge_time timestamp); // 戀人關(guān)系
CREATE EDGE brother_sister_of (edge_time timestamp); // 兄妹關(guān)系
(7)插入角色節(jié)點(diǎn)
INSERT VERTEX role (name, meteorological, faction, role_desc, voice_actor) VALUES
"哪吒": ("哪吒", "雷電", "闡教", "天生反骨的少年英雄", "呂艷婷"),
"敖丙": ("敖丙", "冰雪", "龍族", "東海三太子,哪吒的摯友", "瀚墨"),
// ... 其他角色
;
(8)插入各種關(guān)系
// 家庭關(guān)系
INSERT EDGE father_of VALUES "李靖" -> "哪吒": (NOW());
INSERT EDGE mother_of VALUES "殷夫人" -> "哪吒": (NOW());
// ... 其他關(guān)系
(9)測(cè)試效果
使用 NebulaGraph Studio 進(jìn)行測(cè)試。
測(cè)試語句示例:
// (查詢哪吒相關(guān)的所有關(guān)系)
MATCH (v1:role)-[e]->(v2:role)
RETURN e LIMIT 10;
// 多跳關(guān)系查詢
MATCH p=()-[*1..2]->()
RETURN p LIMIT 5;
第三、DeepSearcher 的實(shí)施與演示
DeepSearcher 的核心優(yōu)勢(shì)在于其分層語義理解能力(涉及文檔結(jié)構(gòu)、段落、句子、關(guān)鍵詞的多級(jí)解析),而 Dify 平臺(tái)的父子檢索功能則是對(duì)索引結(jié)構(gòu)進(jìn)行了優(yōu)化(通過將文檔拆分為父子塊來建立層級(jí)索引)。
本次演示將重點(diǎn)展示如何利用父子檢索功能來實(shí)現(xiàn) DeepSearcher 的層級(jí)索引特性。
(1)技術(shù)棧準(zhǔn)備
(2)實(shí)施步驟
準(zhǔn)備分層的知識(shí)文檔。
配置父子檢索參數(shù)。
在對(duì)話系統(tǒng)中選擇 DeepSeek-R1模型。
使用 LLM 處理檢索結(jié)果。
進(jìn)行測(cè)試,驗(yàn)證問答效果。
(3)測(cè)試數(shù)據(jù)集
# 角色基本信息
## 哪吒
- 名稱: 哪吒
- 屬性: 雷電
- 陣營: 闡教
- 描述: 天生反骨的少年英雄,擁有超凡的力量和勇氣
- 配音: 呂艷婷
- 性格特點(diǎn): 叛逆不羈,重情重義,敢于挑戰(zhàn)命運(yùn)
### 哪吒的關(guān)系網(wǎng)絡(luò)
- 父親: 李靖(陳塘關(guān)總兵,嚴(yán)厲正直)
- 母親: 殷夫人(溫柔慈愛,理解包容)
- 師父: 太乙真人(循循善誘,關(guān)愛弟子)
- 摯友: 敖丙(東海三太子,冰雪之力)
- 敵人: 申公豹(截教弟子,處處作梗)
### 哪吒的劇情發(fā)展
- 初遇敖丙: 在東海邊緣的相遇,兩個(gè)不同世界的少年
- 修行歷程: 在太乙真人門下學(xué)習(xí)法術(shù),逐漸掌握雷電之力
- 友情萌芽: 與敖丙從互不理解到成為摯友
- 身份困擾: 面對(duì)闡教弟子和凡人雙重身份的矛盾
- 成長蛻變: 在各種挑戰(zhàn)中突破自我,尋找真我
### 哪吒的能力特點(diǎn)
- 主要法術(shù): 雷電操控,混天綾,乾坤圈
- 戰(zhàn)斗風(fēng)格: 靈活多變,攻擊凌厲
- 特殊天賦: 天生具有超凡力量
- 成長軌跡: 從初學(xué)者到掌握強(qiáng)大法力
## 敖丙
- 名稱: 敖丙
- 屬性: 冰雪
- 陣營: 龍族
- 描述: 東海三太子,溫潤如玉的貴族少年
- 配音: 瀚墨
- 性格特點(diǎn): 溫和有禮,重情重義,內(nèi)心堅(jiān)韌
### 敖丙的關(guān)系網(wǎng)絡(luò)
- 父親: 敖光(東海龍王,威嚴(yán)莊重)
- 兄弟姐妹:
- 敖閏(龍女,擅長空間法術(shù))
- 敖順(二皇子,精通毒術(shù))
- 敖欽(大皇子,掌控火焰)
- 摯友: 哪吒(闡教弟子,雷電之力)
- 屬下: 結(jié)界獸(守護(hù)東海結(jié)界)
### 敖丙的劇情發(fā)展
- 身份困擾: 作為龍族繼承人的責(zé)任與壓力
- 友情抉擇: 在族群立場(chǎng)與個(gè)人情誼間的掙扎
- 能力覺醒: 冰雪之力的不斷提升與掌控
- 性格成長: 從謹(jǐn)慎拘謹(jǐn)?shù)介_朗自信
- 守護(hù)之道: 保護(hù)東海與親友的決心
### 敖丙的能力特點(diǎn)
- 主要法術(shù): 冰雪操控,水系法術(shù)
- 戰(zhàn)斗風(fēng)格: 優(yōu)雅從容,防守反擊
- 特殊天賦: 天生親和水元素
- 成長軌跡: 從單純的王子到獨(dú)當(dāng)一面
## 太乙真人
- 名稱: 太乙真人
- 屬性: 云霧
- 陣營: 闡教
- 描述: 闡教重要弟子,哪吒的師父
- 配音: 張珈銘
- 性格特點(diǎn): 智慧通達(dá),慈悲為懷
### 太乙真人的關(guān)系網(wǎng)絡(luò)
- 弟子: 哪吒(得意門生)
- 同門: 其他闡教仙人
- 對(duì)手: 申公豹(截教弟子)
### 太乙真人的劇情參與
- 收徒教導(dǎo): 發(fā)現(xiàn)哪吒天賦,悉心培養(yǎng)
- 化解危機(jī): 多次調(diào)解哪吒與各方矛盾
- 守護(hù)正道: 對(duì)抗截教勢(shì)力的滲透
# 陣營勢(shì)力分析
## 闡教
- 代表人物: 太乙真人、哪吒
- 特點(diǎn): 崇尚正統(tǒng),重視秩序
- 立場(chǎng): 維護(hù)天地秩序,抵制混亂
- 修行特色: 注重心性修養(yǎng),講究循序漸進(jìn)
### 闡教的理念
- 修行觀: 重視內(nèi)在修養(yǎng)
- 處世態(tài)度: 主動(dòng)干預(yù),匡扶正義
- 對(duì)待人間: 既重視規(guī)則,也關(guān)注個(gè)體
## 龍族
- 代表人物: 敖光、敖丙
- 特點(diǎn): 高貴優(yōu)雅,重視傳統(tǒng)
- 立場(chǎng): 守護(hù)東海,維護(hù)龍族利益
- 統(tǒng)治方式: 等級(jí)分明,講究禮制
### 龍族的傳統(tǒng)
- 治理理念: 重視血脈傳承
- 對(duì)外態(tài)度: 謹(jǐn)慎自守,避免沖突
- 內(nèi)部規(guī)則: 等級(jí)森嚴(yán),重視禮法
## 截教
- 代表人物: 申公豹
- 特點(diǎn): 包容駁雜,手段靈活
- 立場(chǎng): 追求變革,不拘一格
- 行事風(fēng)格: 靈活多變,善用權(quán)謀
### 截教的特點(diǎn)
- 修行方式: 講究實(shí)用
- 處世態(tài)度: 積極進(jìn)取,不拘形式
- 發(fā)展策略: 廣收門徒,擴(kuò)張勢(shì)力
# 重要事件與劇情發(fā)展
## 東海危機(jī)
### 事件起因
- 結(jié)界異常
- 勢(shì)力沖突
- 個(gè)人恩怨
### 事件發(fā)展
- 哪吒與敖丙的相遇
- 各方勢(shì)力的介入
- 矛盾的激化與升級(jí)
### 事件影響
- 個(gè)人成長
- 勢(shì)力變化
- 關(guān)系轉(zhuǎn)變
## 人物關(guān)系演變
### 友情的考驗(yàn)
- 立場(chǎng)差異
- 信任建立
- 共同成長
### 師徒情誼
- 教導(dǎo)方式
- 互相理解
- 成長蛻變
(4)新建知識(shí)庫并開啟父子模式
(5)測(cè)試效果
測(cè)試單層信息獲取
"哪吒的基本屬性是什么?"
測(cè)試關(guān)系信息理解
"哪吒和敖丙是什么關(guān)系?他們的性格有什么不同?"
測(cè)試跨層級(jí)推理
"闡教和龍族的矛盾體現(xiàn)在哪些方面?對(duì)哪吒和敖丙的友情有什么影響?"
3、不同 RAG 模式維度對(duì)比
4、寫在最后
第一、DeepSearcher 的創(chuàng)新理念
DeepSearcher 的領(lǐng)先之處在于它打破了傳統(tǒng)搜索的檢索與生成分離模式,深度融合了深度學(xué)習(xí)技術(shù),全面優(yōu)化了搜索流程。其主要優(yōu)勢(shì)體現(xiàn)在:
智能檢索:利用語言模型參與搜索過程,如生成潛在查詢或?qū)Y(jié)果進(jìn)行排序,從而提高搜索的相關(guān)性。例如,對(duì)于“如何挑選適合我的手機(jī)?”這樣的問題,DeepSearcher 能夠根據(jù)用戶的歷史數(shù)據(jù)生成更為精確的搜索條件。
高度適應(yīng)性:通過反饋機(jī)制(如強(qiáng)化學(xué)習(xí))對(duì)搜索進(jìn)行優(yōu)化,根據(jù)用戶行為持續(xù)調(diào)整。若用戶對(duì)搜索結(jié)果不滿,系統(tǒng)將學(xué)習(xí)并改進(jìn)搜索策略。多模態(tài)兼容性:支持文本、圖像、視頻等多元化數(shù)據(jù)類型,滿足現(xiàn)代應(yīng)用的多樣化需求,例如搜索“紅色跑車的圖片及相關(guān)新聞”。
個(gè)性化搜索:深度學(xué)習(xí)模型能夠根據(jù)用戶的個(gè)人喜好定制搜索結(jié)果,相較于 RAG 和 GraphRAG 的固定檢索方式更加靈活。值得注意的是,DeepSearcher 的搜索過程更接近人類思維,能夠理解上下文和用戶意圖,但這同時(shí)也帶來了效率和可解釋性方面的挑戰(zhàn)。
第二、實(shí)施 DeepSearcher 需要克服的挑戰(zhàn)
集成難度:要將語言模型與搜索索引緊密融合,需要構(gòu)建高效的系統(tǒng)架構(gòu)。例如,如何在保持性能的同時(shí),有效地將語言模型融入檢索過程?
實(shí)時(shí)數(shù)據(jù)更新:在處理實(shí)時(shí)數(shù)據(jù)更新(如股市動(dòng)態(tài))時(shí),確保模型能夠及時(shí)適應(yīng),技術(shù)實(shí)現(xiàn)上存在一定難度。系統(tǒng)復(fù)雜性:DeepSearcher 可能包含多個(gè)組件(如檢索、生成、學(xué)習(xí)模塊),這增加了系統(tǒng)的維護(hù)和故障排查難度。
RAG 和 GraphRAG 作為成熟的搜索范式,分別適用于文檔檢索和關(guān)系查詢,而 DeepSearcher 則代表了搜索技術(shù)的未來趨勢(shì),通過深度學(xué)習(xí)提升搜索效率,滿足復(fù)雜和個(gè)性化的搜索需求。盡管其潛力巨大,但如何提高效率、確保可解釋性以及滿足數(shù)據(jù)需求仍是待解的問題。在實(shí)現(xiàn)過程中,需要特別關(guān)注集成的復(fù)雜性和實(shí)時(shí)性,以確保系統(tǒng)在實(shí)際應(yīng)用中的穩(wěn)定表現(xiàn)。
本文轉(zhuǎn)載自公眾號(hào)玄姐聊AGI 作者:玄姐
原文鏈接:??https://mp.weixin.qq.com/s/ZUgx9ySEez3JjIURTFOh0A??
