DeepSeek R1 搭建個(gè)人 AI 知識(shí)庫(kù)
前言
上一篇文章寫(xiě)到了部署本地DeepSeek,基于這篇文章,繼續(xù)講一下如何搭建自己的知識(shí)庫(kù)??赡芎芏嗳藭?huì)有疑問(wèn),本地部署有什么優(yōu)勢(shì)呢。其實(shí)如果不是有特別的技術(shù)研究和比較私密的數(shù)據(jù),可以不用搭建。但優(yōu)勢(shì)肯定是更多的,特別是當(dāng)你需要高效管理、查詢和利用特定領(lǐng)域的知識(shí)時(shí):
1. 精準(zhǔn)匹配,提升問(wèn)答質(zhì)量
- 定制化內(nèi)容:可以存儲(chǔ)企業(yè)內(nèi)部文檔、技術(shù)手冊(cè)、學(xué)習(xí)資料等,確保 AI 只回答與你業(yè)務(wù)或需求相關(guān)的問(wèn)題。
- 減少錯(cuò)誤信息:避免 AI 從互聯(lián)網(wǎng)上獲取不可靠的信息,確?;卮鸹谀闾峁┑闹R(shí)。
2. 提高查詢效率,減少重復(fù)搜索
- 快速獲取知識(shí):通過(guò) AI 直接提取知識(shí)庫(kù)內(nèi)容,不需要手動(dòng)翻閱大量資料。
- 跨文檔搜索:可以搜索多個(gè)文檔,找到相關(guān)信息,而不是靠關(guān)鍵詞匹配。
3. 保護(hù)隱私和數(shù)據(jù)安全
- 本地部署,數(shù)據(jù)不外泄:如果使用本地 LLM(如 DeepSeek + Ollama),所有數(shù)據(jù)都在自己服務(wù)器,不會(huì)泄露給第三方。
- 權(quán)限管理:可以設(shè)定不同級(jí)別的訪問(wèn)權(quán)限,確保只有授權(quán)用戶可以查詢特定信息。
4. 適應(yīng)不同場(chǎng)景,提高工作效率
- 企業(yè)知識(shí)管理:幫助公司存儲(chǔ)和管理規(guī)章制度、技術(shù)文檔、培訓(xùn)資料,提升員工工作效率。
- 技術(shù)支持/客服:搭建 FAQ 知識(shí)庫(kù),自動(dòng)回答用戶常見(jiàn)問(wèn)題,減少人工客服壓力。
- 個(gè)人學(xué)習(xí)與研究:整理筆記、論文、學(xué)習(xí)資料,隨時(shí)用 AI 進(jìn)行問(wèn)答和總結(jié)。
5. 支持 AI 訓(xùn)練與優(yōu)化
- 微調(diào) AI 模型:基于你自己的知識(shí)庫(kù)進(jìn)行訓(xùn)練,使 AI 回答更符合你的領(lǐng)域需求。
- 持續(xù)更新,知識(shí)不斷完善:可以動(dòng)態(tài)添加、更新內(nèi)容,確保 AI 始終使用最新的知識(shí)。
搭建 DeepSeeK R1 知識(shí)庫(kù)步驟
這個(gè)過(guò)程大概分為6步,下載之前的文章寫(xiě)過(guò),就不會(huì)詳細(xì)再介紹了。
第一步:注冊(cè)賬號(hào)
先注冊(cè)一個(gè)硅基流動(dòng)的賬號(hào),你有賬號(hào)就不用注冊(cè)了,注冊(cè)這里不教了。官網(wǎng)地址:https://cloud.siliconflow.cn/進(jìn)去之后呢就是下面的界面:
第二步:創(chuàng)建秘鑰
注冊(cè)成功后點(diǎn)擊 API 密鑰,新建 API 密鑰,這里填的話,隨便填都是可以的不影響。創(chuàng)建之后點(diǎn)擊復(fù)制密鑰。
第三步:下載Cherry Studio
官網(wǎng)(https://cherry-ai.com/) 客戶端,之前也介紹了這個(gè)。這個(gè)數(shù)據(jù)是在本地存儲(chǔ)的,所以無(wú)需擔(dān)心數(shù)據(jù)安全的問(wèn)題。
第四步:設(shè)置秘鑰
下載好之后,就可以設(shè)置秘鑰了,點(diǎn)擊設(shè)置,然后將剛剛復(fù)制的 API 密鑰粘貼上去。
第五步:給知識(shí)庫(kù)添加模型
在知識(shí)庫(kù)填充內(nèi)容:
在這里插入圖片描述
第六步:選擇自己的知識(shí)庫(kù)
在問(wèn)答中引入知識(shí)庫(kù):
在這里插入圖片描述
然后問(wèn)的問(wèn)題回答的內(nèi)容就是根據(jù)知識(shí)庫(kù)來(lái)的。
在這里插入圖片描述
就這些步驟了,是不是也很簡(jiǎn)單。
上傳知識(shí)庫(kù)的文件類型
這個(gè)是DeepSeek的回答,可供參考。這么多類型我也沒(méi)一一試過(guò),感興趣可以試一下。
1.文本文件
- 文件類型:.txt、.md(Markdown)。
- 用途:用于存儲(chǔ)純文本內(nèi)容,適合簡(jiǎn)單的知識(shí)庫(kù)數(shù)據(jù)。
- 示例:
ounter(lineounter(line
什么是人工智能?
人工智能是模擬人類智能的技術(shù)。
2.表格文件
- 文件類型:.csv、.xlsx(Excel)。
- 用途:適合結(jié)構(gòu)化數(shù)據(jù),例如問(wèn)答對(duì)、術(shù)語(yǔ)表等。
- 示例(CSV 格式):
ounter(lineounter(lineounter(line
question,answer
什么是人工智能?,人工智能是模擬人類智能的技術(shù)。
DeepSeek 是什么?,DeepSeek 是一個(gè)基于深度學(xué)習(xí)的 AI 平臺(tái)。
3.JSON 文件
- 文件類型:.json。
- 用途:適合存儲(chǔ)結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),例如嵌套的問(wèn)答對(duì)、知識(shí)圖譜等。
- 示例:
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
[
{
"id": 1,
"question": "什么是人工智能?",
"answer": "人工智能是模擬人類智能的技術(shù)。"
},
{
"id": 2,
"question": "DeepSeek 是什么?",
"answer": "DeepSeek 是一個(gè)基于深度學(xué)習(xí)的 AI 平臺(tái)。"
}
]
1)數(shù)據(jù)庫(kù)導(dǎo)出文件
- 文件類型:.sql、.db(SQLite)。
- 用途:適合從現(xiàn)有數(shù)據(jù)庫(kù)中導(dǎo)出的數(shù)據(jù),可以直接導(dǎo)入到知識(shí)庫(kù)中。
2)文檔文件
- 文件類型:.pdf、.docx(Word)、.pptx(PowerPoint)。
- 用途:適合上傳包含豐富格式的文檔,例如技術(shù)手冊(cè)、研究報(bào)告等。
- 注意:需要平臺(tái)支持文檔解析功能,提取文本內(nèi)容。
3)知識(shí)圖譜文件
- 文件類型:.rdf、.ttl(Turtle)、.owl。
- 用途:適合存儲(chǔ)復(fù)雜的知識(shí)圖譜數(shù)據(jù),支持語(yǔ)義檢索。
4)壓縮文件
- 文件類型:.zip、.tar.gz。
- 用途:用于批量上傳多個(gè)文件,方便一次性導(dǎo)入大量數(shù)據(jù)。
8. 圖像文件
- 文件類型:.jpg、.png。
- 用途:適合上傳包含文本的圖像(如掃描件),需要 OCR 功能提取文本。