自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

2025防失業(yè)預(yù)警:不會用DeepSeek-RAG建知識庫的人正在被淘汰

人工智能
本文分享如何基于AnythingLLM構(gòu)建DeepSeek-RAG本地知識庫,并幫助傳統(tǒng)企業(yè)從中受益。掌握這種技術(shù),將不僅僅是提升工作效率,更是走在未來職場前沿的關(guān)鍵。

1. 前言

前幾天,老板和我們開了個(gè)會,提到一個(gè)讓人深思的事情:越來越多的客戶開始詢問,能不能把DeepSeek接入他們的系統(tǒng),幫助他們管理數(shù)據(jù)、合同和一些文件。那一刻,我突然意識到,AI技術(shù)已經(jīng)不僅僅是個(gè)高大上的話題,它正在切實(shí)改變著我們工作和生活的方式。

客戶的需求很簡單,但背后卻透露著一個(gè)深刻的問題——他們希望通過AI來提高效率、減少錯(cuò)誤。對于很多傳統(tǒng)企業(yè)來說,信息的混亂和管理的漏洞已經(jīng)成為不可忽視的痛點(diǎn)。想象一下,如果這些企業(yè)能夠通過DeepSeek-RAG技術(shù),構(gòu)建一個(gè)強(qiáng)大的知識庫來幫助他們自動化處理這些信息,那么工作效率和決策質(zhì)量將會有多大提升。

我開始意識到,知識庫的構(gòu)建正在成為未來競爭力的一部分。尤其是在AI幻覺頻發(fā)的今天,單純依賴模型生成的內(nèi)容是有風(fēng)險(xiǎn)的,而通過精準(zhǔn)的知識庫來輔助AI工作,能夠有效避免錯(cuò)誤的發(fā)生。也正是因此,我決定寫這篇文章,分享如何基于AnythingLLM構(gòu)建DeepSeek-RAG本地知識庫,并幫助傳統(tǒng)企業(yè)從中受益。掌握這種技術(shù),將不僅僅是提升工作效率,更是走在未來職場前沿的關(guān)鍵。

2. 本地知識庫與檢索增強(qiáng)生成(RAG)技術(shù)前置知識

2.1. 什么是AI幻覺

隨著人工智能技術(shù)的飛速發(fā)展,越來越多的企業(yè)和個(gè)人將AI作為決策支持的核心工具。然而,這種過度依賴和迷信AI的現(xiàn)象,實(shí)際上可能帶來一些嚴(yán)重的問題——那就是AI幻覺。簡單來說,AI幻覺指的是人工智能在生成內(nèi)容時(shí),出現(xiàn)了與事實(shí)不符、邏輯斷裂或脫離上下文的情況。AI模型雖然能生成看似可信的答案,但其背后的推理和依據(jù)可能是錯(cuò)誤的。

這一問題不僅僅存在于專業(yè)領(lǐng)域,許多人在日常生活中也會因過度信任AI而無意間陷入幻覺中。

圖片

AI幻覺主要有兩種形式:事實(shí)性幻覺忠實(shí)性幻覺。事實(shí)性幻覺是指AI生成的內(nèi)容與實(shí)際世界的事實(shí)不一致,例如錯(cuò)誤的歷史事件或科學(xué)數(shù)據(jù);而忠實(shí)性幻覺則指的是AI的回答雖然在事實(shí)上沒有錯(cuò),但與用戶的真實(shí)意圖或問題的上下文不符。

圖片

那么,為什么AI會產(chǎn)生幻覺呢?首先,AI模型依賴于訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)可能存在偏差或錯(cuò)誤,導(dǎo)致AI在生成內(nèi)容時(shí)不符合實(shí)際情況。其次,當(dāng)AI遇到未知的復(fù)雜情境時(shí),它可能會出現(xiàn)泛化問題,無法有效處理超出訓(xùn)練數(shù)據(jù)范圍的內(nèi)容。再者,由于大多數(shù)AI模型缺乏自我更新和實(shí)時(shí)學(xué)習(xí)的能力,它們會在面對新信息時(shí)產(chǎn)生過時(shí)的回答。

隨著AI技術(shù)的普及,越來越多的人和企業(yè)開始盲目依賴AI做出決策,而忽視了AI潛在的幻覺問題。這種過度迷信AI的行為,不僅會導(dǎo)致錯(cuò)誤的判斷,還可能在不知不覺中影響我們的生活和工作。認(rèn)識到AI幻覺的存在,并采取措施應(yīng)對,將是我們在AI時(shí)代避免被誤導(dǎo)的關(guān)鍵。

2.2. 防止AI幻覺的措施

為了降低生成式人工智能中的幻覺風(fēng)險(xiǎn),可以采取以下措施:

1. 模型微調(diào)

  • 優(yōu)點(diǎn):

  a.定制化效果明顯:針對特定領(lǐng)域或任務(wù)進(jìn)行優(yōu)化,使模型更符合專業(yè)需求,生成內(nèi)容更精準(zhǔn)。

  b.知識更新:通過微調(diào)引入最新數(shù)據(jù),彌補(bǔ)預(yù)訓(xùn)練數(shù)據(jù)的滯后性。

  c.減少偏差:有助于降低模型在非目標(biāo)領(lǐng)域生成不相關(guān)或錯(cuò)誤內(nèi)容的概率。

  • 缺點(diǎn):

  a.成本高昂:微調(diào)需要大量高質(zhì)量數(shù)據(jù)和計(jì)算資源,投入成本較高。

  b.過擬合風(fēng)險(xiǎn):針對特定領(lǐng)域過度優(yōu)化可能導(dǎo)致模型在其他場景下表現(xiàn)不佳。

  c.數(shù)據(jù)隱私問題:敏感領(lǐng)域數(shù)據(jù)的使用可能引發(fā)隱私和安全風(fēng)險(xiǎn),需要嚴(yán)格的數(shù)據(jù)治理。

2. 構(gòu)建本地知識庫與檢索增強(qiáng)生成(RAG)技術(shù)

  • 優(yōu)點(diǎn):

  a.權(quán)威性保障:利用權(quán)威數(shù)據(jù)源構(gòu)建知識庫,可為生成內(nèi)容提供可靠支撐。

  b.動態(tài)更新:RAG技術(shù)允許模型在生成回答前檢索最新數(shù)據(jù),改善知識時(shí)效性。

  c.降低幻覺風(fēng)險(xiǎn):通過引用準(zhǔn)確信息,減少模型憑空生成不實(shí)內(nèi)容的可能。

  • 缺點(diǎn):

  a.構(gòu)建與維護(hù)成本:高質(zhì)量知識庫的建立和更新需要投入大量人力和技術(shù)資源。

  b.技術(shù)整合挑戰(zhàn):如何無縫將知識庫檢索結(jié)果與生成模型結(jié)合,依然存在一定技術(shù)難度。

  c.數(shù)據(jù)一致性問題:知識庫數(shù)據(jù)更新不及時(shí)或數(shù)據(jù)來源不一致可能影響回答的準(zhǔn)確性。

3. 限制模型響應(yīng)范圍

  • 優(yōu)點(diǎn):

  a.風(fēng)險(xiǎn)控制:通過設(shè)定概率閾值和規(guī)則,能有效過濾不相關(guān)或錯(cuò)誤信息,降低幻覺風(fēng)險(xiǎn)。

  b.輸出一致性:確保模型在規(guī)定范圍內(nèi)生成符合預(yù)期的內(nèi)容,提升回答質(zhì)量。

  • 缺點(diǎn):

  a.創(chuàng)新性受限:過于嚴(yán)格的限制可能削弱模型的創(chuàng)造性和靈活性,影響輸出多樣性。

  b.參數(shù)調(diào)優(yōu)復(fù)雜:需要精細(xì)調(diào)整參數(shù)以達(dá)到平衡,過度限制可能使回答顯得模板化或過于簡單。

4. 持續(xù)測試與優(yōu)化

  • 優(yōu)點(diǎn):

  a.實(shí)時(shí)問題發(fā)現(xiàn):定期評估和測試能及時(shí)捕捉模型在實(shí)際應(yīng)用中的缺陷和幻覺風(fēng)險(xiǎn)。

  b.系統(tǒng)穩(wěn)定性提升:不斷優(yōu)化迭代有助于模型適應(yīng)變化的數(shù)據(jù)環(huán)境和需求,保持長期穩(wěn)定性。

  • 缺點(diǎn):

  a.資源投入大:持續(xù)監(jiān)控和優(yōu)化需要投入大量人力和時(shí)間資源。

  b.測試覆蓋局限:如果測試場景不夠全面,可能仍有部分風(fēng)險(xiǎn)未被及時(shí)發(fā)現(xiàn)。

綜上所述,為了有效降低AI幻覺風(fēng)險(xiǎn),通常需要將多種措施結(jié)合使用。在實(shí)際應(yīng)用中,構(gòu)建本地知識庫與檢索增強(qiáng)生成(RAG)技術(shù)是一種有效的方案。

2.3. 什么是Embedding

Embedding是將文本轉(zhuǎn)化為固定維度數(shù)值向量的技術(shù),這些向量能夠幫助AI模型理解和處理文本數(shù)據(jù)。通過Embedding,AI能夠計(jì)算文本之間的語義相似度,從而提升搜索、問答等任務(wù)的準(zhǔn)確性。在構(gòu)建知識庫時(shí),Embedding技術(shù)可以將文件和數(shù)據(jù)轉(zhuǎn)化為向量,使得知識庫能夠更智能地匹配和檢索相關(guān)信息。常見的Embedding方法包括Word2Vec、GloVeBERT等,這些方法在實(shí)際應(yīng)用中可以幫助改善語義理解和信息處理的效率(Embedding我會在后續(xù)文章細(xì)講,本文里只是讓大家有個(gè)了解,感興趣的朋友可以點(diǎn)點(diǎn)關(guān)注,后續(xù)會更新相關(guān)內(nèi)容)。

3. 基于 AnythingLLM構(gòu)建DeepSeek-RAG本地知識庫

3.1. 安裝AnythingLLM前置準(zhǔn)備

3.1.1 什么是Ollama

Ollama 是一個(gè)讓用戶可以在本地計(jì)算機(jī)上運(yùn)行 AI 語言模型的工具,省去了連接云端和復(fù)雜配置的麻煩。它的優(yōu)點(diǎn)包括:

  • 簡單易用:安裝 Ollama 后,可以輕松在本地運(yùn)行 AI 模型,無需額外的配置。
  • 離線使用:即使沒有互聯(lián)網(wǎng)連接,也能使用 AI,確保了數(shù)據(jù)隱私的安全性。
  • 兼容多種操作系統(tǒng):支持 Windows、Mac 和 Linux 系統(tǒng)。
  • 支持多種 AI 模型:可以下載并運(yùn)行多種不同的 AI 語言模型,如通義千問、騰訊混元、DeepSeek 等等。
  • 適用于開發(fā)者和普通用戶:開發(fā)者可以利用它進(jìn)行模型訓(xùn)練或微調(diào),而普通用戶也可以用它來聊天、寫作、翻譯等。

3.1.2. Ollama 安裝及配置

3.1.2.1. 下載Ollama

訪問官網(wǎng):Ollama.com,頁面應(yīng)顯示一個(gè)羊駝??,如果不是,說明你進(jìn)入了錯(cuò)誤的頁面。然后,點(diǎn)擊頁面下方的【下載】按鈕。

圖片

選擇適配你系統(tǒng)的版本,進(jìn)行下載:

圖片

點(diǎn)擊【Install】進(jìn)行安裝。

圖片

3.1.2.2. 配置Ollama環(huán)境變量

有一個(gè)點(diǎn)要注意一下,Ollama 下載模型的默認(rèn)位置是在 C 盤,在下載模型之前,我們需要更改磁盤位置,步驟如下:

在【我的電腦】處點(diǎn)擊鼠標(biāo)右鍵彈出菜單,選擇【屬性】,進(jìn)入設(shè)置界面后選擇【高級系統(tǒng)設(shè)置】:

圖片

在彈出的系統(tǒng)屬性彈窗中點(diǎn)擊【環(huán)境變量】:

圖片

在【系統(tǒng)變量】區(qū)域點(diǎn)擊【新建】按鈕,在變量名處輸入OLLAMA_MODELS,點(diǎn)擊【瀏覽目錄】,選擇模型存放位置:

圖片

設(shè)置完成以后記得保存環(huán)境變量配置(很重要)。

需要注意的是剛剛我們下載的Ollama 程序也是放在C盤的,C盤空間容易爆滿,這里我們還需要再操作異步,把Ollama 全部文件夾遷移到一個(gè)空間大一些的盤(我選的F盤),如果你C盤空間很多,可以直接跳到下一節(jié)。

在F盤新建Ollama文件夾,新建exe、logs、models三個(gè)文件夾:

圖片

然后去默認(rèn)安裝文件夾把里面的內(nèi)容都復(fù)制到剛剛創(chuàng)建的文件夾里面,默認(rèn)安裝文件夾如下:

C:\Users\用戶名\.ollama ------------------------存放大模型

C:\Users\用戶名\AppData\Local\Ollama------------------------存放日志

C:\Users\用戶名\AppData\Local\Programs\Ollama------------------------存Ollama程序

將文件夾里面的內(nèi)容搬走,刪掉 C 盤他們原來的文件夾,打開命令提示符,輸入:

mklink /D  C:\users\用戶名.ollama F:\Ollama\models

mklink /D  C:\users\用戶名\AppData\Local\Ollama F:\Ollama\logs

mklink /D  C:\users\用戶名\AppData\Local\Programs\Ollama F:\Ollama\exe

上述命令旨在通過創(chuàng)建軟鏈接,將原本需要位于 C 盤的文件夾重定向到 F 盤,以滿足某些腳本必須在 C 盤運(yùn)行的要求,同時(shí)避免占用 C 盤空間。具體操作如下:

  1. 將 C:\users\用戶名.ollama 重定向到 F:\Ollama\models。
  2. 將 C:\users\用戶名\AppData\Local\Ollama 重定向到 F:\Ollama\logs。
  3. 將 C:\users\用戶名\AppData\Local\Programs\Ollama 重定向到 F:\Ollama\exe。

通過這些操作,用戶可以在 F 盤上訪問 Ollama 相關(guān)的文件和程序,同時(shí)滿足腳本對 C 盤路徑的要求。

如果提示沒有權(quán)限,就以管理員的身份運(yùn)行:

圖片

操作完成以后回到原始放置Ollama文件的C盤對應(yīng)目錄看一下,變成下圖這樣,軟連接就創(chuàng)建好了:

圖片

最后一步,檢查Ollama是否安裝成功,命令提示符窗口輸入ollama -v,如下圖所示就是安裝成功了:

圖片

3.1.2.3. 下載模型

下載大模型打開 Ollama 官網(wǎng) https://ollama.com/ ,點(diǎn)擊的【Models】,選擇合適你的模型進(jìn)行下載(我選擇的是1.5b),如果你不知道你的電腦可以下載什么規(guī)格的模型可以去看一下我這篇文章的第三章:DeepSpeek服務(wù)器繁忙?這幾種替代方案幫你流暢使用?。ǜ奖镜夭渴鸾坛蹋?/span>

圖片

將模型拉取命令復(fù)制到命令提示符窗口中,按回車鍵,出現(xiàn)Send a meesage即為下載成功:

圖片

到這一步我們就能直接使用了:

圖片

Send a meesage處輸入/?就可以獲得操作幫助:

圖片

輸入/bye可以退出:

圖片

如果想重新對話,還是輸入ollama run deepseek-r1:1.5b

圖片

3.2. AnythingLLM安裝及配置

在知識庫的構(gòu)建中,我們采用AnythingLLM來作為知識庫的UI,你也可以選擇其他UI工具,比如 Dify,Fastchat, AnythingLLM 相對來說 0 代碼基礎(chǔ)的小伙伴就可以操作了,所以這里我們先以 AnythingLLM 為例。網(wǎng)址:https://anythingllm.com/ ,打開鏈接后界面如下:

圖片

點(diǎn)擊【Download for desktop】選擇合適的版本:

圖片

安裝步驟就略過了,都是傻瓜式的,但是有一點(diǎn)需要注意,不要把軟件裝在C盤,選一個(gè)空間足夠的盤:

圖片

下載好后,點(diǎn)擊運(yùn)行,軟件的界面如下,點(diǎn)擊【開始】

圖片

選擇【Ollama】后自動加載我們已經(jīng)下載好的大模型,選擇合適的模型后點(diǎn)擊下一步按鈕,之后都是點(diǎn)擊下一步按鈕:

圖片

輸入工作區(qū)名稱:

圖片

點(diǎn)擊【小肥腸科技公司合同管理】,進(jìn)入默認(rèn)對話界面,這個(gè)界面就是我剛剛在本地部署的的大模型DeepSpeek-r1:1.5b,可以直接和它對話(因?yàn)槲业哪P鸵?guī)格只有1.5b,所以它的回答有點(diǎn)可笑,顯存高的讀者盡量選擇規(guī)格高的模型):

圖片

接下來就是拉取向量化模型,這里我拉取的是Nomic-Embed-Text 模型(他有很強(qiáng)的長上下文處理能力),打開命令提示符窗口,輸入ollama pull nomic-embed-text:

圖片

點(diǎn)擊設(shè)置按鈕:

圖片

設(shè)置Embedding模型:

圖片

確保你的LLM 首選項(xiàng)Ollama:

圖片

現(xiàn)在一切基礎(chǔ)工作準(zhǔn)備就緒,接下來就是投喂資料了,我造假了一個(gè)喵喵星球租房的資料:

租房合同

甲方(出租方):豆豆
乙方(承租方):小肥腸科技有限公司

根據(jù)喵喵共和國相關(guān)規(guī)定,甲乙雙方就租賃房屋事宜達(dá)成如下協(xié)議:

一、房屋基本情況
房屋位置:喵喵共和國,貓爪街14號
房屋面積:150平方米
房屋類型:高層公寓

二、租賃期限
租期自2025年1月1日起至2025年12月30日止,期滿后可續(xù)租。

三、租金及支付方式
租金為小魚干30個(gè)/月,乙方應(yīng)于每月1日前支付。
押金:小魚干100個(gè),租期結(jié)束后無損壞可退還。

四、甲方責(zé)任
確保房屋符合安全標(biāo)準(zhǔn),負(fù)責(zé)主要結(jié)構(gòu)及設(shè)施維修。

五、乙方責(zé)任
按時(shí)支付租金,妥善使用房屋設(shè)施,如有損壞負(fù)責(zé)修理。

六、提前解除合同
需提前30個(gè)喵喵日通知對方,違約方需支付租金50%的違約金。

七、爭議解決
雙方可協(xié)商解決爭議,若協(xié)商不成,可向貓咪法院提起訴訟。

八、合同生效
本合同一式兩份,簽字蓋章后生效。

甲方(簽字):豆豆
乙方(簽字):小肥腸科技有限公司
簽訂日期:2025年1月1日

上傳資料,點(diǎn)擊上傳按鈕,彈出上傳資料的界面:

圖片

點(diǎn)擊【Click to upload or drag and drop】上傳資料(也可以直接拖拽進(jìn)去):

圖片

上傳完成后點(diǎn)擊【Move to Workspace】:

圖片

點(diǎn)擊【Save and Embed】:

圖片

3.3. 效果測試

圖片

到此DeepSeek-RAG本地知識庫的構(gòu)建內(nèi)容完結(jié),需要注意的是本地部署很吃電腦配置,盡量選配置高一點(diǎn)的電腦,如果電腦配置實(shí)在不給力也可以選擇聯(lián)網(wǎng)版本的RAG(后續(xù)更新的智能體文章會講)。

4. 資料獲取

如果你對DeepSpeek的相關(guān)知識還不熟悉,可以關(guān)注公眾號后端小肥腸,點(diǎn)擊底部【資源】菜單獲取DeepSpeek相關(guān)教程。

5. 結(jié)語

隨著人工智能的不斷發(fā)展,AI已經(jīng)不僅僅是一個(gè)技術(shù)工具,它正在深入改變我們的工作和生活方式。在信息處理、數(shù)據(jù)管理等領(lǐng)域,AI的應(yīng)用已經(jīng)成為提升效率、減少錯(cuò)誤的關(guān)鍵。DeepSeek-RAG本地知識庫的構(gòu)建,是確保AI高效、可靠運(yùn)作的核心所在。掌握這些技術(shù),不僅能讓你走在技術(shù)前沿,更能幫助你在未來的職場競爭中占據(jù)先機(jī)。如果本文對你有幫助,請給小肥腸點(diǎn)點(diǎn)關(guān)注,小肥腸將持續(xù)更新更多AI領(lǐng)域干貨內(nèi)容,你的關(guān)注是小肥腸最大更新動力哦~

責(zé)任編輯:龐桂玉 來源: 后端小肥腸
相關(guān)推薦

2025-02-14 00:00:35

2021-03-16 15:12:57

CompletableFuture機(jī)制java

2024-08-12 12:25:25

SpringMVC開發(fā)

2020-09-01 14:17:03

WindowsDefender微軟

2024-09-09 08:36:36

Java操作遠(yuǎn)程服務(wù)器

2020-05-14 08:59:28

API網(wǎng)關(guān)性能

2025-02-12 12:12:59

2022-02-22 08:25:51

typeScript泛型概念泛型使用

2020-12-18 09:45:33

DockerLinux命令

2025-03-04 09:26:37

2020-09-27 06:50:56

Java互聯(lián)網(wǎng)注解

2020-11-09 09:03:35

高并發(fā)多線程ThreadLocal

2012-05-02 15:38:49

金山快盤網(wǎng)盤

2023-07-03 08:01:38

AI模型AIGC

2025-02-11 12:15:57

2025-04-01 07:30:00

2019-11-28 16:48:00

華為Mate X

2022-08-12 15:58:34

Docker

2018-09-13 10:40:40

Linux命令find

2020-10-21 10:02:16

架構(gòu)運(yùn)維技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號