DeepSeek開(kāi)源模型重塑法證審計(jì),個(gè)人本地做RAG+微調(diào),25年多試試
全球82億人口,網(wǎng)民55.6億,而ChatGPT坐擁3.5億全球月活,滲透率算下來(lái)也有6%左右了。但這還是DeepSeek-R1開(kāi)源之前的故事。1/20 開(kāi)源以來(lái),DeepSeek-R1屬實(shí)又硬拉高了一大波全球 AI的滲透率,或者換句話(huà)說(shuō),是解鎖了更多的應(yīng)用場(chǎng)景。
其實(shí),本來(lái)就有個(gè)爛大街的共識(shí)是,截止 24 年年底大模型的tokens成本已經(jīng)足夠低、基座模型的智能程度也已經(jīng)足夠高,25年是可預(yù)見(jiàn)的AI Agent爆發(fā)的一年。也就是預(yù)計(jì)會(huì)在更個(gè)細(xì)分領(lǐng)域和細(xì)分場(chǎng)景上,涌現(xiàn)一批一大堆專(zhuān)注于特定任務(wù)的智能體?,F(xiàn)在看起來(lái),這個(gè)共識(shí)似乎已經(jīng)開(kāi)始變成常識(shí)了。
Anyway,這篇來(lái)給各位介紹一個(gè)基于DeepSeek本地部署模型(或商用 API)的自動(dòng)化法證郵件分析系統(tǒng)。源碼已在Github 開(kāi)源,項(xiàng)目地址是:https://github.com/weiwill88/Email_audit, 歡迎大家試用后交流。
1、開(kāi)發(fā)背景
開(kāi)發(fā)的起點(diǎn)是,一個(gè)小紅書(shū)上的盆友來(lái)咨詢(xún)說(shuō),自己做法證審計(jì)經(jīng)常需要查閱嫌疑人的工作郵箱,但是目前主要是人工根據(jù)經(jīng)驗(yàn)設(shè)計(jì)關(guān)鍵詞去做郵件過(guò)篩,然后再人肉的看完過(guò)去兩年左右的郵件。當(dāng)然,還需要根據(jù)蛛絲馬跡來(lái)梳理線(xiàn)索,so 問(wèn)了下是否能用DeepSeek自動(dòng)完成這個(gè)過(guò)程。我當(dāng)時(shí)直接回復(fù)說(shuō),這個(gè)沒(méi)有 deepseek也能干,后來(lái)在實(shí)際做的過(guò)程中又想了下,可能也不是。
一年期用 Claude 3 或者 GPT 4o確實(shí)能力上沒(méi)問(wèn)題,但問(wèn)題是 API 貴啊。那當(dāng)時(shí)能否部署開(kāi)源模型到本地呢,既不要錢(qián)還保證信息安全,也不是不行,只是普通電腦如果只有集成顯卡,基本也就跑個(gè)7b,這個(gè)尺寸下原有的開(kāi)源模型比較拉胯,效果很差,那還不如不用。
現(xiàn)在的變化是,DeepSeek-R1蒸餾過(guò)的幾個(gè)小尺寸模型也已五臟俱全,湊活下也能用。至少針對(duì)核心敏感數(shù)據(jù)的本地處理可以應(yīng)付下,大批量的脫敏數(shù)據(jù)條件允許下,也可以考慮使用商用API 來(lái)加快下速度。另外用 DeepSeek 的GRPO 方法也可以選擇對(duì)本地部署的小尺寸模型進(jìn)一步進(jìn)行微調(diào),可以使用 Unsloth工具,7G顯存就能微調(diào)小尺寸模型。用自己的數(shù)據(jù)打造專(zhuān)屬模型,本也是本地部署的終極意義。
言歸正傳,Unsloth 微調(diào)的教程和案例后續(xù)再發(fā)文,接下來(lái)先介紹下這個(gè)項(xiàng)目本身。
2、項(xiàng)目定位
本系統(tǒng)旨在利用大語(yǔ)言模型實(shí)現(xiàn)對(duì)被分析對(duì)象 outlook 郵箱中海量郵件的自動(dòng)化分析和快速摘要,幫助法證審計(jì)人員迅速捕捉郵件中的蛛絲馬跡,降低人工篩查工作量。特別針對(duì)長(zhǎng)期郵件(如員工兩年內(nèi)的全部郵件)進(jìn)行重點(diǎn)優(yōu)化,實(shí)現(xiàn)自動(dòng)摘要、疑點(diǎn)提示及重點(diǎn)預(yù)警功能。
3、郵件模擬
本來(lái)是拿自己的 outlook 郵箱來(lái)做的樣例去試代碼邏輯,但發(fā)現(xiàn)我只有充斥著廣告的收件箱,發(fā)件箱幾乎為空,完全不具備代表性。于是,就用 DeepSeek-r1 按照法證審計(jì)中的一些風(fēng)險(xiǎn)要點(diǎn),去模擬了一個(gè)案例,然后再用 Deepseek-V3 生成了具體的模擬郵件內(nèi)容(100 封)。
看完這個(gè)模擬郵件的設(shè)計(jì)文檔和生成郵件結(jié)果,我忽然也發(fā)現(xiàn),我其實(shí)很多項(xiàng)目的數(shù)據(jù)樣例都可以讓 DeepSeek-r1 來(lái)生成,這樣或許測(cè)試數(shù)據(jù)還具備代表性。
4、快速開(kāi)始
4.1 環(huán)境要求
Python 3.8+、DeepSeek API Key(默認(rèn)模式)或 Ollama(離線(xiàn)模式)
4.2 安裝依賴(lài)
pip install -r requirements.txt
4.3 模型選擇
本項(xiàng)目支持兩種模式運(yùn)行:
1. 在線(xiàn)模式(默認(rèn),推薦)
使用 DeepSeek V3 API:
? 優(yōu)點(diǎn):分析速度更快(約 5-10 倍)結(jié)果更準(zhǔn)確無(wú)需本地部署資源占用少
?? 注意事項(xiàng):需要聯(lián)網(wǎng)需要 API 密鑰郵件內(nèi)容會(huì)發(fā)送至 API 服務(wù)器
配置方法:
在 .env 文件中設(shè)置你的 API 密鑰:
DEEPSEEK_API_KEY=你的密鑰
DEFAULT_MODEL=deepseek_api
2. 離線(xiàn)模式
使用本地 Ollama 模型:
? 優(yōu)點(diǎn):完全離線(xiàn)運(yùn)行數(shù)據(jù)本地處理無(wú)需 API 密鑰
?? 注意事項(xiàng):需要較高配置(建議至少 16GB 內(nèi)存)首次運(yùn)行需要下載模型(約 7GB)分析速度較慢
配置方法:
安裝 Ollama:https://ollama.ai/ ( https://ollama.ai/ )
下載模型:
ollama pull deepseek-r1:7b
在 .env 文件中修改配置:
DEFAULT_MODEL=ollama
OLLAMA_MODEL=deepseek-r1:7b
4.4 數(shù)據(jù)安全說(shuō)明
在線(xiàn)模式(DeepSeek API):郵件內(nèi)容會(huì)通過(guò) HTTPS 發(fā)送至 API 服務(wù)器建議處理敏感數(shù)據(jù)時(shí)使用離線(xiàn)模式 API 提供商承諾不存儲(chǔ)用戶(hù)數(shù)據(jù)
離線(xiàn)模式(Ollama):所有數(shù)據(jù)本地處理無(wú)需網(wǎng)絡(luò)連接適合處理敏感信息
5、系統(tǒng)流程
5.1 使用方法
PST 文件解析:
python pst_parser.py
將自動(dòng)解析指定路徑下的 PST 文件,生成 CSV 格式的郵件元數(shù)據(jù)。
郵件分析:
python email_analyzer.py
默認(rèn)使用 DeepSeek API 進(jìn)行分析。如需切換到離線(xiàn)模式:
python email_analyzer.py --model ollama
對(duì)解析后的郵件進(jìn)行智能分析,生成審計(jì)報(bào)告。
5.2 配置說(shuō)明
程序會(huì)自動(dòng)在當(dāng)前目錄的 output 文件夾下查找 metadata_report.csv 文件。 請(qǐng)確保 PST 解析后的文件被保存在正確的位置。
公司郵箱配置
在 .env 文件中設(shè)置公司郵箱域名:
COMPANY_DOMAIN=你的公司郵箱域名
此配置用于識(shí)別外部郵件,這是風(fēng)險(xiǎn)評(píng)估的重要指標(biāo)。如果有多個(gè)域名,可以用逗號(hào)分隔。
6、輸出示例
6.1 時(shí)間線(xiàn)分析
6.2 關(guān)系網(wǎng)絡(luò)
6.3 審計(jì)報(bào)告
風(fēng)險(xiǎn)等級(jí)分布、關(guān)鍵發(fā)現(xiàn)列表、詳細(xì)分析結(jié)果、建議措施
7、后續(xù)迭代計(jì)劃
生成的報(bào)告還要經(jīng)過(guò)很多完善才可能能用,計(jì)劃后續(xù)結(jié)合前期介紹的 RAG 智能對(duì)話(huà)系統(tǒng),可以針對(duì)特定問(wèn)題進(jìn)行全量郵件的檢索回答。
1. 郵件向量化與存儲(chǔ)
基于 ChromaDB 構(gòu)建本地向量數(shù)據(jù)庫(kù)實(shí)現(xiàn)增量數(shù)據(jù)更新機(jī)制支持多維度向量索引(正文、主題、時(shí)間等)優(yōu)化向量壓縮和檢索性能
2. 智能問(wèn)答系統(tǒng)
實(shí)現(xiàn)基于上下文的多輪對(duì)話(huà)支持復(fù)雜查詢(xún)和條件過(guò)濾添加時(shí)間范圍和關(guān)鍵詞篩選集成實(shí)體識(shí)別和關(guān)系提取
3. 深度分析功能
郵件線(xiàn)索追蹤和關(guān)聯(lián)分析人物關(guān)系圖譜構(gòu)建事件脈絡(luò)自動(dòng)梳理異常行為模式識(shí)別(完)