用 MCP 讓大模型自動批量下載文獻(xiàn),太香了!
MCP 最近這么火,你還不知道它是啥嗎?別慌,動手實戰(zhàn)一番就包你明白了。
而且,咱這個是真的實戰(zhàn),絕對干貨啊,全網(wǎng)少見的干貨。
我們之前講了很多建立知識庫之類的,新鮮的知識才有意思嘛。問題是新鮮貨哪里來呢,徒手去搜索加下載?2025 年了,咱不能這么干了。
你有沒有想過讓大模型自動給我們搜索、下載、解讀文獻(xiàn),一條龍服務(wù)?即便像 Deep Research 之類的服務(wù)也主要是幫你搜索和整合資源,但不給你下載資源對不。
實際上,是可以手?jǐn)]一個智能體幫我們干這項大工程的。只是現(xiàn)在不是流行 MCP 嘛,咱們也想通過這種方式來建一個。
馬上給你安排上。
本篇將以 arxiv 為例,目標(biāo)是讓你發(fā)個話,智能體就幫你搜索、下載文獻(xiàn),甚至解讀一條龍到家。
為了照顧不同需求,咱這里貼心地實現(xiàn)了兩套方案,
- Trae CN + Cline,功能強(qiáng)大
- Cherry Studio,容易上手
1、MCP
這個概念最近很熱,相信大家都見過。這里簡要地作個解釋,畢竟本篇的主旨是在于動手實踐。
你別看網(wǎng)文一篇一篇,不如跟著本篇擼一擼,你就真刀真槍見識過了。
當(dāng)然,概念了解下還是有必要的。先看一個圖,心急的話也可以跳過此圖看下面的大白話。
MCP 作為「模型上下文協(xié)議」,可以看成專門為 AI 模型設(shè)計生態(tài)系統(tǒng)服務(wù),它通過一個標(biāo)準(zhǔn)化的協(xié)議來管理和交換 AI 模型所需的各種信息,從而實現(xiàn)與各種外部服務(wù)和數(shù)據(jù)源的無縫集成。
用大白話來說,MCP 就像是 AI 模型(比如 DeepSeek、Gemini 等)的「超級翻譯官」和「萬能助手」。
我們不妨想象一下,AI 模型是個很厲害的專家,但是它自己只會說一種「AI 語言」。它需要跟各種網(wǎng)站、數(shù)據(jù)庫、工具等外部世界打交道才能完成任務(wù)。
- 翻譯官:這些「外部世界」說的都是不同的「外語」,即各種不同的數(shù)據(jù)格式和通信方式。MCP 就負(fù)責(zé)把 AI 模型說的話翻譯成這些外語,也把這些外語翻譯成 AI 模型能聽懂的話。這樣,AI 模型就不用學(xué)那么多外語了,只需要跟 MCP 說就行。
- 萬能助手:AI 模型有時候需要很多信息才能做好一件事,就像做菜需要菜譜、食材、調(diào)料一樣。MCP 就負(fù)責(zé)把 AI 模型需要的所有信息(比如要查的資料、要用的工具、之前的聊天記錄等等)都準(zhǔn)備好,打包成一個大禮包(上下文),交給 AI 模型。這樣,AI 模型就能直接開始工作。
舉個例子:
你問 DeepSeek:杭州今天天氣怎么樣?
DeepSeek 自己沒這項功能啊,咋辦?它通過 MCP 獲知提供這項功能的服務(wù),然后使喚它查詢外部天氣預(yù)報網(wǎng)站,得知今天杭州的天氣情況,再將數(shù)據(jù)整理好,最后給你答案:杭州今天晴,最高 27 度。
所以,MCP 的好處是:
- 簡單:AI 模型不用學(xué)那么多外語,不用操心那么多雜事,只需要跟 MCP 打交道。
- 方便:要加新的功能,比如查天氣、訂機(jī)票、下載文獻(xiàn)等,只需要讓 MCP 學(xué)會跟新的外部世界打交道就行,不用改 AI 模型本身。
- 整潔:MCP 把所有亂七八糟的信息都整理好,AI 模型用起來更順手。
總之,MCP 就是一個讓 AI 模型更方便、更強(qiáng)大、更容易跟各種服務(wù)和數(shù)據(jù)打交道的「中間人」。
這時候可以品一下這個圖,
2、安裝服務(wù)
回到主題,我們的目標(biāo)是自動給咱從 arxiv 上下載文獻(xiàn),那就先搜一下提供這個功能的 MCP 服務(wù)器。
找到兩個,一個如下圖所示,但感覺它主要是搜索,貌似不提供下載業(yè)務(wù)。
另一個見下圖,看起來它是能夠下載文獻(xiàn)的。這下省事了,必須給一個大贊。
本人用的是 mac,下面的安裝流程也是針對它而言。因為手頭沒有 Windows 電腦,稍微有點差異吧,但問題應(yīng)該不大,稍微搗鼓一下肯定沒問題。
- 安裝第一個比較方便,用命令?
?pip install mcp-simple-arxiv?
? 即可; - 用?
?brew install uv?
? 先安裝??uv?
?,然后用命令??uv tool install arxiv-mcp-server?
? 安裝第二個。
順利的話,很快就搞定啦。主要一點,你安裝過 Python,就方便了。
然后就是在 Cline 里配置,可以用 VS Code 或者 Cursor、Windsurf 之類的。
此處我們用國貨 Trae 的國內(nèi)版,安裝插件 Cline 咱就略過了,直接打開 Cline,點擊 MCP 服務(wù)器。
然后,點擊左側(cè)底部的 ??Configure MCP Servers?
?,像右側(cè)那樣填寫,然后看到燈綠就算配置好了。
這樣子就算配置好兩個 MCP 服務(wù)了,然后就等著給大模型發(fā)號施令:搜索、解讀、下載等任務(wù)。搜索和下載不是大模型自己的本事,需要外掛。
在 Cline 中提供了兩種與大模型的交互模式,計劃模式(Plan)和執(zhí)行模式(Act),分別負(fù)責(zé)智能規(guī)劃任務(wù)和高效執(zhí)行任務(wù)。
3、設(shè)置大模型
別忘了在 Cline 里選擇大模型!注意,這里需要大模型的 API Key。你可以讓 plan 和 act 使用同一個模型,或者讓它們分別使用不同模型。比如一個用 deepseek-chat,另一個使用 deepseek-reasoner,像下面這樣。
雖然在 DeepSeek API 那里咱也充了錢,但為了省錢,繼續(xù)擼谷歌的羊毛,此處均使用 Gemini 2.0 Pro or Flash。
4、論文智能體
好了,現(xiàn)在就是整裝待發(fā)的狀態(tài)了。
Cline 默認(rèn)在左側(cè),如果你習(xí)慣右側(cè)開車的話,像下面這樣點擊一下即可發(fā)射到右側(cè)。
左側(cè)關(guān)掉,就可以右側(cè)開車了。
給大模型下達(dá)命令:幫我搜一下擴(kuò)散模型和大語言模型相結(jié)合的最新論文。
Gemini 調(diào)用 simple-arxiv 搜了 10 篇論文,
繼續(xù)下命令:把這些論文的摘要和方法概要用中文解讀一下,然后存放到一個 Markdown 文件中。
稍等一會兒,左側(cè)就自動出現(xiàn)一個 Markdown 文件,里面就是摘要和對方法的簡要解讀。
下載論文
接下來,我們讓它下載論文。你會發(fā)現(xiàn),這時它會自動調(diào)用第二個服務(wù),就是 ??arxiv-mcp-server?
?。因為第一服務(wù)并沒有提供下載業(yè)務(wù)嘛。
它會詢問你是否下載到配置好的那個目錄里,選 yes。
不一會兒,任務(wù)完成。不過你也可以讓它給你把文件名改一改。
上面這樣子其實是比較泛泛地搜索,如果想讓它精細(xì)一些,比如讓它搜題目中包含 Self-Supervised Learning 的論文。
會發(fā)現(xiàn)返回的結(jié)果不符要求,只有一篇的題目符合要求。
那就給它明確指示:在 arxiv 上使用 ??ti: "Self-Supervised Learning"?
? 搜。
這樣看著就對路了嘛。
接著,讓它給出詳細(xì)信息,
5、Cherry Studio
如果你沒怎么編過程,也許不喜歡 Trae + Cline 這種方式,那咱們也可以使用可愛的小櫻桃是不。代價是用不了 Trae 強(qiáng)大的文件編輯能力。
因為我們前面已經(jīng)安裝好相應(yīng)的工具了,這里只需要配置一下 MCP 服務(wù)器即可。
先如下步驟打開配置文件,
然后,可以直接參考我的配置。
{
"mcpServers": {
"arxiv-mcp-server": {
"command": "uv",
"args": [
"tool",
"run",
"arxiv-mcp-server",
"--storage-path",
"~/Documents/arxiv"
]
},
"simple-arxiv": {
"command": "/opt/anaconda3/bin/python",
"args": [
"-m",
"mcp_simple_arxiv"
]
}
}
}
回到上面那個圖,啟用那里的綠燈點亮的話,就說明 OK 啦。
接著,到聊天界面打開 MCP 服務(wù)器。
最后,選擇大模型,給它上活。
最后三篇如下,
不錯,題目都符合要求。然后,讓它下載一篇看看。
好了,今天就到這里了。
本文轉(zhuǎn)載自??機(jī)器學(xué)習(xí)與數(shù)學(xué)??,作者:煦若射
