自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

五個基于 LLM 的開源爬蟲項目

作者：zone7 2024-11-27 16:17:00

人工智能開源

基于AI的網(wǎng)頁數(shù)據(jù)提取可以像人類一樣動態(tài)地瀏覽數(shù)據(jù)、理解數(shù)據(jù)。為了便于學(xué)習(xí)借鑒，下面主要推薦幾個比較好的開源的AI爬蟲項目。

由于互聯(lián)網(wǎng)在技術(shù)、內(nèi)容、渠道等方面越來越多樣化，并且不斷在演變。傳統(tǒng)的爬蟲大多時候都要根據(jù)網(wǎng)頁進(jìn)行定制開發(fā)。這種道高一尺魔高一丈的循環(huán)，意味著要把有限精力投入到無限的變化中，難以動態(tài)響應(yīng)互聯(lián)網(wǎng)的變化?；贏I的網(wǎng)頁數(shù)據(jù)提取可以像人類一樣動態(tài)地瀏覽數(shù)據(jù)、理解數(shù)據(jù)。其優(yōu)勢主要有：實時適應(yīng)不斷變化的網(wǎng)站結(jié)構(gòu)，精確提取需要的內(nèi)容，用類似人類的方法解析內(nèi)容，以多種格式生成干凈的結(jié)構(gòu)化數(shù)據(jù)，輕松處理海量數(shù)據(jù)抓取。

為了便于學(xué)習(xí)借鑒，下面主要推薦幾個比較好的開源的AI爬蟲項目。

1.crawl4ai

https://github.com/unclecode/crawl4ai

Crawl4AI簡化了Web數(shù)據(jù)異步提取的過程，使Web數(shù)據(jù)提取簡單高效，非常適合AI和LLM應(yīng)用程序。

優(yōu)勢特征：

100%開源免費(fèi)。
閃電般的性能：在快速可靠的抓取方面優(yōu)于許多付費(fèi)服務(wù)。
基于AI LLM構(gòu)建：以JSON、HTML或markdown格式輸出數(shù)據(jù)。
多瀏覽器支持：可與Chromium、Firefox和WebKit無縫配合。
可同時抓取多個URL：一次處理多個網(wǎng)站，以實現(xiàn)高效的數(shù)據(jù)提取。
全媒體支持：輕松提取圖像、音頻、視頻以及所有HTML媒體標(biāo)簽。
提取鏈接：獲取所有內(nèi)部和外部鏈接以獲得更深入的數(shù)據(jù)挖掘。
XML元數(shù)據(jù)檢索：捕獲頁面標(biāo)題、描述和其他元數(shù)據(jù)。
可定制：添加用于身份驗證、標(biāo)題或自定義頁面修改的功能。
支持匿名：自定義用戶代理設(shè)置。
支持截圖：具備強(qiáng)大的錯誤處理功能，拍攝頁面快照。
自定義JavaScript：在抓取定制結(jié)果之前執(zhí)行腳本。
結(jié)構(gòu)化數(shù)據(jù)輸出：根據(jù)規(guī)則生成良好的JSON數(shù)據(jù)。
智能提?。菏褂肔LM、集群、正則表達(dá)式或CSS選擇器進(jìn)行準(zhǔn)確的數(shù)據(jù)抓取。
代理驗證：通過安全代理支持訪問受保護(hù)的內(nèi)容。
會話管理：輕松處理多頁導(dǎo)航。
圖像優(yōu)化：支持延遲加載和響應(yīng)式圖像。
動態(tài)內(nèi)容處理：管理交互式頁面的延遲加載。
對LLM友好的頭文件：為特定于LLM的交互傳遞自定義頭文件。
精確提取：使用關(guān)鍵字或指令優(yōu)化結(jié)果。
?靈活的設(shè)置：調(diào)整超時和延遲，以實現(xiàn)更流暢的抓取。
iframe支持：提取iframe中的內(nèi)容，以獲得更深入的數(shù)據(jù)提取。

2.Scrapegraph-ai

https://github.com/ScrapeGraphAI/Scrapegraph-ai

ScrapeGraphAI是一個用于web數(shù)據(jù)爬取python庫，它使用LLM和邏輯圖為網(wǎng)站或者本地文檔（XML，HTML，JSON，Markdown等）創(chuàng)建抓取流程。

3.llm-scraper

https://github.com/mishushakov/llm-scraper

LLM Scraper是一個基于LLM的爬蟲TypeScript庫。并且支持代碼生成功能。

優(yōu)勢特征：

支持本地或者M(jìn)aaS提供商：Ollama、GGUF、OpenAI、Vercel AI SDK
使用Zod定義的模式
使用TypeScript實現(xiàn)完全類型安全
基于Playwright框架
流式對象
支持代碼生成
支持4種數(shù)據(jù)格式化模式：
html用于加載原始HTML
markdown用于加載markdown
text用于加載提取的文本（使用Readability.js）
image用于加載屏幕截圖（僅限多模式）

4.crawlee-python

https://github.com/apify/crawlee-python

Crawlee是一個Web爬蟲以及瀏覽器自動化Python庫。通過AI、LLM、RAG或GPT提取網(wǎng)頁數(shù)據(jù)，包括從網(wǎng)站下載HTML、PDF、JPG、PNG和其他文件。適用于BeautifulSoup、Playwright和原始HTTP。支持有頭和無頭模式，支持代理輪換規(guī)則。

5.CyberScraper

https://github.com/itsOwen/CyberScraper-2077

CyberScraper 2077是一款基于OpenAI、Gemini和或者本地大模型的Web爬取工具。它專為精確高效的數(shù)據(jù)提取而設(shè)計，適合數(shù)據(jù)分析師、技術(shù)愛好者和任何需要簡化在線信息訪問的人。

優(yōu)勢特點(diǎn)：

基于人工智能的提?。豪萌斯ぶ悄苣Ｐ蛠碇悄艿乩斫夂徒馕鯳eb內(nèi)容。
流暢的流線型界面：友好的用戶GUI。
多格式支持：以JSON、CSV、HTML、SQL或Excel格式導(dǎo)出數(shù)據(jù)。
隱身模式：實現(xiàn)了隱身模式參數(shù)，有助于避免被檢測為機(jī)器人。
LLM支持：提供一個支持各種LLM的功能。
異步操作：異步操作以實現(xiàn)閃電般的快速操作。
智能解析：抓取內(nèi)容，就好像它是直接從主自己的記憶中提取的一樣。
緩存：使用LRU緩存和自定義字典實現(xiàn)了基于內(nèi)容和基于查詢的緩存，以減少冗余的API調(diào)用。
支持上傳到Google表格：可以輕松地將提取的CSV數(shù)據(jù)上傳到Google表格。
驗證碼繞過：可通過使用URL末尾的captcha來繞過驗證碼。（目前只能在本地工作，不能在Docker上工作）
當(dāng)前瀏覽器：可以使用運(yùn)行環(huán)境中的本地瀏覽器環(huán)境，幫助繞過99%的機(jī)器人檢測。
代理模式（即將推出）：內(nèi)置的代理支持，讓你繞過網(wǎng)絡(luò)限制。
瀏覽頁面：瀏覽網(wǎng)頁并從不同頁面抓取數(shù)據(jù)。

責(zé)任編輯：趙寧寧來源： andflow

AI 開源爬蟲

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="hxrr5"></sub>