自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

五個基于 LLM 的開源爬蟲項目

人工智能 開源
基于AI的網(wǎng)頁數(shù)據(jù)提取可以像人類一樣動態(tài)地瀏覽數(shù)據(jù)、理解數(shù)據(jù)。為了便于學(xué)習(xí)借鑒,下面主要推薦幾個比較好的開源的AI爬蟲項目。

由于互聯(lián)網(wǎng)在技術(shù)、內(nèi)容、渠道等方面越來越多樣化,并且不斷在演變。傳統(tǒng)的爬蟲大多時候都要根據(jù)網(wǎng)頁進(jìn)行定制開發(fā)。這種道高一尺魔高一丈的循環(huán),意味著要把有限精力投入到無限的變化中,難以動態(tài)響應(yīng)互聯(lián)網(wǎng)的變化?;贏I的網(wǎng)頁數(shù)據(jù)提取可以像人類一樣動態(tài)地瀏覽數(shù)據(jù)、理解數(shù)據(jù)。其優(yōu)勢主要有:實時適應(yīng)不斷變化的網(wǎng)站結(jié)構(gòu),精確提取需要的內(nèi)容,用類似人類的方法解析內(nèi)容,以多種格式生成干凈的結(jié)構(gòu)化數(shù)據(jù),輕松處理海量數(shù)據(jù)抓取。

為了便于學(xué)習(xí)借鑒,下面主要推薦幾個比較好的開源的AI爬蟲項目。

1.crawl4ai

https://github.com/unclecode/crawl4ai

Crawl4AI簡化了Web數(shù)據(jù)異步提取的過程,使Web數(shù)據(jù)提取簡單高效,非常適合AI和LLM應(yīng)用程序。

優(yōu)勢特征:

  • 100%開源免費(fèi)。
  • 閃電般的性能:在快速可靠的抓取方面優(yōu)于許多付費(fèi)服務(wù)。
  • 基于AI LLM構(gòu)建:以JSON、HTML或markdown格式輸出數(shù)據(jù)。
  • 多瀏覽器支持:可與Chromium、Firefox和WebKit無縫配合。
  • 可同時抓取多個URL:一次處理多個網(wǎng)站,以實現(xiàn)高效的數(shù)據(jù)提取。
  • 全媒體支持:輕松提取圖像、音頻、視頻以及所有HTML媒體標(biāo)簽。
  • 提取鏈接:獲取所有內(nèi)部和外部鏈接以獲得更深入的數(shù)據(jù)挖掘。
  • XML元數(shù)據(jù)檢索:捕獲頁面標(biāo)題、描述和其他元數(shù)據(jù)。
  • 可定制:添加用于身份驗證、標(biāo)題或自定義頁面修改的功能。
  • 支持匿名:自定義用戶代理設(shè)置。
  • 支持截圖:具備強(qiáng)大的錯誤處理功能,拍攝頁面快照。
  • 自定義JavaScript:在抓取定制結(jié)果之前執(zhí)行腳本。
  • 結(jié)構(gòu)化數(shù)據(jù)輸出:根據(jù)規(guī)則生成良好的JSON數(shù)據(jù)。
  • 智能提?。菏褂肔LM、集群、正則表達(dá)式或CSS選擇器進(jìn)行準(zhǔn)確的數(shù)據(jù)抓取。
  • 代理驗證:通過安全代理支持訪問受保護(hù)的內(nèi)容。
  • 會話管理:輕松處理多頁導(dǎo)航。
  • 圖像優(yōu)化:支持延遲加載和響應(yīng)式圖像。
  • 動態(tài)內(nèi)容處理:管理交互式頁面的延遲加載。
  • 對LLM友好的頭文件:為特定于LLM的交互傳遞自定義頭文件。
  • 精確提取:使用關(guān)鍵字或指令優(yōu)化結(jié)果。
  • ?靈活的設(shè)置:調(diào)整超時和延遲,以實現(xiàn)更流暢的抓取。
  • iframe支持:提取iframe中的內(nèi)容,以獲得更深入的數(shù)據(jù)提取。

2.Scrapegraph-ai

https://github.com/ScrapeGraphAI/Scrapegraph-ai

ScrapeGraphAI是一個用于web數(shù)據(jù)爬取python庫,它使用LLM和邏輯圖為網(wǎng)站或者本地文檔(XML,HTML,JSON,Markdown等)創(chuàng)建抓取流程。

3.llm-scraper

https://github.com/mishushakov/llm-scraper

LLM Scraper是一個基于LLM的爬蟲TypeScript庫。并且支持代碼生成功能。

優(yōu)勢特征:

  • 支持本地或者M(jìn)aaS提供商:Ollama、GGUF、OpenAI、Vercel AI SDK
  • 使用Zod定義的模式
  • 使用TypeScript實現(xiàn)完全類型安全
  • 基于Playwright框架
  • 流式對象
  • 支持代碼生成
  • 支持4種數(shù)據(jù)格式化模式:
  • html用于加載原始HTML
  • markdown用于加載markdown
  • text用于加載提取的文本(使用Readability.js)
  • image用于加載屏幕截圖(僅限多模式)

4.crawlee-python

https://github.com/apify/crawlee-python

Crawlee是一個Web爬蟲以及瀏覽器自動化Python庫。通過AI、LLM、RAG或GPT提取網(wǎng)頁數(shù)據(jù),包括從網(wǎng)站下載HTML、PDF、JPG、PNG和其他文件。適用于BeautifulSoup、Playwright和原始HTTP。支持有頭和無頭模式,支持代理輪換規(guī)則。

5.CyberScraper

https://github.com/itsOwen/CyberScraper-2077

CyberScraper 2077是一款基于OpenAI、Gemini和或者本地大模型的Web爬取工具。它專為精確高效的數(shù)據(jù)提取而設(shè)計,適合數(shù)據(jù)分析師、技術(shù)愛好者和任何需要簡化在線信息訪問的人。

優(yōu)勢特點(diǎn):

  • 基于人工智能的提?。豪萌斯ぶ悄苣P蛠碇悄艿乩斫夂徒馕鯳eb內(nèi)容。
  • 流暢的流線型界面:友好的用戶GUI。
  • 多格式支持:以JSON、CSV、HTML、SQL或Excel格式導(dǎo)出數(shù)據(jù)。
  • 隱身模式:實現(xiàn)了隱身模式參數(shù),有助于避免被檢測為機(jī)器人。
  • LLM支持:提供一個支持各種LLM的功能。
  • 異步操作:異步操作以實現(xiàn)閃電般的快速操作。
  • 智能解析:抓取內(nèi)容,就好像它是直接從主自己的記憶中提取的一樣。
  • 緩存:使用LRU緩存和自定義字典實現(xiàn)了基于內(nèi)容和基于查詢的緩存,以減少冗余的API調(diào)用。
  • 支持上傳到Google表格:可以輕松地將提取的CSV數(shù)據(jù)上傳到Google表格。
  • 驗證碼繞過:可通過使用URL末尾的captcha來繞過驗證碼。(目前只能在本地工作,不能在Docker上工作)
  • 當(dāng)前瀏覽器:可以使用運(yùn)行環(huán)境中的本地瀏覽器環(huán)境,幫助繞過99%的機(jī)器人檢測。
  • 代理模式(即將推出):內(nèi)置的代理支持,讓你繞過網(wǎng)絡(luò)限制。
  • 瀏覽頁面:瀏覽網(wǎng)頁并從不同頁面抓取數(shù)據(jù)。
責(zé)任編輯:趙寧寧 來源: andflow
相關(guān)推薦

2024-07-29 09:46:00

2024-04-23 08:16:21

2021-09-07 14:36:53

DevSecOps開源項目

2024-11-21 08:22:45

2023-06-30 09:00:00

Falcon LLM開源

2023-05-31 10:08:51

2024-11-22 15:59:00

2023-10-20 14:36:08

開源軟件.Net開發(fā)

2024-09-20 11:30:14

2024-05-06 12:52:30

2014-09-05 09:37:06

開源

2024-02-20 08:46:54

2024-11-15 10:00:00

Python爬蟲開發(fā)

2015-10-08 09:28:47

JavaDocker鏡像

2019-01-15 10:02:06

Kubernetes開源工具微服務(wù)

2023-09-15 16:03:59

向量數(shù)據(jù)庫開源

2022-12-06 17:18:42

2022-03-05 23:08:14

開源軟件開發(fā)技術(shù)

2022-11-28 17:21:24

2023-10-26 12:10:54

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號