自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

Crawl4AI，智能體網(wǎng)絡(luò)自動采集利器

發(fā)布于 2024-11-8 14:59

瀏覽

0收藏

Crawl是一款免費的開源工具，利用AI技術(shù)簡化網(wǎng)絡(luò)爬取和數(shù)據(jù)提取，提高信息收集與分析的效率。它智能識別網(wǎng)頁內(nèi)容，并將數(shù)據(jù)轉(zhuǎn)換為易于處理的格式，功能全面且操作簡便。

1 使用 Crawl 的步驟

步驟 1：安裝與設(shè)置

pip install “crawl4ai @ git+https://github.com/unclecode/crawl4ai.git" transformers torch nltk

步驟 2：數(shù)據(jù)提取

創(chuàng)建Python腳本，啟動網(wǎng)絡(luò)爬蟲并從URL提取數(shù)據(jù)：

from crawl4ai import WebCrawler

# 創(chuàng)建 WebCrawler 的實例
crawler = WebCrawler()

# 預熱爬蟲（加載必要的模型）
crawler.warmup()

# 在 URL 上運行爬蟲
result = crawler.run(url="https://openai.com/api/pricing/")

# 打印提取的內(nèi)容
print(result.markdown)

步驟 3：數(shù)據(jù)結(jié)構(gòu)化

使用LLM（大型語言模型）定義提取策略，將數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化格式：

import os
from crawl4ai import WebCrawler
from crawl4ai.extraction_strategy import LLMExtractionStrategy
from pydantic import BaseModel, Field

class OpenAIModelFee(BaseModel):
    model_name: str = Field(..., description="OpenAI 模型的名稱。")
    input_fee: str = Field(..., description="OpenAI 模型的輸入令牌費用。")
    output_fee: str = Field(..., description="OpenAI 模型的輸出令牌費用。")

url = 'https://openai.com/api/pricing/'
crawler = WebCrawler()
crawler.warmup()

result = crawler.run(
        url=url,
        word_count_threshold=1,
        extraction_strategy= LLMExtractionStrategy(
            provider= "openai/gpt-4o", api_token = os.getenv('OPENAI_API_KEY'), 
            schema=OpenAIModelFee.schema(),
            extraction_type="schema",
            instruction="""從爬取的內(nèi)容中提取所有提到的模型名稱以及它們的輸入和輸出令牌費用。不要遺漏整個內(nèi)容中的任何模型。提取的模型 JSON 格式應(yīng)該像這樣：
            {"model_name": "GPT-4", "input_fee": "US$10.00 / 1M tokens", "output_fee": "US$30.00 / 1M tokens"}."""
        ),            
        bypass_cache=True,
    )

print(result.extracted_content)

步驟 4：集成AI智能體

將 Crawl 與 Praison CrewAI 智能體集成，實現(xiàn)高效的數(shù)據(jù)處理：

pip install praisonai

創(chuàng)建工具文件（tools.py）來包裝 Crawl 工具：

# tools.py
import os
from crawl4ai import WebCrawler
from crawl4ai.extraction_strategy import LLMExtractionStrategy
from pydantic import BaseModel, Field
from praisonai_tools import BaseTool

class ModelFee(BaseModel):
    llm_model_name: str = Field(..., description="模型的名稱。")
    input_fee: str = Field(..., description="模型的輸入令牌費用。")
    output_fee: str = Field(..., description="模型的輸出令牌費用。")

class ModelFeeTool(BaseTool):
    name: str = "ModelFeeTool"
    description: str = "從給定的定價頁面提取模型的費用信息。"

    def _run(self, url: str):
        crawler = WebCrawler()
        crawler.warmup()

        result = crawler.run(
            url=url,
            word_count_threshold=1,
            extraction_strategy= LLMExtractionStrategy(
                provider="openai/gpt-4o",
                api_token=os.getenv('OPENAI_API_KEY'), 
                schema=ModelFee.schema(),
                extraction_type="schema",
                instruction="""從爬取的內(nèi)容中提取所有提到的模型名稱以及它們的輸入和輸出令牌費用。不要遺漏整個內(nèi)容中的任何模型。提取的模型 JSON 格式應(yīng)該像這樣：
                {"model_name": "GPT-4", "input_fee": "US$10.00 / 1M tokens", "output_fee": "US$30.00 / 1M tokens"}."""
            ),            
            bypass_cache=True,
        )
        return result.extracted_content

if __name__ == "__main__":
    # 測試 ModelFeeTool
    tool = ModelFeeTool()
    url = "https://www.openai.com/pricing"
    result = tool.run(url)
    print(result)

AI智能體配置

配置AI智能體使用Crawl工具進行網(wǎng)絡(luò)抓取和數(shù)據(jù)提取。在crewai框架下，我們設(shè)定了三個核心角色，共同完成網(wǎng)站模型定價信息的提取任務(wù)：

網(wǎng)絡(luò)爬蟲：負責從OpenAI、Anthropic和Cohere等網(wǎng)站抓取定價信息，輸出原始HTML或JSON數(shù)據(jù)。
數(shù)據(jù)清理員：確保收集的數(shù)據(jù)準確無誤，并整理成結(jié)構(gòu)化的JSON或CSV文件。
數(shù)據(jù)分析員：分析清理后的數(shù)據(jù)，提煉出定價趨勢和模式，并編制詳細報告。

整個流程無需額外依賴，各角色獨立完成各自任務(wù)。

2 AI 智能體應(yīng)用實例

以Crawl為基礎(chǔ)，Praison-AI智能體能夠執(zhí)行網(wǎng)絡(luò)抓取、數(shù)據(jù)清洗和分析工作。它們相互協(xié)作，從多個網(wǎng)站抓取定價數(shù)據(jù)，并匯總成詳盡的報告，以展示分析結(jié)果。

3 結(jié)語

Crawl是一個強大的工具，它賦予AI智能體更高的效率和準確性執(zhí)行網(wǎng)絡(luò)爬取和數(shù)據(jù)提取任務(wù)。其開源特性、AI驅(qū)動的能力和多功能性，使其成為構(gòu)建智能且數(shù)據(jù)驅(qū)動智能體的寶貴資產(chǎn)。

本文轉(zhuǎn)載自??AI科技論談??，作者： AI科技論談 ????

標簽

網(wǎng)絡(luò)

贊

收藏

回復

舉報

回復

相關(guān)推薦

基于LangGraph多智能體技術(shù)，搭建AI寫作自動化系統(tǒng)

小虎哦哦 ? 3800瀏覽 ? 0回復
基于GPT-4o-mini，使用LangChain打造AI搜索智能體

小虎哦哦 ? 3375瀏覽 ? 0回復
Crawl4AI帶你體驗高效AI Agent工作流程

探索AGI ? 4616瀏覽 ? 0回復
Crawl4AI：AI驅(qū)動的網(wǎng)頁抓取神器，結(jié)合LLM實現(xiàn)自動化數(shù)據(jù)提取與處理

老蛀蟲 ? 4487瀏覽 ? 0回復
AI驅(qū)動的基于意圖的網(wǎng)絡(luò)（IBN）：人工智能助力網(wǎng)絡(luò)管理的未來

51CTO內(nèi)容精選 ? 2339瀏覽 ? 0回復
入口控制：多智能體強化學習在自動駕駛中的應(yīng)用研究

xuxiangda ? 3143瀏覽 ? 0回復
人工智能智能體(AI Agent)發(fā)展趨勢2024年總結(jié)與2025年展望

十一月雨_55 ? 8315瀏覽 ? 0回復
谷歌剛剛發(fā)布AI Agent智能體白皮書，2025年AI Agent時代已到來！

玄姐聊AGI ? 4329瀏覽 ? 0回復
OpenAI重磅：AI Agent智能體Function Calling 2.0！

玄姐聊AGI ? 2790瀏覽 ? 0回復
OpenAI首款智能體上線！揭秘原理：基座竟是GPT-4o＋思維鏈？智能體爆發(fā)前夜：智譜搶跑、OpenAI還有動作！

51CTO技術(shù)棧 ? 1625瀏覽 ? 0回復
一文讀懂AI智能體的原理類型、功能優(yōu)勢和最常見使用場景

數(shù)字化助推器 ? 4523瀏覽 ? 0回復
快來試試智能爬蟲Crawl4AI，開源高效，專為AI量身打造！附實測效果

AI博物院 ? 4175瀏覽 ? 0回復
AI Agents-1 | 深度揭秘AI智能體：開篇導論

Halo咯咯 ? 1412瀏覽 ? 0回復
AI Agents-4 | 一文讀懂 AI 智能體的多元類型

Halo咯咯 ? 1035瀏覽 ? 0回復
一文讀懂AI智能體融合與數(shù)據(jù)隱私安全問題

數(shù)字化助推器 ? 1084瀏覽 ? 0回復
AI智能體融合時代數(shù)據(jù)隱私安全的“守護之道”

數(shù)字化助推器 ? 1016瀏覽 ? 0回復
MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā)

玄姐聊AGI ? 7071瀏覽 ? 0回復
多智能體（Multi Agent）AI系統(tǒng)：企業(yè)智能化轉(zhuǎn)型的未來

Halo咯咯 ? 1130瀏覽 ? 0回復
Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器

穿越時空111 ? 1122瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Qwen3震撼發(fā)布，問鼎開源寶座，教你快速上手 10h前發(fā)布
Agent2Agent對比MCP，高效實現(xiàn)協(xié)作式AI 8天前發(fā)布

熱門推薦

只需5分鐘，教你用Python搭建MCP Server 0回復

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

上一篇：五個超級容易上手的AI項目

下一篇：只需8步，手把手教你用LangGraph創(chuàng)建AI智能體

社區(qū)精華內(nèi)容

目錄

<sub id="v2fxz"></sub>

<sub id="v2fxz"></sub>

<cite id="v2fxz"><li id="v2fxz"></li></cite>