自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="d1w3r"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

【模型測試】大模型評測工具OpenCompass使用方法總結原創(chuàng)

發(fā)布于 2025-3-20 09:44

瀏覽

0收藏

前言

由于使用 ??lm_evaluation_harness?? 工具評測時，遇到較多復雜的問題不好處理，例如：

連接??huggingface??? 下載??tokenizer?? 被墻；
評測??API??? 時需要服務器支持??LogProbs?? 等問題
源代碼較為晦澀難懂，??Readme?? 文檔不詳細....

導致評測工具的使用成本以及體驗不佳，因此我們尋求一款國產(chǎn)的、源碼可讀性高，文檔詳細的評測工具：OpenCompass。

簡介

OpenCompass 是由上海人工智能實驗室推出的開源大模型評測體系，主要特點包括：

全能力評估- 提供50+評測數(shù)據(jù)集，覆蓋語言/知識/推理/創(chuàng)作等七大能力維度
多模型支持- 支持HuggingFace/API等50+主流模型接入，包括LLaMA/GLM/ChatGPT等
本土化優(yōu)勢- 內(nèi)置文言文理解、法律倫理等中文特色評測維度
說明文檔全- 提供了詳細的說明文檔，包括安裝、使用、配置等

倉庫地址：https://github.com/open-compass/opencompass說明文檔：https://opencompass.readthedocs.io/zh-cn/latest/get_started/quick_start.html

【模型測試】大模型評測工具OpenCompass使用方法總結-AI.x社區(qū)

使用方法

1. 創(chuàng)建虛擬環(huán)境

conda create --name opencompass pythnotallow=3.10 -y
conda activate opencompass

2. 安裝工具

該工具提供 ??pip install??? 和 ??源碼??? 兩種安裝方式。由于我們后續(xù)需要自定義評測模型的 ??API?? 以及數(shù)據(jù)集，所以此處選擇源碼方式安裝。

git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .

3. 安裝依賴

# 安裝sentencepiece
pip install torch sentencepiece protobuf

# 安裝torch
pip install torch torchvision torchaudio

4. 獲取API Key

訪問Deepseek官網(wǎng)的開發(fā)者平臺，獲取 ??API Key??? 以及 ??API URL??。

在本地新建Jupyter Notebook文件，測試API是否可用。

# 測試API可用
from openai import OpenAI
openai_api_key = "sk-fe599*******"
openai_api_base = "https://api.deepseek.com/"
model = "deepseek-chat"


client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

chat_response = client.chat.completions.create(
    model=model,
    messages=[
        {"role": "system", "content": "你是一個很有用的助手。"},
        {"role": "user", "content": "中華人民共和國的首都是哪里？"},
    ]
)
print(chat_response.choices[0].message.content)

運行后，API正常返回：

中華人民共和國的首都是北京。北京是中國的政治、文化、國際交往和科技創(chuàng)新中心，承載著中華民族的悠久歷史和燦爛文化，同時也是中國共產(chǎn)黨中央委員會、全國人民代表大會和國務院等國家最高權力機關的所在地。北京的發(fā)展成就充分展示了中國特色社會主義制度的優(yōu)越性和中國共產(chǎn)黨領導的偉大力量。

5. 創(chuàng)建API測試腳本

在OpenCompass工程目錄下，按照如下路徑創(chuàng)建.py文件

代碼路徑：??opencompass/configs/models/openai/custom_api.py??

代碼內(nèi)容：

import os
from opencompass.models import OpenAISDK


internlm_url = 'https://api.deepseek.com/'                                    # 前面獲得的 api 服務地址
internlm_api_key = "sk-fe5990***"                                             # 前面獲得的 API Key

models = [
    dict(
        type=OpenAISDK,
        path='deepseek-chat',               # 請求服務時的 model name
        key=internlm_api_key, 
        openai_api_base=internlm_url, 
        rpm_verbose=True,                   # 是否打印請求速率
        query_per_secnotallow=0.16,              # 服務請求速率
        max_out_len=1024,                   # 最大輸出長度
        max_seq_len=4096,                   # 最大輸入長度
        temperature=0.01,                   # 生成溫度
        batch_size=1,                       # 批處理大小
        retry=3,                            # 重試次數(shù)
    )
]

6. 配置測試數(shù)據(jù)集

代碼路徑：??opencompass/configs/datasets/demo/demo_cmmlu_chat_gen.py??

代碼內(nèi)容：

from mmengine import read_base

with read_base():
    from ..cmmlu.cmmlu_gen_c13365 import cmmlu_datasets


# 每個數(shù)據(jù)集只取前2個樣本進行評測
for d in cmmlu_datasets:
    d['abbr'] = 'demo_' + d['abbr']
    d['reader_cfg']['test_range'] = '[0:1]' # 這里每個數(shù)據(jù)集只取1個樣本, 方便快速評測.

解釋說明：CMMLU（Chinese Massive Multitask Language Understanding）是一個專門針對中文語言模型設計的綜合性評估基準，主要特點包括：

領域覆蓋：

包含67個學科主題
涵蓋自然科學（物理/化學/生物）
社會科學（歷史/法律/心理學）
工程技術（計算機/電子工程）
人文藝術（文學/哲學）等

題目類型：

單項選擇題
多項選擇題
推理判斷題
知識應用題

評估目標：

測試模型的中文語言理解能力
評估跨學科知識掌握程度
檢驗復雜推理和問題解決能力
驗證實際場景應用能力

7. 運行測試

完成上述的代碼修改以及配置后，在OpenCompass工程目錄下，運行如下命令：

python run.py --models custom_api.py --datasets demo_cmmlu_chat_gen.py --debug

運行結果：

【模型測試】大模型評測工具OpenCompass使用方法總結-AI.x社區(qū)

內(nèi)容小結

相比??lm_evaluation_harness?? 工具，OpenCompass 的源碼可讀性更高，文檔更詳細，使用成本更低。
OpenCompass 支持多種評測數(shù)據(jù)集，包括CMMLU、C-Eval、C-MTEB等，方便用戶選擇合適的評測數(shù)據(jù)集。
OpenCompass 支持本地部署和API調(diào)用兩種評測方式，方便用戶選擇合適的評測方式。
除此之外，OpenCompass 是果然評測軟件，更加適合國情。

本文轉載自公眾號一起AI技術作者：熱情的Dongming

原文鏈接：??https://mp.weixin.qq.com/s/O_xh6yq-bYev9vFNe2b-tA??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2025-3-20 09:44:35修改

贊

收藏

回復

舉報

社區(qū)頭條

回復

相關推薦

如何測試大模型

51CTO技術棧 ? 3583瀏覽 ? 0回復
模型更新，評測集優(yōu)化：多模態(tài)大模型評測升級！

戀戀青鳥 ? 4883瀏覽 ? 0回復
LLM 預訓練加速的新方法：八種模型增長方案總結

amei2000go ? 4180瀏覽 ? 0回復
大模型（LLM） API的使用，免費獲取試用API方法，付費API計費方式

AIRoobt ? 1.2w瀏覽 ? 0回復
大模型技術細節(jié)——大模型之文本生成與文檔總結

AI探索時代 ? 5601瀏覽 ? 0回復
大模型面經(jīng)——LoRA最全總結

shizhi02 ? 2431瀏覽 ? 0回復
大模型面經(jīng)——Langchain總結

shizhi02 ? 1998瀏覽 ? 0回復
大模型面經(jīng)——MoE混合專家模型總結

shizhi02 ? 2420瀏覽 ? 0回復
如何使用BART模型和Hugging Face Transformers總結文本？

51CTO內(nèi)容精選 ? 2389瀏覽 ? 0回復
生產(chǎn)環(huán)境測試模型的四種方法

魚蟲子 ? 1902瀏覽 ? 0回復
Kaggle大模型競賽優(yōu)勝方案總結與思考

arnoldzhw ? 2954瀏覽 ? 0回復
大語言模型評測中的評價指標：方法、基準和最佳實踐

芝士AI吃魚 ? 7804瀏覽 ? 0回復
如何全面評估多模態(tài)大模型能力？MLLM評測任務與指標總結

shizhi02 ? 6503瀏覽 ? 0回復
長文 | 大模型Post-Training總結

NLP工作站 ? 2420瀏覽 ? 0回復
如何使用模型上下文協(xié)議構建自定義工具

51CTO內(nèi)容精選 ? 1966瀏覽 ? 0回復
DeepSeek的三種接入使用方法

一起AI技術 ? 2650瀏覽 ? 0回復
【模型測試】ai-eval-system在線評測系統(tǒng)v0.2預覽版本介紹

一起AI技術 ? 871瀏覽 ? 0回復
【模型測試】基于OpenCompass構建Dify應用的自定義評測體系

一起AI技術 ? 1532瀏覽 ? 0回復
怎么學習使用大模型？論大模型和汽車的關系

AI探索時代 ? 941瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

【模型測試】基于OpenCompass構建Dify應用的自定義評測體系 2025-04-09 12:07:35發(fā)布
【模型測試】ai-eval-system在線評測系統(tǒng)v0.2預覽版本介紹 2025-04-09 06:38:42發(fā)布

熱門推薦

MCP協(xié)議之MCP-server(sse方式)實踐 0回復

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

上一篇：【模型部署】在Dify中接入ComfyUI+Flux實現(xiàn)文生圖

下一篇： MCP協(xié)議之MCP簡述

社區(qū)精華內(nèi)容

目錄