自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="n09fb"></pre>

<cite id="n09fb"></cite>^{<blockquote id="n09fb"></blockquote>}

<tr id="n09fb"><ul id="n09fb"><pre id="n09fb"></pre></ul></tr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

大模型面經(jīng)—如何評估顯卡利用率及顯卡運用優(yōu)化方法原創(chuàng)

發(fā)布于 2024-11-19 12:51

瀏覽

0收藏

?本篇總結(jié)了顯卡利用率評估方法及顯卡運用優(yōu)化方法。

本篇來總結(jié)一些顯卡優(yōu)化的經(jīng)驗，還是按照面經(jīng)的形式給出，希望能給到大家一些實際訓練效率優(yōu)化的幫助~

下面是一個快捷目錄。

一、如何評估顯卡利用率？

二、如何優(yōu)化顯存利用率？

一、如何評估顯卡利用率

使用deepseed時，zero3如果沒有 nvlink，多卡訓練下會變慢很多，下面有三種方法來評估訓練時發(fā)揮了多少GPU性能。

1. flops 比值法

采用Nvidia可參考的顯卡峰值計算速度進行計算

gpu 利用率 = 實測的flops/顯卡理論上的峰值flops

實測的flops可以直接用 DeepSpeed Flops Profiler直接得到。

舉例：deepspeed 實測flops 100tflops，而用的是A100卡理論峰值312tflops，可以得到GPU 利用率只有 32.05%

2. throughout 估計法

根據(jù)論文中的訓練速度或者吞吐量進行計算，一般論文中會說明 3300 token/s/gpu

gpu 利用率 = 實際吞吐量 / 論文中的吞吐量（假設(shè)利用率100%）

舉例：

實測訓練時處理樣本速度為 3 example/s，一共有4卡，max length 2048，則吞吐量為 1536 token/s/gpu ；

根據(jù)llama 論文知道，他們訓練7B模型的吞吐量約為 3300 token/s/gpu，那么GPU利用率只有46.54%

3. torch profiler 分析法

利用torch profiler 記錄各個函數(shù)的時間，將結(jié)果在tensorboard上展示，在gpu kenel視圖下，可以看到tensor core 的利用率，比如30%。

profiler是一個用于分析訓練的一體化工具。它可以記錄CPU操作時間、CUDA內(nèi)核計時、內(nèi)存消耗歷史，只需要將訓練嵌入到分析器上下文中，如下所示:

import torch.autograd.profiler as profiler


 with profiler.profile(
   activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA],
   on_trace_ready=torch.profiler.tensorboard_trace_handler('./logs'),
 ) as prof:
   train(args)

然后就可以啟動tensorboard查看分析軌跡。注意這里需要先安裝torch-tb-profiler。

最推薦的還是方法三，可以比較詳細地監(jiān)控訓練過程。

二、如何優(yōu)化顯存利用率

如果發(fā)現(xiàn)GPU利用率很低，那么需要采取一些優(yōu)化措施。以下是一些優(yōu)化 GPU 性能的方法：

1. 減少日志IO操作頻率

輸出頻率過多非常影響訓練效率，所以一旦開始正式訓練盡量把日志精簡；有必要的話print也盡量少一些。

2. 基于類似于torch profiler 這樣的性能監(jiān)控方法結(jié)合具體的情況分析瓶頸

3. 數(shù)據(jù)加載效率過低

有可能是數(shù)據(jù)加載速度慢，導致 GPU 等待 CPU 提供數(shù)據(jù)。

可以通過下面的方法：

1）增加數(shù)據(jù)加載線程數(shù)，使用框架（如 PyTorch 或 TensorFlow）中 `DataLoader` 的 `num_workers` 參數(shù)增加數(shù)據(jù)加載的并發(fā)。

2）使用數(shù)據(jù)預緩存，在訓練開始前，將數(shù)據(jù)轉(zhuǎn)換為 Tensor 并存儲到高效格式（如 TensorFlow 的 TFRecord 或 PyTorch 的 `.pt` 文件）。

3）啟用異步加載，利用異步數(shù)據(jù)加載技術(shù)，例如 PyTorch 的 `prefetch`。

4）使用更快的存儲設(shè)備，如果數(shù)據(jù)集較大，建議將數(shù)據(jù)存儲在 NVMe SSD 或 RAMDisk 上。

4. 模型架構(gòu)優(yōu)化

可以剪枝，簡化架構(gòu)，使用 cuDNN 的優(yōu)化版本或 TensorRT 加速等更高效的算子進行計算。

5. 調(diào)整batch大小

有可能batch數(shù)過小，可以增大批量大小，盡量增大 batch_size 以提高并行計算效率，但需注意顯存是否足夠；并且進行混合精度訓練，使用混合精度（float16 + float32）訓練（如 PyTorch 的 `torch.cuda.amp` 或 TensorFlow 的 `mixed_float16`），減少顯存占用，從而支持更大的批量。

6. 學習率和優(yōu)化器調(diào)整

還有一個可能是訓練配置不對，學習率不合理或優(yōu)化器效率較低。

可以使用合適的學習率策略（如 Warmup、Cosine Annealing）；或者使用高效的優(yōu)化器（如 AdamW）或框架支持的 fused 優(yōu)化器（如 PyTorch 的 `fused_adam`）。

參考文獻

[1]【DeepSpeed 教程翻譯】三，在 DeepSpeed 中使用 PyTorch Profiler做性能調(diào)試和Flops Profiler教程翻譯 - 知乎

[2] 【LLM面試題】顯存問題/評估微調(diào)所需顯存_llm微調(diào)需要顯存多大-CSDN博客

?

文轉(zhuǎn)載自公眾號瓦力算法學研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/8HezD5aWVnb_1nDJ236DvQ??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

大模型面經(jīng)

贊

收藏

回復

舉報

回復

相關(guān)推薦

Llama-3：利用微型基準測試（井字游戲）評估大模型

Baihai_IDP ? 2599瀏覽 ? 0回復
如何評估大語言模型生成結(jié)果的多樣性

sbf_2000 ? 2952瀏覽 ? 1回復
如何在保證模型性能條件下優(yōu)化Prompt降低使用成本及響應延遲？

Syrupup ? 2508瀏覽 ? 0回復
GPU和CPU如何混合訓練？大模型訓練的GPU聯(lián)手CPU顯存優(yōu)化分析方法

angel ? 4075瀏覽 ? 0回復
大模型面經(jīng)——以醫(yī)療領(lǐng)域為例，整理RAG基礎(chǔ)與實際應用中的痛點

shizhi02 ? 2628瀏覽 ? 0回復
大模型面經(jīng)——LoRA最全總結(jié)

shizhi02 ? 2446瀏覽 ? 0回復
大模型面經(jīng)——Langchain總結(jié)

shizhi02 ? 2010瀏覽 ? 0回復
大模型面經(jīng)——MoE混合專家模型總結(jié)

shizhi02 ? 2442瀏覽 ? 0回復
大模型面經(jīng)—RAG工程實踐經(jīng)驗總結(jié)

shizhi02 ? 2250瀏覽 ? 0回復
大模型面經(jīng)—分布式訓練指南

shizhi02 ? 1936瀏覽 ? 0回復
利用 Schemonic 優(yōu)化數(shù)據(jù)庫模式描述以降低大語言模型成本

AIGC前沿技術(shù)追蹤 ? 2170瀏覽 ? 0回復
如何全面評估多模態(tài)大模型能力？MLLM評測任務與指標總結(jié)

shizhi02 ? 6544瀏覽 ? 0回復
聊聊 GPU 監(jiān)控那些事：利用率 & 故障等

amei2000go ? 4901瀏覽 ? 0回復
DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談

大模型自然語言處理 ? 2841瀏覽 ? 0回復
大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？

shizhi02 ? 1897瀏覽 ? 0回復
20萬塊H100顯卡覺醒！馬斯克連夜官宣Grok 3：這8個功能讓程序員集體失業(yè)

Halo咯咯 ? 2399瀏覽 ? 0回復
大模型面經(jīng)：目前不同階段的scaling law之間的區(qū)別和聯(lián)系是什么？

shizhi02 ? 2219瀏覽 ? 0回復
大模型面經(jīng)：RAG與Long context“相愛相殺”背景下，如何設(shè)計最優(yōu)解決方案？

shizhi02 ? 1111瀏覽 ? 0回復
如何優(yōu)化AI提示詞？掌握這5個技巧，讓你的大模型交互更高效！

Halo咯咯 ? 1042瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

大模型面經(jīng)：RAG與Long context“相愛相殺”背景下，如何設(shè)計最優(yōu)解決方案？ 2025-04-09 12:17:30發(fā)布
ZeroHSI-一種零樣本的四維人類-場景交互合成方法 2025-03-24 13:12:04發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：經(jīng)典圖像模型解讀之Swin-Transformer

下一篇：多模態(tài)大模型數(shù)據(jù)構(gòu)造方法

社區(qū)精華內(nèi)容

目錄

<sub id="mjafn"></sub>