自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

DeepSeek-R1 用來優(yōu)化GPU 內(nèi)核？代碼自動生成還比人寫得好！

發(fā)布于 2025-2-21 11:16

瀏覽

0收藏

英偉達(dá)工程師最近用 DeepSeek-R1 模型加上“推理時(shí)擴(kuò)展”技術(shù)，讓 AI 自動生成 GPU 核心代碼，也就是 GPU 內(nèi)核。更讓人驚訝的是，有些 AI 生成的代碼甚至比工程師寫的還要好！

隨著 AI 模型處理越來越復(fù)雜的任務(wù)，它們對計(jì)算資源的需求也在不斷增長。 GPU 內(nèi)核作為執(zhí)行計(jì)算任務(wù)的關(guān)鍵部分，其優(yōu)化程度直接關(guān)系到模型的性能。然而，傳統(tǒng)的內(nèi)核優(yōu)化需要大量時(shí)間和專業(yè)知識，效率低下。

NVIDIA 工程師們采用了 DeepSeek-R1 模型，這是一種開源的 AI 模型，能夠根據(jù)給定的任務(wù)自動生成代碼。結(jié)合推理時(shí)間擴(kuò)展技術(shù)，工程師們讓模型在推理過程中分配額外的計(jì)算資源，以評估多種可能的內(nèi)核實(shí)現(xiàn)，并選擇最優(yōu)的一個(gè)。

DeepSeek-R1 用來優(yōu)化GPU 內(nèi)核？代碼自動生成還比人寫得好！-AI.x社區(qū)

實(shí)驗(yàn)中，DeepSeek-R1 模型首先根據(jù)手動輸入的提示生成 GPU 內(nèi)核代碼。然后，這些代碼在一個(gè)特殊的驗(yàn)證器上運(yùn)行，驗(yàn)證器會分析生成的內(nèi)核并創(chuàng)建新的提示，再輸入給 DeepSeek-R1 模型。這個(gè)過程在閉環(huán)中不斷迭代，直到生成最優(yōu)的內(nèi)核。

DeepSeek-R1 用來優(yōu)化GPU 內(nèi)核？代碼自動生成還比人寫得好！-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果顯示，這種方法產(chǎn)生了 100%的 Level-1 問題和 96%的 Level-2 問題的數(shù)值正確內(nèi)核。利用 DeepSeek-R1 模型和推理時(shí)間擴(kuò)展技術(shù)生成的優(yōu)化 GPU 內(nèi)核，在性能上有了顯著提升。

DeepSeek-R1 用來優(yōu)化GPU 內(nèi)核？代碼自動生成還比人寫得好！-AI.x社區(qū)

與傳統(tǒng)的 PyTorch API 相比，NVIDIA 工程師們的方法在某些內(nèi)核類型上實(shí)現(xiàn)了 1.1 倍至 2.1 倍的速度提升。這一創(chuàng)新方法在處理某些復(fù)雜問題時(shí)，甚至超過了經(jīng)驗(yàn)豐富的工程師手工優(yōu)化的內(nèi)核。

這一技術(shù)的成功應(yīng)用，為 AI 模型在 GPU 編程領(lǐng)域的自動化和智能化提供了新的思路。未來，隨著 DeepSeek-R1 模型的進(jìn)一步發(fā)展和推理時(shí)間擴(kuò)展技術(shù)的優(yōu)化，我們有理由相信，AI 將在更多領(lǐng)域創(chuàng)造奇跡。

參考來源：https://developer.nvidia.com/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/

本文轉(zhuǎn)載自 ??AI工程化??，作者： ully

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
DeepSeek-AI 發(fā)布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 ? 3390瀏覽 ? 0回復(fù)
圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理

Baihai_IDP ? 4397瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動了全球 AI 圈

玄姐聊AGI ? 6527瀏覽 ? 1回復(fù)
Unsloth：僅需7GB顯存就能訓(xùn)練自己的DeepSeek-R1！

PyTorch研習(xí)社 ? 3093瀏覽 ? 0回復(fù)
7G顯存，訓(xùn)練自己的 DeepSeek-R1：GRPO 資源下降80%

鴻煊的學(xué)習(xí)筆記 ? 2555瀏覽 ? 0回復(fù)
DeepSeek R1不編程就能生成GPU內(nèi)核，比熟練工程師好，驚到了英偉達(dá)

輕薄滴假象 ? 1588瀏覽 ? 0回復(fù)
DeepSeek-R1技術(shù)大揭秘：論文核心原理拆解與模型性能突破關(guān)鍵

arnoldzhw ? 2723瀏覽 ? 0回復(fù)
Deepseek AI模型本地部署步驟簡記：ollama + deepseek-r1 + 本地AI模型的Web UI

parson2000 ? 1655瀏覽 ? 0回復(fù)
通過LM Studio本地私有化部署DeepSeek-R1模型，無網(wǎng)絡(luò)也能用

與輝鴻蒙 ? 3433瀏覽 ? 0回復(fù)
Grok 3 與 DeepSeek-R1 是怎么學(xué)會思考的？

機(jī)器學(xué)習(xí)與數(shù)學(xué) ? 2870瀏覽 ? 0回復(fù)
沖，DeepSeek-R1/V3推理系統(tǒng)架構(gòu)設(shè)計(jì)被開源了！

PaperAgent ? 1715瀏覽 ? 0回復(fù)
在消費(fèi)級硬件上微調(diào) DeepSeek-R1

AIGC前沿技術(shù)追蹤 ? 1664瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 2437瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實(shí)現(xiàn)方法思路

大模型自然語言處理 ? 1635瀏覽 ? 0回復(fù)
DeepSeek-R1關(guān)鍵創(chuàng)新技術(shù)再總結(jié)

大模型自然語言處理 ? 1508瀏覽 ? 0回復(fù)
Deepseek-R1，論文番外篇!

NLP前沿1 ? 925瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-R1 的 “最強(qiáng)外掛” GRPO 算法

鴻煊的學(xué)習(xí)筆記 ? 1445瀏覽 ? 0回復(fù)
DianJin-R1：金融領(lǐng)域推理增強(qiáng)大模型，全面超越DeepSeek-R1

靈度智能 ? 292瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

大模型靠強(qiáng)化學(xué)習(xí)就能無限變強(qiáng)？清華潑了一盆冷水 12h前發(fā)布
METR發(fā)現(xiàn) AI 編碼的“摩爾定律”？指數(shù)級增長或顛覆軟件開發(fā) 12h前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： xAI 發(fā)布地表最強(qiáng)大模型Grok 3，同時(shí)宣布將開源Grok2

下一篇： OpenAI 發(fā)布GPT-4.5：更大規(guī)模、更知識淵博的模型，預(yù)訓(xùn)練的巔峰之作，COT升級為COD

社區(qū)精華內(nèi)容

目錄

<var id="beilf"></var>

<sub id="beilf"><p id="beilf"></p></sub>

<style id="beilf"></style>

<sub id="beilf"><p id="beilf"></p></sub>

<s id="beilf"><li id="beilf"></li></s>

<legend id="beilf"></legend>

^{<blockquote id="beilf"></blockquote>}

<style id="beilf"></style><legend id="beilf"><track id="beilf"></track></legend>