DeepSeek-R1 用來優(yōu)化GPU 內(nèi)核?代碼自動生成還比人寫得好!
英偉達(dá)工程師最近用 DeepSeek-R1 模型加上“推理時(shí)擴(kuò)展”技術(shù),讓 AI 自動生成 GPU 核心代碼,也就是 GPU 內(nèi)核。更讓人驚訝的是,有些 AI 生成的代碼甚至比工程師寫的還要好!
隨著 AI 模型處理越來越復(fù)雜的任務(wù),它們對計(jì)算資源的需求也在不斷增長。 GPU 內(nèi)核作為執(zhí)行計(jì)算任務(wù)的關(guān)鍵部分,其優(yōu)化程度直接關(guān)系到模型的性能。然而,傳統(tǒng)的內(nèi)核優(yōu)化需要大量時(shí)間和專業(yè)知識,效率低下。
NVIDIA 工程師們采用了 DeepSeek-R1 模型,這是一種開源的 AI 模型,能夠根據(jù)給定的任務(wù)自動生成代碼。結(jié)合推理時(shí)間擴(kuò)展技術(shù),工程師們讓模型在推理過程中分配額外的計(jì)算資源,以評估多種可能的內(nèi)核實(shí)現(xiàn),并選擇最優(yōu)的一個(gè)。
實(shí)驗(yàn)中,DeepSeek-R1 模型首先根據(jù)手動輸入的提示生成 GPU 內(nèi)核代碼。然后,這些代碼在一個(gè)特殊的驗(yàn)證器上運(yùn)行,驗(yàn)證器會分析生成的內(nèi)核并創(chuàng)建新的提示,再輸入給 DeepSeek-R1 模型。這個(gè)過程在閉環(huán)中不斷迭代,直到生成最優(yōu)的內(nèi)核。
實(shí)驗(yàn)結(jié)果顯示,這種方法產(chǎn)生了 100%的 Level-1 問題和 96%的 Level-2 問題的數(shù)值正確內(nèi)核。利用 DeepSeek-R1 模型和推理時(shí)間擴(kuò)展技術(shù)生成的優(yōu)化 GPU 內(nèi)核,在性能上有了顯著提升。
與傳統(tǒng)的 PyTorch API 相比,NVIDIA 工程師們的方法在某些內(nèi)核類型上實(shí)現(xiàn)了 1.1 倍至 2.1 倍的速度提升。這一創(chuàng)新方法在處理某些復(fù)雜問題時(shí),甚至超過了經(jīng)驗(yàn)豐富的工程師手工優(yōu)化的內(nèi)核。
這一技術(shù)的成功應(yīng)用,為 AI 模型在 GPU 編程領(lǐng)域的自動化和智能化提供了新的思路。未來,隨著 DeepSeek-R1 模型的進(jìn)一步發(fā)展和推理時(shí)間擴(kuò)展技術(shù)的優(yōu)化,我們有理由相信,AI 將在更多領(lǐng)域創(chuàng)造奇跡。
參考來源:https://developer.nvidia.com/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/
本文轉(zhuǎn)載自 ??AI工程化??,作者: ully
