自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

比英偉達工程師還熟練!DeepSeek R1+測試時Scaling自動優(yōu)化GPU內核

人工智能 新聞
英偉達巧妙地將DeepSeek-R1與推理時擴展相結合,構建了全新工作流程,自動優(yōu)化生成GPU內核,取得了令人矚目的成果。

本周英偉達的一篇技術博客引發(fā)了業(yè)界震動!

英偉達的團隊嘗試利用DeepSeek-R1和推理時擴展實現(xiàn)GPU內核生成自動化,效果極佳。

隨著AI模型的擴展,推理時擴展(inference-time scaling),也叫測試時擴展(test-time scaling)正閃亮登場。

推理時擴展就像是給AI模型配備了一個「智慧錦囊」。當模型進行推理時,它會額外分配計算資源,讓模型有能力評估多種可能的結果,然后從中挑選出最優(yōu)解。

通過這種方式,AI可以像人類一樣,有條不紊地剖析復雜問題,找到最佳解決方案。

圖片

為了充分發(fā)揮DeepSeek-R1的優(yōu)勢,同時克服其在生成優(yōu)化GPU內核時遇到的困難,英偉達的工程師們想出了一個創(chuàng)新的方法——將推理時擴展技術與DeepSeek-R1相結合,構建了一種全新的工作流程。

他們使用DeepSeek-R1,在推理過程中借助額外的計算能力來解決一個復雜問題:旨在自動生成數(shù)值正確且針對不同類型注意力機制進行優(yōu)化的GPU注意力內核,整個過程無需任何顯式編程。

在某些情況下,R1生成的內核甚至比嫻熟的工程師開發(fā)出來的還要出色!

對此,網友評價道:「英偉達是在毀掉自己的護城河嗎?」

圖片

優(yōu)化注意力內核的挑戰(zhàn)

深入了解推理時擴展技術如何發(fā)揮作用之前,先要認識一個LLM中至關重要的概念——注意力機制。

注意力機制就像是「聚光燈」,能讓AI模型在處理任務時,有選擇地聚焦在輸入信息中最相關的部分,快速找到關鍵語句,做出更準確的預測,發(fā)現(xiàn)數(shù)據中的隱藏模式。

但是,注意力操作的計算復雜度與輸入序列長度的平方成正比。輸入的文本越長,模型處理起來就會越吃力,不僅計算量大幅增加,還可能出現(xiàn)運行時錯誤,比如內存不足的情況。

為了避免這些問題,提高計算效率,開發(fā)優(yōu)化的底層實現(xiàn),也就是GPU內核,十分必要。

另外,注意力機制有多種不同的變體,像因果注意力、相對位置嵌入、alibi等。工程師們在面對不同的任務時,往往需要把這些變體組合起來使用。

在多模態(tài)模型,比如視覺Transformer中,需要專門的注意力機制,像空間鄰域注意力(Spatial Neighborhood Attention),來處理計算機視覺、視頻生成模型中常見的時空信息。

圖片

開發(fā)一個優(yōu)化的GPU注意力內核,對經驗豐富的軟件工程師來說,也是一項艱巨的任務,費時費力。

盡管像DeepSeek-R1這樣的模型在代碼生成任務中展現(xiàn)出了很大的潛力,但它們在第一次嘗試生成優(yōu)化代碼時,還是會遇到不少挑戰(zhàn)。

這使得在推理時必須使用其他策略來生成優(yōu)化代碼。

以下是為相對位置嵌入注意力內核輸入的示例用戶提示。

圖片

模型有時會產生幻覺,生成一些「不靠譜」的代碼,要么在語法上有錯誤,要么把不同語言或框架的語法混在一起,導致無法運行或效率低下。

計算最優(yōu)的GPU線程映射也不是一件容易的事,通常需要反復調整優(yōu)化,才能得到一個正確又高效的內核。

DeepSeek R1與推理時擴展「強強聯(lián)合」

為了攻克優(yōu)化GPU注意力內核這個難題,英偉達的工程師們想出了一個巧妙的辦法,他們把DeepSeek-R1模型和推理時擴展技術結合起來,創(chuàng)造了一種新的工作流程。

圖片

一開始,工程師會手動輸入一個提示。然后,DeepSeek-R1會根據這個提示,在第一次遍歷中生成GPU代碼,也就是內核代碼。

生成的代碼會交給一個特殊的驗證器,這個驗證器運行在英偉達H100 GPU上,仔細分析生成的內核代碼。

如果發(fā)現(xiàn)代碼有不足的地方,驗證器就會生成新的提示,再把這些提示作為輸入,反饋給DeepSeek-R1。模型根據新的提示,對代碼進行改進,如此循環(huán)往復。

工程師們發(fā)現(xiàn),這個過程持續(xù)15分鐘,就能得到一個性能更好的注意力內核。

圖片

根據斯坦福大學的KernelBench基準測試,它生成的內核在處理Level-1問題時,在數(shù)值上100%是正確的。在處理Level-2問題時,正確率也能達到96% 。

KernelBench Level-1問題解決率,是用來評估LLM為特定計算任務生成高效GPU內核能力的數(shù)值正確指標,它是一系列測試LLM GPU編程能力挑戰(zhàn)的一部分。

推理時間預算對生成正確內核的影響也很明顯。從測試結果來看,在Level-1問題中,如果每個問題分配的推理時間超過10分鐘,就能為100個問題中的大多數(shù)生成數(shù)值正確的代碼。

這也意味著,給模型足夠的「思考時間」,它真的能給出更好的答案。

圖片

利用DeepSeek-R1模型,通過在推理時投入更多計算資源,可以生成比一些熟練工程師開發(fā)的優(yōu)化內核還要好的結果,這為GPU內核的自動化生成開辟了一條新的道路。

目前這項技術還處于早期研究階段,雖然已經取得了一些令人振奮的成果,但要想讓它能穩(wěn)定地產生更好的結果,還有很多工作要做。

研究者對DeepSeek-R1的最新進展及潛力感到興奮。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-02-13 12:27:13

2025-02-27 09:09:45

2025-04-07 07:30:00

模型AI訓練

2025-02-26 10:24:51

2012-09-29 10:06:56

英偉達測試Tesla K20

2025-03-19 10:10:43

2025-04-16 08:50:00

模型AI數(shù)據

2024-04-01 12:51:55

AI訓練

2025-04-14 09:15:00

英偉達模型數(shù)據

2022-05-12 13:09:18

Linux英偉達開源

2025-04-07 08:42:00

2025-02-06 09:30:00

2024-10-18 14:46:51

2025-02-19 08:00:00

2025-02-28 09:22:00

2025-01-27 12:30:07

2024-07-19 13:09:50

2025-03-19 09:52:50

2024-11-12 13:07:44

2012-07-09 09:53:24

超級計算機Tesla GPU
點贊
收藏

51CTO技術棧公眾號