AI大牛李沐裝機(jī)視頻來了！你也能練100億的大模型

作者：新智元 2022-08-15 08:40:00

人工智能新聞

AI大牛沐神來裝機(jī)了，還是訓(xùn)練100億參數(shù)模型那種。

在還沒出裝機(jī)視頻前，李沐老師曾發(fā)起了一個小小的問卷調(diào)查，趁著顯卡降價，看下童鞋們對裝機(jī)跑Transformer有多大興趣。

當(dāng)時，就連華為天才少年「稚暉君」都來點贊了，足見大家還是很期待的。

這不，沐神帶著他的裝機(jī)視頻來了。怎樣用最低的成本訓(xùn)練一個100億模型？

而就在最近，幣圈也在一直降溫，同時GPU也明顯降價了不少，就比如英偉達(dá)3090TI現(xiàn)在售價1600美元（原價2000美元）。

在這個項目的開始，先裝了2臺原型機(jī)，每臺機(jī)器都是雙卡RTX 3090TI，采用了水冷散熱系統(tǒng)，減少了噪音。

一臺機(jī)器裝下來，造價有5000多美元，大約3萬5人民幣。

話不多說，來看看沐神如何裝機(jī)的吧～

裝機(jī)清單

裝機(jī)的需求，首先就要是足夠安靜。不然太吵的話沒法工作。

第二個需求就是散熱要好。不然溫度過高的話會導(dǎo)致GPU降頻。

第三個，重點來了，因為需要跑比較大的Transformer模型，所以GPU的帶寬必須足夠好。

如果之前裝過GPU服務(wù)器用來跑CNN的話，跟跑Transformer模型的需求會不太一樣。因為Transformer模型比CNN模型要更大，對內(nèi)存的占有率會更高。所以GPU的內(nèi)存大小非常重要。

之前沐神也講過，要把這樣大的Transformer模型放到多個GPU上訓(xùn)練，來自谷歌、微軟等的工程師都是使用類似DGA X100這樣的機(jī)器來跑的。即使在這樣的機(jī)器上，GPU的帶寬仍然是一個瓶頸。

購買這種服務(wù)器GPU和游戲GPU的區(qū)別就在于，前者不在于單卡能跑多快，而是卡與卡之間能夠多快地連接出來。

因此裝機(jī)理念的重點就是：盡量增大GPU內(nèi)存，以及GPU之間互聯(lián)的一個帶寬，

如果一臺機(jī)器想放很多卡的話，就要買渦輪的散熱。

如果想要安靜的話，就買水冷的散熱，沐神買的是4塊3090 TI。用水冷的好處是比較安靜，壞處就是特別占地方。

所以，如果要在機(jī)箱放四塊卡的話，就不要買水冷的版本，而是要買只有一個渦輪風(fēng)扇的版本。

而且機(jī)箱里風(fēng)的流向是一個特別重要的問題。如果買帶3個風(fēng)扇的卡，風(fēng)是從正面進(jìn)入機(jī)箱，然后從四面八方散熱，卡挨得緊的話，機(jī)箱里的溫度就會非常高。

沐神也說，自己在多年前，買了四塊2個大風(fēng)扇的卡放在一起，結(jié)果就導(dǎo)致一塊卡溫度過高燒掉了。

GPU選好以后（華碩的ROG)，剩下的配置就比較簡單。CPU用的是AMD的12核CPU，主板是號稱PCIE 4.0 16的某牌子，硬盤是2 TB的M.2的硬盤，風(fēng)扇是120毫米水冷風(fēng)扇，加一個全尺寸機(jī)箱。

裝機(jī)步驟

裝機(jī)清單完成后，接下來就是具體的裝機(jī)過程了。步驟如下：

首先放GPU。注意，放的過程中一定不能用手碰金屬的地方，如果有靜電的話非常容易造成GPU導(dǎo)電。

把GPU放進(jìn)去之后，把螺絲擰上。然后把風(fēng)扇裝進(jìn)去。

插上電源后，把電源線和水管線綁在一起。然后把NVLink的橋給連上去。

最后連上電源，機(jī)器就可以運行了。

壓力測試

在裝機(jī)完成后，下一步的任務(wù)就是繼續(xù)裝上操作系統(tǒng)。

沐神裝的是ubuntu22，裝上之后就靠遠(yuǎn)程連上去了。

當(dāng)然了，沐神也是把各種情況說的比較詳細(xì)，除了ubuntu22以外，windows和linux在不同的需求下也是可以的。

這里沐神用的SSH進(jìn)行的遠(yuǎn)程連接。

沐神的系統(tǒng)已經(jīng)裝上了驅(qū)動，同時，他也指出如果還沒有驅(qū)動的話，也可以用apt-get裝上nvidia-driver-515。

裝好之后，就可以運行nvidia-smi，看到系統(tǒng)了。

從中可以看到各項信息。比如GPU的數(shù)量、溫度、瓦數(shù)、內(nèi)存使用等等。

接下來還可以通過nvidia-smi的topo-m矩陣看到nv-link是否正常。

可以看到兩個GPU由NV4連接。4表示4個通道，這就代表連接是正常的。

下一題，是測試系統(tǒng)在滿負(fù)荷的情況下的溫度。

沐神表示，測試GPU的是一個叫g(shù)pu-burn的小程序，github上可以下載。

這里沐神模擬跑了十分鐘，也是看到了兩個GPU的溫度。沐神還打趣說，都能感覺到GPU在呼呼吹熱風(fēng)。

同理，CPU也可以用這種辦法測試溫度，用的是cpu-burn。

最終兩個GPU的溫度停留在58度和55度，功耗拉到了440多瓦（滿功耗480瓦），還挺好的。

最后的一項參數(shù)是機(jī)器的耗電情況。沐神的測試大概用了1240瓦，意味著每小時用電1.5度。

從目前的數(shù)據(jù)來看，穩(wěn)定性還ok。

至于用這臺機(jī)器跑Transformer性能怎么樣，還得等下期視頻了。

網(wǎng)友熱評

視頻發(fā)出后，b站的網(wǎng)友也表示出了極大的興趣。

有滿分課代表同學(xué)出沒，列出了視頻中提到的完整配置清單。

還有網(wǎng)友火速前來圍觀，「跟李沐學(xué)裝機(jī)」。

沐神自己表示，感覺3090ti的卡不是太行。馬上有網(wǎng)友搭腔，「不行就抽了送人吧?！?/span>

當(dāng)然了，這種硬核裝機(jī)視頻下的評論肯定少不了幽默因素。

只能說，太真實了。

責(zé)任編輯：張燕妮來源：新智元

AI 模型

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI大牛李沐裝機(jī)視頻來了！你也能練100億的大模型

裝機(jī)清單

裝機(jī)步驟

壓力測試

網(wǎng)友熱評

AI大牛李沐裝機(jī)視頻來了！你也能練100億的大模型