自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

從GPU到DPU看顯存到網(wǎng)卡內(nèi)存的演進(jìn)

作者：扎波特的網(wǎng)線鉗 2022-01-12 07:06:42

商務(wù)辦公

很多網(wǎng)絡(luò)相關(guān)的論文第一句通常是由于網(wǎng)卡buffer有限，所以xxxx，本文對(duì)buffer做了xxxx 但是為什么不直接在網(wǎng)卡上把Buffer變成內(nèi)存呢?然而人們又會(huì)走入另一個(gè)誤區(qū)，大buffer會(huì)帶來(lái)大延遲，大延遲會(huì)帶來(lái)低吞吐。

本文轉(zhuǎn)載自微信公眾號(hào)「zartbot」，作者扎波特的網(wǎng)線鉗。轉(zhuǎn)載本文請(qǐng)聯(lián)系z(mì)artbot公眾號(hào)。

很多網(wǎng)絡(luò)相關(guān)的論文第一句通常是由于網(wǎng)卡buffer有限，所以xxxx，本文對(duì)buffer做了xxxx 但是為什么不直接在網(wǎng)卡上把Buffer變成內(nèi)存呢?然而人們又會(huì)走入另一個(gè)誤區(qū)，大buffer會(huì)帶來(lái)大延遲，大延遲會(huì)帶來(lái)低吞吐。

同樣對(duì)比顯卡上的顯存，它出現(xiàn)了幾十年了，所以我們先來(lái)回顧一下顯存的發(fā)展史，如果顯存是一個(gè)buffer結(jié)構(gòu)，也就不會(huì)誕生GPU、同樣也不會(huì)誕生CUDA了，然后就會(huì)非常清晰看到NetDAM賦予網(wǎng)卡內(nèi)存的價(jià)值，等同于再造一個(gè)CUDA，當(dāng)然這一次nVidia不會(huì)像GPU那么幸運(yùn)，DoCA也不會(huì)那么簡(jiǎn)單的一統(tǒng)江湖，因?yàn)镽DMA本身的生態(tài)會(huì)成為他們的絆腳石。

GPU和顯存的歷史

2D時(shí)代，固定流水線，顯存更多以buffer形態(tài)提供

早期的計(jì)算機(jī)通常是以紙帶的形式提供交互。陰極射線管(Cathode Ray Tube，CRT)的發(fā)明才帶來(lái)了早期的顯示器技術(shù)

1960~1970年有了一些實(shí)驗(yàn)性質(zhì)的顯示器被發(fā)明出來(lái)，而真正的商用大概可以算到1971年的DataPoint 2200和1976年的Apple I，油管上有一段視頻[1]

可以看到這個(gè)時(shí)期的電腦還是沒(méi)有單獨(dú)的顯卡和顯存的概念的，而顯存本身的實(shí)現(xiàn)也只是一個(gè)移位寄存器的結(jié)構(gòu)。wiki上有這段歷史[2]的介紹.

真正的第一塊顯卡可能要從IBM1981年發(fā)布的PC說(shuō)起，IBM做了一款叫做Monochrome Display Adapter[3]的設(shè)備，基于ISA總線，然后內(nèi)涵一個(gè)Motorola 6845的顯示控制器和一個(gè)4kB的內(nèi)存。顯示接口還是DB9接口

然后可以通過(guò)一個(gè)硬件實(shí)現(xiàn)的碼表(Code page 437)來(lái)實(shí)現(xiàn)數(shù)字信號(hào)到像素渲染的轉(zhuǎn)換過(guò)程，這塊卡還很有趣的支持了打印機(jī)輸出的功能，可以看到當(dāng)時(shí)的I/O設(shè)計(jì)思維還是一個(gè)逐漸從紙質(zhì)介質(zhì)遷移到電子顯示的過(guò)程，只不過(guò)還是以字符為主，然后便是CRT顯示器分辨率逐漸提升，同時(shí)彩色顯像管技術(shù)的逐漸普及而帶來(lái)的I/O帶寬提升 2.png

當(dāng)然伴隨著彩色顯示器的使用，VGA接口也誕生了，三原色的各自輸出信號(hào)配合VS、HS水平、垂直掃描同步信號(hào)可以非常簡(jiǎn)單的去控制陰極射線管偏轉(zhuǎn)。而那時(shí)顯存的形態(tài)還是以Frame Buffer的形式存在的，通常前面還有一個(gè)SRAM配合DSP進(jìn)行模擬輸出轉(zhuǎn)換的器件(RAMDAC,Random Access Memory Digital-to-Analog Converter).

顯示技術(shù)的進(jìn)步也為彩色圖形化界面的操作系統(tǒng)誕生提供了必要條件，伴隨著1985年Windows 1.0系統(tǒng)的發(fā)布，1987年成立的Trident和1989年成立的S3逐漸成了2D顯卡的王者。而顯存本身也逐漸出現(xiàn)了技術(shù)的融合，從專有的雙端口DRAM結(jié)構(gòu)也逐漸的換成了同時(shí)期的內(nèi)存顆粒，例如EDO、到后期的SDRAM、DDR

3D時(shí)代，DirectX和OpenGL使得顯卡可編程了

1995年，3Dfx發(fā)布了第一塊Voodoo顯卡，算是將整個(gè)計(jì)算機(jī)圖形業(yè)帶入了3D時(shí)代：

這也是從傳統(tǒng)的Frame-Buffer Memory到了一個(gè)可以計(jì)算的像素內(nèi)存的轉(zhuǎn)變過(guò)程

軟硬件的融合也伴隨著Windows95的發(fā)布出現(xiàn)了DirectX以及后期的OpenGL這樣的2D、3D矢量圖形渲染的API接口。而那一年nVidia也發(fā)布頗為成功的Riva 128，以及后續(xù)逐漸登上王者寶座的TNT，那一年Intel也還生產(chǎn)一個(gè)叫i740的顯卡。只是一晃20多年過(guò)去了，2022年這場(chǎng)nVidia vs ATI(AMD) vs Intel的戰(zhàn)爭(zhēng)又悄然打響了。

而這個(gè)年代伴隨著更為靈活和可編程的像素著色引擎和頂點(diǎn)著色引擎，使得計(jì)算機(jī)3D圖形顯示能力快速增長(zhǎng)，新的算法也層出不窮。

但是這個(gè)階段的圖像處理還是有很明顯的pipeline的特征：

GP-GPU年代，CUDA誕生

對(duì)于傳統(tǒng)的顯存操作，下面這本書(shū)有一段講的非常清楚：

面對(duì)內(nèi)存的一致性問(wèn)題，一個(gè)架構(gòu)師必須要在這個(gè)時(shí)候針對(duì)實(shí)現(xiàn)者和用戶之間的沖突進(jìn)行最優(yōu)的權(quán)衡。而這樣的權(quán)衡便是GP-GPU的誕生。顯卡內(nèi)出現(xiàn)了相應(yīng)的指令集、ALU、Cache的架構(gòu)：

而與之對(duì)應(yīng)的CUDA也就順理成章的誕生了，潘多拉的墨盒就此打開(kāi)。

DPU及NetDAM網(wǎng)卡內(nèi)存

回顧了整個(gè)GPU和顯存的發(fā)展史，從buffer到pipeline的處理再到靈活的基于CUDA的可編程，顯存的形態(tài)也伴隨著GPU架構(gòu)的變革產(chǎn)生了很多深遠(yuǎn)的影響。再來(lái)看看DPU的場(chǎng)景，只是比顯卡可能更加復(fù)雜一些，因?yàn)镚PU的誕生和數(shù)據(jù)密集性發(fā)生在終端，例如DisplayPort的帶寬遠(yuǎn)高于現(xiàn)在很多PC的網(wǎng)絡(luò)帶寬。

而網(wǎng)絡(luò)的密集處理則最早發(fā)生于核心網(wǎng)上的網(wǎng)絡(luò)處理器(NP)，網(wǎng)絡(luò)處理器也逐漸的經(jīng)歷了前述的進(jìn)程，也曾因?yàn)镮/O密集度的問(wèn)題，采用過(guò)流水線的架構(gòu)，并且深遠(yuǎn)的影響到了現(xiàn)代。同樣也因?yàn)榱魉€架構(gòu)內(nèi)存訪問(wèn)的困難出現(xiàn)的各種多核并行計(jì)算的NP。而這些NP玩家現(xiàn)在又逐漸入局到DPU的產(chǎn)業(yè)中。

而如今這個(gè)年代和1997年的GPU很像，固定的流水線處理，網(wǎng)卡上的內(nèi)存更多的是以Buffer只讀形態(tài)交付，可編程的難題依舊存在。而RDMA和當(dāng)年的OpenGL更有幾分形似，缺少更多靈活的可編程性。DPU也亟待像GTX9800那樣使用ISA和ALU打開(kāi)整個(gè)GP-GPU潘多拉魔盒的產(chǎn)品。

渣仰望nVidia這樣的大廠，但是并不是很看得起Mellanox，RDMA會(huì)如同當(dāng)年的Glide 3D拖死3Dfx那樣給Mellanox帶來(lái)大量的麻煩，IB雖然非常賺錢但是生態(tài)并不好。有些時(shí)候生態(tài)的變革要拋棄自己的過(guò)往，平滑的走向新世界。

RDMA的API本質(zhì)上還是以內(nèi)存操作為中心，對(duì)于存內(nèi)計(jì)算等場(chǎng)景還缺少太多的支持而后續(xù)雖然有DoCA，只是笑笑而已，ARM多核這樣的RTC系統(tǒng)對(duì)于網(wǎng)絡(luò)處理還是太重了，核太大并不是好事情，很多東西并不一定需要，而Tenstorrent則干的非常干凈：

這也是我們很多年前設(shè)計(jì)Cisco QuantumFlow處理器總結(jié)的經(jīng)驗(yàn)

因此，把通用指令集引入網(wǎng)卡，在固化的pipeline和完全靈活的RTC之間尋求平衡，并且整合存內(nèi)計(jì)算的能力，例如帶有Samsung PIM-HBM的ASIC便成為DPU破局的關(guān)鍵。

NetDAM深遠(yuǎn)的意義，如同當(dāng)年的GTX8800+CUDA，或許在它出生之年你并看不懂它，因?yàn)槟氵€在RTC和Pipeline以及RDMA怎么處理的泥潭里糾纏。

但當(dāng)你看完整個(gè)GPU、顯存的發(fā)展歷程，你就會(huì)明白我說(shuō)的是對(duì)的了，唯一的選擇只是要么一起當(dāng)壓路機(jī)，要不被后人慢慢碾壓。

Reference

[1]Apple I working Demo:

https://www.youtube.com/watch?v=4l8i_xOBTPg

[2]home computers by video hardware:

https://en.wikipedia.org/wiki/List_of_home_computers_by_video_hardware

[3]IBM Monochrome DIsplay Adapter:

https://en.wikipedia.org/wiki/IBM_Monochrome_Display_Adapter

責(zé)任編輯：武曉燕來(lái)源： zartbot

DPU 網(wǎng)卡 GPU

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)