自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

年度GPU架構(gòu)回顧 顯示世界的2012

運(yùn)維 服務(wù)器運(yùn)維
開普勒與Tahiti都是雙方積蓄許久之后爆發(fā)的革新之作,都應(yīng)用了雙方最全面的新技術(shù)和各項(xiàng)突破,其中Tahiti架構(gòu)的革新不僅目的性更強(qiáng)烈而且也應(yīng)該更加行之有效,但它們?cè)谄炫灱?jí)領(lǐng)域的對(duì)決結(jié)局卻是出人意料的。

同樣屬于架構(gòu)革新的2012

過去的2012年里,無論是AMD還是NVIDIA都在圖形架構(gòu)技術(shù)層面上銳意進(jìn)取,為我們帶來了Compute Unit以及GPU Boost等等先進(jìn)的技術(shù),這些技術(shù)對(duì)于顯卡產(chǎn)品的推動(dòng)和促進(jìn)作用是顯著的。但對(duì)于我們以及整個(gè)業(yè)界來說,光有這些技術(shù)的進(jìn)步還遠(yuǎn)遠(yuǎn)不夠。

如果孤立存在,即便再優(yōu)秀再精妙的技術(shù),也無法轉(zhuǎn)變成任何對(duì)我們有益的結(jié)果。只有將這些技術(shù)系統(tǒng)的融合在一起,調(diào)整好彼此的關(guān)系并令其發(fā)揮最佳的效果,技術(shù)的進(jìn)步才能為我們帶來切實(shí)的好處。所以對(duì)技術(shù)融合在一起所形成的架構(gòu)進(jìn)行回顧,也就變得有意義了。

技術(shù)的進(jìn)步帶動(dòng)了AMD及NVIDIA在GPU架構(gòu)層面的進(jìn)步,讓2012年不僅是技術(shù)進(jìn)步年,更是GPU架構(gòu)進(jìn)步年。先后出現(xiàn)的GCN和開普勒(Kepler)體系都是雙方技術(shù)進(jìn)步的集大成者,它們成功地將雙方全部的技術(shù)進(jìn)步轉(zhuǎn)化成了產(chǎn)品性能的提升,但細(xì)化到架構(gòu)內(nèi)部,雙方的表現(xiàn)卻并不都是積極向好的。同樣的甚至是彼此一一對(duì)應(yīng)的各種先進(jìn)技術(shù)所組成的Tahiti和開普勒,最終卻并沒有一起收獲成功。

勝利者從不缺乏贊美,贊美本身對(duì)勝利者以及旁觀者都沒有任何意義。只有找到導(dǎo)致問題的本源,并從由此探究更深層次的問題,我們才能明白圖形界在過去的2012年里究竟經(jīng)歷了些什么。友站ZOL今天就帶我們一覽了2012年里出現(xiàn)在我們面前的所有圖形架構(gòu),并揭示了決定AMD/NVIDIA架構(gòu)之戰(zhàn)結(jié)局的原因。

顯示世界的2012:年度GPU架構(gòu)回顧

令人眼前一亮的Tahiti

AMD從2011年年中便曝光了全新一代的GCN(Graphic Core Next)架構(gòu)體系,其后陸續(xù)到來的Tahiti、Pitcairn以及Cape Verde均基于該體系。GCN的整個(gè)信息披露過程相當(dāng)系統(tǒng)和全面。按照AMD公布的信息,GCN將會(huì)帶來大量革命性的技術(shù)革新,幾乎將先前AMD GPU架構(gòu)的各種問題一掃而空。在這些新技術(shù)情報(bào)帶來的希望中,人們迎來了GCN的首款核心——Tahiti。

顯示世界的2012:年度GPU架構(gòu)回顧
GCN的Tahiti架構(gòu)打開了2012顯卡架構(gòu)年的大門

Tahiti是GCN體系的旗艦級(jí)核心,擁有超過43億的晶體管規(guī)模。與上代的Cayman構(gòu)架相比,其運(yùn)算資源總量提升到了2048個(gè)流處理器,紋理拾取和載入與存儲(chǔ)單元?jiǎng)t提升至恐怖的512個(gè),紋理過濾單元由Cayman的96個(gè)增加到了128個(gè),但同時(shí)構(gòu)成后端的ROP光柵單元與Cayman維持相同,均為32個(gè)。HD7970擁有全新設(shè)計(jì)的MC結(jié)構(gòu),6個(gè)64bit雙通道顯存控制器組合形成了全新的384bit顯存控制單元,HD7970也因此采用了容量達(dá)3072MB的顯存體系。

顯示世界的2012:年度GPU架構(gòu)回顧
Tahiti構(gòu)架特性

Tahiti架構(gòu)的特色由五個(gè)主要的部分組成:

1、基于HKMG的臺(tái)積電新28nm工藝。

2、包含了幾何引擎、光柵化引擎以及一級(jí)線程管理機(jī)制的前端ACE( Asynchronous Compute Engine)。

3、負(fù)責(zé)處理運(yùn)算任務(wù)及Pixel Shader的32個(gè)CU(Compute Unit)集群,包含在CU內(nèi)部負(fù)責(zé)處理材質(zhì)以及特種運(yùn)算任務(wù)如卷積、快速傅里葉變換等的Texture Array,二級(jí)線程管理機(jī)制以及與它們對(duì)應(yīng)的shared+unified cache等緩沖體系。

4、負(fù)責(zé)完成fillrate過程以及輸出最終畫面的ROP陣列,顯存控制器MC(Memory Controller)以及PCI-Express3.0總線傳輸控制端。

5、負(fù)責(zé)視頻回放及處理的UVD3.0單元,以及全新的負(fù)責(zé)視頻編碼部分的VCE。

顯示世界的2012:年度GPU架構(gòu)回顧
HD7970構(gòu)架

相對(duì)于前代的Cayman構(gòu)架,Tahiti構(gòu)架有了諸多觸及靈魂深處的改動(dòng)。它改進(jìn)了Cayman的雙前端并行體系,用更加靈活且效率更高的CU單元替代了強(qiáng)調(diào)吞吐但在效率層面顯得“笨重”的VLIW Core,首次引入完善的Unified Cache并大幅改進(jìn)了過往架構(gòu)帶有明顯缺陷的緩沖體系,進(jìn)一步強(qiáng)化了任務(wù)管理、仲裁機(jī)制以及架構(gòu)的幾何處理能力。

Tahiti所做出的一系列改進(jìn)不僅明快而且目的性強(qiáng)烈,它扭轉(zhuǎn)了AMD“以吞吐?lián)Q延遲”的錯(cuò)誤GPU架構(gòu)方向,補(bǔ)完了先前架構(gòu)的種種缺失并一掃AMD傳統(tǒng)GPU架構(gòu)笨拙且低效的痼疾,非常積極地迎合了DirectX 11對(duì)運(yùn)算靈活度和效率的要求,將整個(gè)架構(gòu)的運(yùn)算和動(dòng)作效率提升到了全新的高度,更為AMD通往通用計(jì)算等先進(jìn)應(yīng)用領(lǐng)域打下了基礎(chǔ)。

#p#

宿命,開普勒登場(chǎng)

Tahiti的革新可以說是2012年架構(gòu)革新的一劑強(qiáng)心劑,它不僅讓我們看到了希望,更對(duì)競(jìng)爭(zhēng)對(duì)手NVIDIA的新架構(gòu)充滿了期待。與Tahiti的開放和釋放信心不同,NVIDIA接替Fermi的開普勒架構(gòu)一直做足了保密工作,直到發(fā)布的一瞬間才讓整個(gè)世界為之一頓。

顯示世界的2012:年度GPU架構(gòu)回顧
性能功耗比革新巨大的開普勒

開普勒?qǐng)D形構(gòu)架擁有超過35億的晶體管規(guī)模,核心面積294平方毫米。與上代的Fermi構(gòu)架相比,其運(yùn)算資源總量提升到了1536個(gè)ALU,Texture Filter Unit由Fermi的64個(gè)增加到了128個(gè),構(gòu)成后端的ROP則下降為32個(gè)。GTX680同樣擁有全新設(shè)計(jì)的MC結(jié)構(gòu),4個(gè)64bit雙通道顯存控制器組合形成了全新的256bit顯存控制單元,GTX680也因此采用了容量達(dá)2048MB的顯存體系。

顯示世界的2012:年度GPU架構(gòu)回顧
完整的GK104架構(gòu)

GTX680的特色由六個(gè)主要的部分組成:

1、與Tahiti同樣基于HKMG的TSMC全新28nm工藝。

2、與Fermi完全相同的4XGPC宏觀并行設(shè)計(jì)。

3、8個(gè)包含了幾何引擎、光柵化引擎以及線程仲裁管理機(jī)制的SMX單元。每個(gè)SMX單元包含一組改進(jìn)型的負(fù)責(zé)出力幾何任務(wù)需求的PolyMorph Engine,192個(gè)負(fù)責(zé)處理運(yùn)算任務(wù)及Pixel Shader的ALU,16個(gè)負(fù)責(zé)處理材質(zhì)以及特種運(yùn)算任務(wù)如卷積、快速傅里葉變換等的Texture Array,二級(jí)線程管理機(jī)制以及與它們對(duì)應(yīng)的shared+unified cache等緩沖體系。

4、負(fù)責(zé)完成fillrate過程以及輸出最終畫面的32個(gè)ROP單元陣列,以及對(duì)應(yīng)L2 cache的4個(gè)64bit顯存控制器MC(Memory Controller),負(fù)責(zé)視頻回放及處理的PureVideo HD單元,以及全新的負(fù)責(zé)視頻編碼部分的NVENC。

5、根據(jù)功耗以及用戶自定義負(fù)載需求實(shí)時(shí)調(diào)節(jié)GPU的GPU Boost功能,全新的TXAA以及抑制畫面撕裂和頓挫的Adaptive VSync主動(dòng)垂直同步技術(shù)。

顯示世界的2012:年度GPU架構(gòu)回顧
開普勒架構(gòu)GK104芯片核心照片

開普勒構(gòu)架與Fermi構(gòu)架在宏觀層面上非常接近,其改進(jìn)主要集中在微觀結(jié)構(gòu)層面,它使用了全新的SMX單元來替代傳統(tǒng)ALU團(tuán)簇結(jié)構(gòu),棄用了沿用數(shù)年的ALU分頻機(jī)制,進(jìn)一步改進(jìn)了包括Cache/shared以及寄存器在內(nèi)的緩沖體系,調(diào)整了線程仲裁機(jī)制并引入了全新的scheduling過程,為今后的架構(gòu)發(fā)展做出了鋪墊,引入了開創(chuàng)性的功耗性能管理機(jī)制,同時(shí)還強(qiáng)化了單卡多屏輸出等功能性環(huán)節(jié)。

Tahiti與開普勒在宏觀和微觀結(jié)構(gòu)對(duì)比中互有異同,Tahiti可以被看做是一個(gè)不同于AMD既往產(chǎn)品的,對(duì)稱并行分布、core部分神似larrabee而uncore部分接近Fermi的全新結(jié)構(gòu),開普勒則可以被看做是一個(gè)4GPC并行,內(nèi)部結(jié)構(gòu)大幅調(diào)整優(yōu)化的同時(shí)保留了之前產(chǎn)品優(yōu)勢(shì)的作品。Tahiti架構(gòu)在維持吞吐的同時(shí)轉(zhuǎn)向強(qiáng)調(diào)靈活性并進(jìn)行了針對(duì)改進(jìn),而開普勒則在維持靈活性的前提下做出了平衡性能與功耗的努力。兩者都在向著中線,也就是最佳的性能功耗比去靠攏。

#p#

AMD的致命傷——寄存器

開普勒與Tahiti都是雙方積蓄許久之后爆發(fā)的革新之作,都應(yīng)用了雙方最全面的新技術(shù)和各項(xiàng)突破,其中Tahiti架構(gòu)的革新不僅目的性更強(qiáng)烈而且也應(yīng)該更加行之有效,但它們?cè)谄炫灱?jí)領(lǐng)域的對(duì)決結(jié)局卻是出人意料的。盡管提前發(fā)布了73天,同時(shí)兼顧了大量革新且具有糾偏意義的理念和技術(shù),但基于Tahiti的HD7900系列依舊在性能、功耗和成本等所有環(huán)節(jié)全部落敗。大核心在功耗和成本層面輸給小核心尚屬正常,但在此基礎(chǔ)上還在性能對(duì)決中輸給小核心,這在GPU發(fā)展史上是非常罕見的——即便是功耗和成本令人詬病的GF100,起碼也在性能和DirectX 11效率層面保住了面子。

是什么讓Tahiti對(duì)各項(xiàng)先進(jìn)技術(shù)的整合出現(xiàn)了狀況并輸?shù)袅烁?jìng)爭(zhēng)呢?這個(gè)問題對(duì)我們來說既熟悉又陌生——讓Tahiti陷入這樣境地的根本,來自其架構(gòu)內(nèi)部的寄存器設(shè)計(jì),而且早在一年半以前的GCN情報(bào)分析中,我們就已經(jīng)對(duì)寄存器的隱患提出了預(yù)警。


 

顯示世界的2012:年度GPU架構(gòu)回顧
寄存器在處理器中的地位

作為最重要的緩沖單元,寄存器需要面對(duì)來自線程(Thread)和數(shù)據(jù)的緩沖需求。如果設(shè)計(jì)者缺乏寄存器的使用和管理經(jīng)驗(yàn),寄存器對(duì)于每個(gè)線程的復(fù)用率較低,或者說每個(gè)線程在特定時(shí)間片段內(nèi)可以占用的寄存器數(shù)量不足,要滿足大并行度Thread的性能需求就必須通過增大寄存器總量的手段來完成。在此基礎(chǔ)上,雙精度數(shù)據(jù)通常需要組合單精度寄存器來完成緩沖需求,因此雙精度數(shù)據(jù)對(duì)寄存器的需求量要來的更大,如果此時(shí)寄存器復(fù)用狀況不佳,要保證線程充分并行和DP運(yùn)算的性能需求,唯一的做法就只有進(jìn)一步加大寄存器總量一途而已了。

為方便理解,我們將寄存器數(shù)量折合成3項(xiàng)指標(biāo),分別是Reg per Thread(每線程寄存器數(shù)量),Reg per ALU(每ALU寄存器均攤數(shù)量)和DP Reg(雙精度寄存器)。Reg per Thread越高,架構(gòu)就能以越少的寄存器總量來滿足盡可能多的線程并行處理需求,進(jìn)而在等量寄存器的前提下騰出更多的空間給提升DP性能做準(zhǔn)備。Reg per Thread越低,架構(gòu)就需要以更多地寄存器總量來滿足并行處理需求。寄存器的整體需求量可以被不嚴(yán)謹(jǐn)?shù)?jiǎn)單的量化成Reg per ALU數(shù)值,一個(gè)架構(gòu)的Reg per Thread越低,它實(shí)現(xiàn)更高線程并行度和DP性能所需要的Reg總量就越高,攤到每一個(gè)ALU身上的Reg per ALU數(shù)值也就越高。

顯示世界的2012:年度GPU架構(gòu)回顧
包含緩沖體系的CU單元內(nèi)部結(jié)構(gòu)

好了,現(xiàn)在我們來到了問題的關(guān)鍵環(huán)節(jié)。根據(jù)AMD和NVIDIA公布的數(shù)據(jù),Tahiti架構(gòu)擁有總計(jì)8192KB的32bit Vector Reg,在不考慮Scalar Reg等其他特殊需求寄存器的前提下,其Reg per ALU為4KB,它可以實(shí)現(xiàn)1/4速的DP性能。而開普勒架構(gòu)的Reg per ALU數(shù)量則為1.33KB,NVIDIA可以以這一數(shù)值的實(shí)現(xiàn)1/3速的DP性能(GK110)。另外作為參考,F(xiàn)ermi的這一數(shù)值為4KB per ALU/半速DP。

4KB per ALU的Tahiti和1.33KB per ALU的開普勒,這樣的數(shù)據(jù)意味著什么事呢?我們來算一筆通俗的帳——1個(gè)最基本的1bit sram單元需要6個(gè)晶體管來實(shí)現(xiàn),更高的頻率以及更低的延遲會(huì)讓單元的晶體管數(shù)量進(jìn)一步增加,我們并不清楚AMD和NVIDIA目前所處的頻率水平需要多少晶體管來實(shí)現(xiàn)1bit的寄存器,但即便忽略一切其他相關(guān)單元,單純考慮純sram部分并用最保守的6晶體管方案來計(jì)算,4KB per ALU意味著Tahiti架構(gòu)每個(gè)ALU均攤的寄存器晶體管數(shù)為786432個(gè)(6*32*1024*4),而NVIDIA每個(gè)ALU均攤的寄存器所占用的晶體管數(shù)則僅為261489個(gè)(6*32*1024*1.33)。

顯示世界的2012:年度GPU架構(gòu)回顧
SMX單元中的寄存器數(shù)量

對(duì)于每一個(gè)ALU及其周邊資源來說,Tahiti需要比開普勒多付出最少超過50萬個(gè)晶體管的代價(jià),而Tahiti架構(gòu)總計(jì)擁有2048個(gè)Vector ALU,換句話說,就是即便以最保守的方式來計(jì)算,AMD在Tahiti架構(gòu)中為寄存器所多付出的晶體管代價(jià)也在10億以上。如果AMD進(jìn)一步擴(kuò)大Tahiti架構(gòu)的Vector ALU規(guī)模,或者在寄存器單元中使用的是可以應(yīng)對(duì)更高頻率的7晶體管甚至8晶體管方案,這一數(shù)值還將繼續(xù)擴(kuò)大。

而Tahiti架構(gòu),一共只有4.3個(gè)“10億晶體管”。

顯示世界的2012:年度GPU架構(gòu)回顧
Intel 45nm工藝下的6T sram單元

并未超越對(duì)手的計(jì)算特征和效率、比競(jìng)爭(zhēng)對(duì)手高的Reg per ALU還有更大的DP衰減幅度,這些現(xiàn)象都反映了AMD在寄存器使用策略和算法上的存在的差距,它表明AMD無法完全解決諸如Reg pool以及rename之類許多環(huán)節(jié)的問題,所以只能以極大的寄存器總量來同時(shí)滿足Thread性能/DP性能的需求,而這種解決方案恰恰是最致命的。單純?cè)黾右?guī)模不僅低效,而且增加出來的晶體管并不會(huì)直接產(chǎn)生任何Flops或者圖形性能。想要提升DP性能和Thread性能,AMD必須在擴(kuò)充運(yùn)算單元規(guī)模的同時(shí)付出比對(duì)手更多的寄存器晶體管代價(jià),而對(duì)寄存器的過量使用不僅造成了Tahiti架構(gòu)更容易受到D線的壓迫,讓功耗控制變得更加困難,還引發(fā)了一系列多米諾骨牌效應(yīng)并挫傷了其在圖形領(lǐng)域的表現(xiàn)。

#p#

多米諾骨牌

整體而言,一顆芯片在特定工藝下的規(guī)模是存在上限的,制造者不可能無限制的放大芯片的規(guī)模。而上限的存在又意味著兩個(gè)截然不同的結(jié)局,你可以用更小的規(guī)模換取更好的可制造性,或者在觸及上限時(shí)面對(duì)晶體管使用方向的平衡問題。AMD面臨的由寄存器導(dǎo)致的多米諾骨牌效應(yīng),就是后者作用的結(jié)果。

其實(shí)這說起來很簡(jiǎn)單——Tahiti為寄存器付出了10億甚至更多的晶體管代價(jià),這些晶體管讓它更快的達(dá)到了芯片規(guī)模的上限。如果沒有這層負(fù)擔(dān),Tahiti本來可以獲得更小的芯片面積以及更好的功耗表現(xiàn),或者用這些晶體管來制造更多“針對(duì)圖形”的單元來獲得更好的圖形性能。它可以被塑造成一個(gè)與開普勒架構(gòu)的GK104規(guī)模相當(dāng),功耗表現(xiàn)比現(xiàn)在更加優(yōu)秀的產(chǎn)品,或者可以用這10億晶體管來強(qiáng)化并行度設(shè)計(jì),也繼續(xù)補(bǔ)足曲面細(xì)分性能,還能增加ALU、Tex或者M(jìn)C/ROP的規(guī)模等等,對(duì)于10億個(gè)晶體管來說,有太多美好的可能可供Tahiti去選擇了。


 

顯示世界的2012:年度GPU架構(gòu)回顧
Tahiti構(gòu)架CU結(jié)構(gòu)細(xì)節(jié)

但是現(xiàn)在,由于寄存器使用策略和算法的問題,AMD不得不背負(fù)這10億晶體管的負(fù)擔(dān)。少了這10億晶體管,以上那些美好的可能全都無法實(shí)現(xiàn),Tahiti架構(gòu)不得不止步于當(dāng)前的規(guī)模,各項(xiàng)針對(duì)過去積累架構(gòu)錯(cuò)誤的先進(jìn)技術(shù)改進(jìn)都沒有進(jìn)行徹底,傳統(tǒng)圖形領(lǐng)域相對(duì)強(qiáng)勢(shì)的后端優(yōu)勢(shì)得不到發(fā)揮,而且還要因此而承受規(guī)模釋放困難,功耗難以控制等各種各樣的問題。無論技術(shù)改進(jìn)和愿景多美好,沒有晶體管可用,一切都是空談。所以由寄存器引發(fā)的一個(gè)又一個(gè)不利的因素像多米諾骨牌那樣倒下,最終造就了Tahiti“什么改進(jìn)和技術(shù)革新都好就是效果不好”的結(jié)局。

顯示世界的2012:年度GPU架構(gòu)回顧
Tahiti架構(gòu)與開普勒架構(gòu)在實(shí)際游戲測(cè)試中的功耗對(duì)比

而沒有這層負(fù)擔(dān)的開普勒,則利用這份優(yōu)勢(shì)強(qiáng)化了并行化結(jié)構(gòu)、曲面細(xì)分以及各種各樣的圖形相關(guān)部分,并在突出圖形性能和運(yùn)算性能平衡的同時(shí)依舊維持了比Tahiti少8億的晶體管規(guī)模。其所要經(jīng)歷的事情也就非常簡(jiǎn)單直接了——性能和效率高于Tahiti,芯片面積小于Tahiti,功耗低于Tahiti……

不光開普勒,即便是在GCN陣營內(nèi)部,同樣也存在著Tahiti的對(duì)立面,那就是面向甜品級(jí)的Pitcairn架構(gòu)。

#p#

甜品級(jí)首發(fā),Pitcairn

Pitcairn構(gòu)架與Tahiti以及Cape Verde同屬GCN體系,它擁有212平方毫米的尺寸和28億晶體管的總規(guī)模。定位于旗艦及中端之間的Pitcairn擁有更加合適的規(guī)模及芯片面積,同時(shí)具備了Tahiti架構(gòu)的絕大多數(shù)技術(shù)革新。


 

顯示世界的2012:年度GPU架構(gòu)回顧
基于Pitcairn架構(gòu)的HD7870規(guī)格

Pitcairn擁有20組結(jié)構(gòu)上同Tahiti相同的CU單元,每組CU單元擁有4個(gè)SIMD Core,每組SIMD Core包含16個(gè)Vector ALU,因此其運(yùn)算資源總規(guī)模為1280個(gè)Vector ALU。除了Vector ALU之外,每組CU單元還包含4個(gè)Texture Filter Unit和16個(gè)Texture Fetch Load/Store Unit,因此Pitcairn擁有80組Texture Arroy。后端方面,Pitcairn的ROP陣列規(guī)模與Tahiti相同,均為32個(gè),而顯存部分則由4個(gè)64bit MC進(jìn)行管理,構(gòu)成256bit的顯存位寬。不難看出,HD7870的規(guī)格是旗艦級(jí)的HD7970的62.5%,同時(shí)剛好是Cape Verde的整整一倍。

顯示世界的2012:年度GPU架構(gòu)回顧
游戲玩家是HD7800的目標(biāo)用戶

由于同屬GCN體系,Pitcairn的宏觀結(jié)構(gòu)同Tahiti保持了一致,但由于雙ACE的宏觀對(duì)稱格局下轄了比Tahiti更少的運(yùn)算資源,后端的比例也因此而燈下的獲得了放大,這些要素配合高頻讓Pitcairn獲得了相當(dāng)不錯(cuò)的架構(gòu)效率和性能。在此基礎(chǔ)上,Pitcairn的成本控制和功耗表現(xiàn)較之Tahiti也有了更大的提升,無論板卡物料成本還是芯片良率,Pitcairn都具備成為AMD盈利重點(diǎn)的資質(zhì)。以甜品級(jí)架構(gòu)而言,Pitcairn的結(jié)構(gòu)和性能/功能表現(xiàn)全面完善,是一款相當(dāng)合格的架構(gòu)。

削減后的開普勒,GK106

由于NVIDIA在2012年中將產(chǎn)品線的常規(guī)架構(gòu)總量從4個(gè)變更到了3個(gè),對(duì)抗Pitcairn也就變成了GK104和GK106共同完成的任務(wù)。基于開普勒?qǐng)D形構(gòu)架的GK106核心擁有221平方毫米的芯片面積。與完整規(guī)格的GK104相比,GK106運(yùn)算資源總量從1536個(gè)ALU下降到了960個(gè),Texture Filter Unit由128個(gè)減少到了80個(gè),構(gòu)成后端的ROP為原生24個(gè)。與ROP相對(duì)應(yīng)的,GK106的MC結(jié)構(gòu)也變成了3個(gè)64bit雙通道顯存控制器,顯存位寬192bit。GK106擁有2048/3096MB兩種顯存容量搭配方案,其中2048MB采用了非對(duì)稱顯存布局體系。

顯示世界的2012:年度GPU架構(gòu)回顧
NVIDIA公布的GK106架構(gòu)

GK106架構(gòu)具備5組SMX單元,分別居于3個(gè)GPC中來組成并行結(jié)構(gòu)。3 GPC的傳統(tǒng)結(jié)構(gòu)讓它具備了3套前端以及光柵化處理部分,其單周期的幾何輸出以及光柵化能力為同頻旗艦級(jí)架構(gòu)的75%。更好的幾何性能、更低的時(shí)間成本以及研發(fā)成本是它的優(yōu)勢(shì)。GK106架構(gòu)讓NVIDIA在下位甜品級(jí)以及上位中端產(chǎn)品區(qū)間里擁有了更好的產(chǎn)品可操作性,同時(shí)在面積和成本空間層面獲得了較好的平衡。

顯示世界的2012:年度GPU架構(gòu)回顧
我們預(yù)期中的完整GK106架構(gòu)

GK106可以被看做是削減一組GPC之后“再砍一刀”的開普勒。除了規(guī)模之外,它的各種結(jié)構(gòu)細(xì)部特征均與開普勒架構(gòu)保持一致。與微觀結(jié)構(gòu)進(jìn)行了一定調(diào)整的GCN系列架構(gòu)不同,開普勒系列架構(gòu)保持了高度的一致性,它們之間僅有的規(guī)模差異表現(xiàn)出了高度的模塊化特征,我們甚至可以從一款架構(gòu)的表現(xiàn)以及特定的規(guī)模限定規(guī)則來推定出其他所有開普勒架構(gòu)產(chǎn)品的大致性能。只要規(guī)則合理,開普勒系列架構(gòu)的性能控制會(huì)更加容易且具有規(guī)律性。

與之相對(duì)應(yīng)的,GCN架構(gòu)內(nèi)部的表現(xiàn)就要相對(duì)差一些,Pitcairn在宏觀結(jié)構(gòu)上雖然保持了與Tahiti的一致,但它的微觀結(jié)構(gòu)卻存在著與Tahiti架構(gòu)的不同,而Pitcairn較之Tahiti更加優(yōu)秀的綜合表現(xiàn),正是這一不同所導(dǎo)致的。

#p#

為什么甜品架構(gòu)更“健康”?

相對(duì)于Tahiti高達(dá)43億晶體管的規(guī)模以及365平方毫米的核心面積,僅有28億晶體管規(guī)模和212平方毫米的Pitcairn要小上很多。但Pitcairn頂級(jí)產(chǎn)品HD7870的絕對(duì)性能,卻并未因此而落后Tahiti的次級(jí)旗艦產(chǎn)品HD7950很多,它與GK104/GK106架構(gòu)的NVIDIA甜品級(jí)產(chǎn)品在性能層面上的競(jìng)爭(zhēng)也并未落得下風(fēng),我們完全可以講Pitcairn看做是與GK106乃至整個(gè)開普勒架構(gòu)表現(xiàn)相當(dāng)?shù)募軜?gòu),其性能功耗比更是超越了整個(gè)Tahiti架構(gòu)。無論從何種角度來講,Pitcairn都要比Tahiti“健康”很多。是什么讓同屬GCN架構(gòu),采用幾乎完全相同技術(shù)的兩款架構(gòu)表現(xiàn)出了迥異的結(jié)果呢?

答案還是萬惡的源頭——寄存器。


 

顯示世界的2012:年度GPU架構(gòu)回顧
HD7870滿載功耗相當(dāng)“正常”

Pitcairn的定位在游戲級(jí)的甜品市場(chǎng),它不需要承擔(dān)旗艦級(jí)架構(gòu)探索和收集經(jīng)驗(yàn)的負(fù)擔(dān),只需要利用現(xiàn)有技術(shù)更加合理的打造產(chǎn)品即可。所以Pitcairn的雙精度浮點(diǎn)運(yùn)算能力僅有單精度浮點(diǎn)運(yùn)算能力的1/16,更低的DP性能目標(biāo)讓它卸下了沉重的寄存器負(fù)擔(dān),進(jìn)而也就避免了每個(gè)ALU多50萬晶體管的窘境。

利用這部分晶體管所換來的空間,Pitcairn維持了與Tahiti接近的后端規(guī)模,這種等效放大后端/ALU比例的做法強(qiáng)化了Pitcairn在“純圖形”層面的表現(xiàn),而更少的晶體管總量又讓Pitcairn更加遠(yuǎn)離D線,這使它獲得了更好控制的功耗以及挑戰(zhàn)更高頻率的機(jī)會(huì),規(guī)模和高頻率的交替作用進(jìn)一步增加了Pitcairn的圖形以及綜合表現(xiàn)的得分。我們完全可以把Pitcairn看作是AMD版本的開普勒,它不僅在甜品級(jí)架構(gòu)之戰(zhàn)中為AMD守住了陣地,更為我們展現(xiàn)了如果Tahiti沒有遇到問題時(shí)所可能的表現(xiàn)。

顯示世界的2012:年度GPU架構(gòu)回顧
Pitcairn特性一覽

以GPU這種簡(jiǎn)單單元大規(guī)模并行的邏輯結(jié)構(gòu)而言,決定性能的根本要素其實(shí)就是并行度和緩沖機(jī)制。大家的ALU結(jié)構(gòu),尤其是進(jìn)入到Tahiti/開普勒時(shí)代之后的ALU結(jié)構(gòu)和能力基本上都是相當(dāng)?shù)模l能為ALU提供更好的緩沖并讓其獲得更高的復(fù)用率,誰就能獲得更好的效率。Tahiti和Pitcairn同屬GCN,在結(jié)構(gòu)和技術(shù)應(yīng)用上基本相當(dāng),唯一造成兩者不同命運(yùn)的重要誘因就是寄存器層面的差異。另外,歷史上并不是沒有出現(xiàn)過因?yàn)榧拇嫫鲗?dǎo)致的悲劇,名留GPU展史冊(cè)的NV3X就結(jié)結(jié)實(shí)實(shí)的栽在了寄存器使用經(jīng)驗(yàn)不足上。命運(yùn)在10年后的今天只是改改演員和臺(tái)詞,就把一幕內(nèi)容相同的悲喜劇本拿來再一次的重演,這不能不讓我們唏噓。

 #p#

最小GCN——Cape Verde

Cape Verde構(gòu)架是整個(gè)GCN體系中最小的成員,它的使用了GCN架構(gòu)的幾乎全部成熟技術(shù),同時(shí)對(duì)這些技術(shù)進(jìn)行了更加有效和合理的組合。它擁有123平方毫米的芯片面積,晶體管數(shù)為15億,這一規(guī)模僅為Pitcairn的一半和Tahiti的三分之一。


 

顯示世界的2012:年度GPU架構(gòu)回顧
Cape Verde構(gòu)架定位

Cape Verde擁有8~10組CU單元,合計(jì)512~640個(gè)向量ALU。由于與CU單元綁定這一特性,Cape Verde擁有了32~40個(gè)TA/TMU單元。作為一款中端顯卡,其后端由4組ROP單元組成,每組擁有4個(gè)ROP單元,合計(jì)可以在一個(gè)周期內(nèi)完成16個(gè)光柵化操作。顯存控制器方面則由2個(gè)64bit MC構(gòu)成128bit顯存總線,每個(gè)MC對(duì)應(yīng)256K的L2 Cache,這個(gè)數(shù)值是旗艦級(jí)的HD7900系列的2倍。

顯示世界的2012:年度GPU架構(gòu)回顧
Cape Verde構(gòu)架

上述這些特性,讓Cape Verde擁有了Tahiti這一AMD當(dāng)前旗艦級(jí)構(gòu)架31%的ALU規(guī)模,50%的ROP規(guī)模,66%的L2 cache規(guī)模以及27%的顯存帶寬資源。按照AMD的說法,在1920X1080分辨率下Cape Verde的性能是優(yōu)秀的,更高的分辨率和更大的AA設(shè)置會(huì)導(dǎo)致更多地性能下降,但作為一款中檔顯卡來說,這種下降是可以接受的。

Cape Verde的微觀結(jié)構(gòu)較之Pitcairn和Tahiti有了進(jìn)一步的調(diào)整,它的宏觀并行度異于其他GCN體系的架構(gòu)。與Pitcairn一樣,Cape Verde同樣沒有Tahiti的寄存器晶體管壓力,所以可以有更寬裕的空間來強(qiáng)化其他部件,因此我們?cè)贑ape Verde上看到了更大的cache體系,這種調(diào)整為它帶來了好于Pitcairn的效率表現(xiàn),并最終讓其成了性能功耗比表現(xiàn)最好的GCN體系架構(gòu)成員。

市場(chǎng)化運(yùn)作的GK107

相較于GK106,GK107要來得更加“單純”一些。這款118平方毫米的芯片同GK106一樣維持了開普勒高度的統(tǒng)一性,甚至其細(xì)分出來的GeForce GTX 650和GeForce GT 640兩款產(chǎn)品的核心結(jié)構(gòu)都是一致的,惟一的區(qū)別僅在于使用的顯存顆粒的速度不同。


 

顯示世界的2012:年度GPU架構(gòu)回顧
GK107架構(gòu)

GK107擁有一組完整的GPC結(jié)構(gòu),內(nèi)含2個(gè)SMX單元。它的實(shí)際規(guī)模是旗艦級(jí)的GK104的1/4,這種標(biāo)本型的特征讓GK107有了很高的參考價(jià)值,我們可以將GK107芯片的邏輯運(yùn)算部分直接看做是GK100時(shí)代開普勒架構(gòu)最基本的組成部分。

顯示世界的2012:年度GPU架構(gòu)回顧
GeForce GTX 650規(guī)格一覽

由于這種特性,GK107架構(gòu)擁有了一套完整的前端以及光柵化處理部分,其單周期的幾何輸出以及光柵化能力為同頻GK104架構(gòu)的25%,或者同頻GK106架構(gòu)的三分之一。同時(shí),與之搭配的顯存控制器陣列擴(kuò)展到了2個(gè),GK107由此具備了128bit的顯存位寬。除此之外,GK107的其他特性均可以和GK106一樣參考整個(gè)開普勒家族的傳統(tǒng)。

#p#

中低端的非技術(shù)戰(zhàn)爭(zhēng)

如果說旗艦級(jí)架構(gòu)是技術(shù)之戰(zhàn),甜品級(jí)架構(gòu)是技術(shù)之戰(zhàn)面向市場(chǎng)方向的延續(xù),那么中端和中低端架構(gòu)的競(jìng)爭(zhēng)更多地就是市場(chǎng)層面的戰(zhàn)爭(zhēng)了。無論GK107還是Cape Verde,它們都是市場(chǎng)化味道濃郁的架構(gòu)。

顯示世界的2012:年度GPU架構(gòu)回顧
強(qiáng)調(diào)特性而非絕對(duì)性能是Cape Verde的特征

中端及中低端市場(chǎng)并不是游戲發(fā)燒友集中的領(lǐng)域,這一領(lǐng)域的市場(chǎng)需求會(huì)更多地考慮性能功耗比和應(yīng)用的多樣化。誰能以更低的功耗和售價(jià)來提供更豐富全面的特性,讓解決方案變得性價(jià)比十足,誰就能夠取得這一領(lǐng)域的勝利。至于性能,雖然同樣是不能缺少的要素,但相對(duì)于性價(jià)比和全面表現(xiàn)而言,它只能算是錦上添花而不是雪中送炭的存在。這些要素,都在GK107和Cape Verde身上獲得了體現(xiàn)。

顯示世界的2012:年度GPU架構(gòu)回顧
GeForce GT640圖形核心

顯示世界的2012:年度GPU架構(gòu)回顧
GeForce GTX650圖形核心

相比于GK104和Tahiti,GK107以及Cape Verde都是經(jīng)過深度的規(guī)模限制。它們保留了30%左右的旗艦級(jí)架構(gòu)規(guī)模,并按照各自對(duì)市場(chǎng)的理解進(jìn)行了進(jìn)一步的特性和性能控制。Cape Verde的方式是架構(gòu)內(nèi)部繼續(xù)限制規(guī)模并降低頻率,而GK107則使用了GDDR5和SDDR3的帶寬差異。性能并不是它們的主要追求,如何限制性能并細(xì)分市場(chǎng)才是它們的目標(biāo)。這兩款架構(gòu)的實(shí)際表現(xiàn),更多地是在考驗(yàn)AMD和NVIDIA對(duì)市場(chǎng)需求的理解、把握以及操作等運(yùn)作實(shí)力,是“軟實(shí)力”的體現(xiàn)。

架構(gòu)的對(duì)錯(cuò)究竟是誰的對(duì)錯(cuò)?

好的技術(shù)并沒有帶來一起向好的產(chǎn)品表現(xiàn),這促使我們開始探尋更深層次的架構(gòu)影響并尋找答案。在回顧了2012年全年的圖形架構(gòu)之后,我們找到了影響Tahiti以及整個(gè)AMD架構(gòu)線表現(xiàn)的問題所在,同時(shí)也產(chǎn)生了更多問題和思考——架構(gòu)左右了技術(shù)的命運(yùn),那又是什么左右了架構(gòu)甚至是整個(gè)業(yè)界的命運(yùn)呢?

Tahiti背負(fù)了寄存器的負(fù)擔(dān),這負(fù)擔(dān)甚至掩蓋了其諸多精彩的革新和種種努力,那是誰給了Tahiti寄存器的負(fù)擔(dān)?為什么Tahiti要去背負(fù)這樣的負(fù)擔(dān)?為什么是現(xiàn)在?我們?yōu)槭裁捶Q其為“AMD的致命傷”而不是“Tahiti的致命傷”?這負(fù)擔(dān)對(duì)今后的AMD圖形架構(gòu)發(fā)展有什么影響?解藥又在哪里?為什么開普勒不用面對(duì)同樣的問題?


 

顯示世界的2012:年度GPU架構(gòu)回顧
誰阻止了承諾向現(xiàn)實(shí)的轉(zhuǎn)變?

Pitcairn和Cape Verde比Tahiti表現(xiàn)的都要健康許多,在與同級(jí)別開普勒的競(jìng)爭(zhēng)中也未表現(xiàn)出劣勢(shì),但為什么Pitcairn和Cape Verde并沒有因此而熱賣,并未AMD帶來更好的市占率表現(xiàn)以及盈利狀況?我們提到的非技術(shù)戰(zhàn)爭(zhēng)的戰(zhàn)場(chǎng)上究竟發(fā)生了些什么呢?

開普勒架構(gòu)的表現(xiàn)在本輪架構(gòu)競(jìng)爭(zhēng)中可以被判定為優(yōu)秀,但截至到目前為止,開普勒架構(gòu)產(chǎn)品的市場(chǎng)表現(xiàn)卻更多的集中在了旗艦和上位甜品級(jí)。中端及以下的GK106+GK107并沒有在第一時(shí)間表現(xiàn)出應(yīng)有的爆發(fā)態(tài)勢(shì),是什么妨礙了它們甚至整個(gè)中端及以下市場(chǎng)的需求?

顯示世界的2012:年度GPU架構(gòu)回顧
開普勒的旗艦級(jí)產(chǎn)品市場(chǎng)反響更強(qiáng)烈

整個(gè)2012年的GPU架構(gòu)演進(jìn)雖然精彩,其中不乏各種先進(jìn)技術(shù)以及性能的明顯提升,但整個(gè)圖形業(yè)界似乎并沒有受到對(duì)等的刺激并泛出波瀾。我們沒有看到更好的或者令我們眼前一亮的游戲和應(yīng)用,沒有看到圖形以及DIY業(yè)界復(fù)蘇的跡象,甚至看不到平板及智能手機(jī)以外的東西,這又是為什么呢?

其實(shí),這些問題的答案就在AMD/NVIDIA兩間公司的特征以及我們自身。這一年圖形世界中發(fā)生的一切都不是孤立存在的事件,它們是一系列綿延數(shù)年,包含了技術(shù)、理念、選擇、運(yùn)作以及執(zhí)行能力等等要素的,甚至是影響了整個(gè)業(yè)界前進(jìn)腳步的漫長(zhǎng)過程的結(jié)局。我們將會(huì)在下周為您帶來《顯示世界的2012終篇》,上面這些問題的答案,圖形界乃至DIY界過往的各種精彩以及未來的命運(yùn),還有我們使用兩周時(shí)間進(jìn)行漫長(zhǎng)技術(shù)和架構(gòu)介紹準(zhǔn)備的目的,都將在下周揭曉。敬請(qǐng)期待吧。

責(zé)任編輯:路途 來源: zol
相關(guān)推薦

2016-01-15 15:55:56

ClouderaSparkHadoop

2012-11-22 16:20:25

2013-01-04 10:10:14

2024-01-29 08:09:21

ApacheLTS版本

2013-01-29 09:43:33

JavaJVMJava社區(qū)

2009-06-25 13:03:14

Eclipse年度版

2020-12-31 17:37:39

APT攻擊惡意軟件網(wǎng)絡(luò)攻擊

2012-10-29 11:10:50

Windows

2010-01-05 11:08:28

2012-07-03 14:18:25

大數(shù)據(jù)

2021-02-10 11:02:25

郵件安全網(wǎng)絡(luò)釣魚電子郵件

2012-07-12 14:33:34

2017-02-28 15:08:08

架構(gòu)微服務(wù)數(shù)據(jù)庫

2013-01-14 10:23:32

2022-05-31 11:08:33

技術(shù)盛會(huì)

2012-12-25 10:37:50

jQueryJavaScript前端

2012-10-28 19:20:54

2012-01-15 20:46:25

CES 2012解語花12306

2012-11-09 15:58:58

專注軟件、架構(gòu)設(shè)計(jì)的【2012年度IT博客

2024-12-26 00:23:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)