亞馬遜云科技:全面底層技術(shù)創(chuàng)新,持續(xù)優(yōu)化云服務(wù)性?xún)r(jià)比
原創(chuàng)以往我們說(shuō),云計(jì)算顛覆性地改變了人類(lèi)的生活和工作方式?,F(xiàn)在,人們對(duì)于云計(jì)算性?xún)r(jià)比的追求越來(lái)越高。
企業(yè)用戶(hù)希望通過(guò)云來(lái)獲得更強(qiáng)的數(shù)據(jù)處理能力、更快的響應(yīng)速度和更低的成本,且不增加能耗。如何實(shí)現(xiàn)“高性能、高安全性和低成本”一個(gè)都不能少呢?作為連續(xù)11年在云基礎(chǔ)設(shè)施和平臺(tái)服務(wù)Gartner魔力象限 (CIPS) 被評(píng)為領(lǐng)導(dǎo)者的廠(chǎng)商,亞馬遜云科技的看法是:芯片創(chuàng)新是最底層的創(chuàng)新,是最具顛覆性的創(chuàng)新,也是改變?cè)朴?jì)算游戲規(guī)則的能力。
亞馬遜全球副總裁、亞馬遜云科技大中華區(qū)執(zhí)行董事張文翊曾表示,云計(jì)算技術(shù)和服務(wù)的實(shí)際效果,主要基于底層的性能。發(fā)生在底層的創(chuàng)新,往往是最具顛覆性的。系統(tǒng)架構(gòu)和芯片這種底層的創(chuàng)新升級(jí),不僅能讓客戶(hù)的云體驗(yàn)有質(zhì)的躍升,還能改變傳統(tǒng)IT行業(yè)的游戲規(guī)則。
第五代虛擬化芯片Nitro
首先,云服務(wù)的計(jì)算資源如何才能更好地滿(mǎn)足用戶(hù)的工作負(fù)載要求,讓用戶(hù)不必?fù)?dān)心云計(jì)算資源底層的網(wǎng)絡(luò)、存儲(chǔ)和安全控制的復(fù)雜性?Amazon Nitro就是亞馬遜云科技給出的最佳答案。
從2017年起,為了讓用戶(hù)的應(yīng)用能夠獲得更佳的性能表現(xiàn),亞馬遜云科技自研了Amazon Nitro 系統(tǒng),將計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等傳統(tǒng)負(fù)載Offload到專(zhuān)屬硬件層面,大幅提升虛擬化及客戶(hù)實(shí)例的性能。Nitro系統(tǒng)全面提升EC2實(shí)例的安全表現(xiàn),并能更好地提升計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)的性能。Nitro系統(tǒng)還支持裸金屬EC2實(shí)例,能夠讓所有的服務(wù)器資源都充分調(diào)用到客戶(hù)的負(fù)載上去。
在日前召開(kāi)的2022亞馬遜云科技 re:lnvent 全球大會(huì)上,Amazon Nitro v5重磅發(fā)布。與第四代相比,第五代Nitro芯片擁有兩倍的晶體管數(shù)量,兩倍的計(jì)算性能,兩倍的PCI-E帶寬,同時(shí)內(nèi)存訪(fǎng)問(wèn)速度提升50%。Nitro v5支持每秒增加60%的數(shù)據(jù)包,并減少30%的延遲,同時(shí)每瓦性能提升40%。第五代Nitro提供專(zhuān)門(mén)的I/O功能模塊,進(jìn)一步降低EC2實(shí)例的性能負(fù)擔(dān),從而將更多資源用于工作負(fù)載。
Amazon EC2 C7gn實(shí)例是首個(gè)基于Nitro v5的實(shí)例,為網(wǎng)絡(luò)密集型工作負(fù)載提供極佳性能,具有更高的網(wǎng)絡(luò)帶寬、更高的數(shù)據(jù)包轉(zhuǎn)發(fā)性能和更低的延遲。與當(dāng)前一代網(wǎng)絡(luò)優(yōu)化型實(shí)例C6gn相比,C7gn為每個(gè)CPU提供了多達(dá)2倍的網(wǎng)絡(luò)帶寬,從100Gbps提升至200Gbps,同時(shí)將每秒數(shù)據(jù)包轉(zhuǎn)發(fā)性能提升50%。
高性能計(jì)算服務(wù)器CPU芯片Graviton 3E
基于對(duì)客戶(hù)工作負(fù)載的深刻理解,亞馬遜云科技逆向設(shè)計(jì)了多種更具有針對(duì)性和特定性的自研芯片,不斷突破行業(yè)傳統(tǒng)認(rèn)知和習(xí)慣,加速云計(jì)算產(chǎn)業(yè)的高速發(fā)展。比如基于ARM的Amazon Graviton自研芯片,就打破了傳統(tǒng)IT行業(yè)依賴(lài)獨(dú)立芯片制造商的格局。為進(jìn)一步提升性能并降低成本,讓更多人有機(jī)會(huì)上云,亞馬遜云科技在去年推出了性能較前代提升25%,能耗降低60%的Graviton 3。而在今年的re:lnvent 全球大會(huì)上,亞馬遜云科技又推出了Amazon Graviton3E芯片。
Amazon Graviton3E是Gravtion3芯片的定制產(chǎn)品,針對(duì)高性能計(jì)算工作負(fù)載中常見(jiàn)的浮點(diǎn)和矢量運(yùn)算進(jìn)行了優(yōu)化與Gravition3相比,Graviton3在線(xiàn)性代數(shù)運(yùn)算基準(zhǔn)測(cè)試HPL中性能提升35%;分子動(dòng)力學(xué)測(cè)試Gromacs中性能提升12%;金融期權(quán)定價(jià)工作負(fù)載測(cè)試中性能提升30%。
Hpc7g實(shí)例采用了Graviton3E芯片,與采用Graviton2處理器的當(dāng)前一代C6gn實(shí)例相比,Hpc7g實(shí)例的浮點(diǎn)性能提高了2倍,與當(dāng)前一代Hpc6a實(shí)例相比性能提高了20%,讓客戶(hù)能夠在多達(dá)數(shù)萬(wàn)個(gè)內(nèi)核的高性能計(jì)算集群中進(jìn)行復(fù)雜的計(jì)算。Hpc7g實(shí)例還提供高內(nèi)存帶寬和200Gbps的EFA (Elastic Fabric Adapter,彈性結(jié)構(gòu)適配器)網(wǎng)絡(luò)帶寬,可以更快的運(yùn)行并完成高性能計(jì)算應(yīng)用??蛻?hù)可以通過(guò)開(kāi)源的集群管理工具Amazon ParallelCluster使用Hpc7g實(shí)例,與其它實(shí)例類(lèi)型一起配置Hpc7g實(shí)例,這讓客戶(hù)在同一個(gè)高能性計(jì)算集群中靈活運(yùn)行不同的工作負(fù)載類(lèi)型。
AI推理芯片Inferentia和訓(xùn)練芯片Trainium
除了 Amazon Graviton系列外,亞馬遜云科技還自研了面向機(jī)器學(xué)習(xí)推理和訓(xùn)練的加速芯片Amazon Inferentia和Amazon Trainium,為客戶(hù)提供更好的性?xún)r(jià)比。
大型語(yǔ)言模型的出現(xiàn)推動(dòng)深度學(xué)習(xí)進(jìn)入了下一個(gè)階段,但龐大的參數(shù)量加大了推理所需的算力和成本。2019年,亞馬遜云科技的Inferentia芯片第一代出現(xiàn)在Inf1實(shí)例上,為用戶(hù)提供了性?xún)r(jià)比優(yōu)于GPU實(shí)例的選項(xiàng)。當(dāng)時(shí)深度學(xué)習(xí)模型大多是數(shù)百萬(wàn)個(gè),而如今某些深度學(xué)習(xí)模型的參數(shù)已經(jīng)超過(guò)數(shù)百億,比如百度的PLATO-XL對(duì)話(huà)生成模型、亞馬遜的AlexaTM等。
為此,亞馬遜云科技推出了全新的Inferentia2芯片,最高可支持到1750億參數(shù)的大型深度學(xué)習(xí)模型?;贗nferentia2芯片的Inf2實(shí)例也首次支持分布式推理,將大型模型分布到多個(gè)芯片上進(jìn)行推理。與上一代Inf1實(shí)例相比,Inf2可以提供高達(dá)4倍的吞吐量和十分之一的延遲,與GPU實(shí)例相比更是將能效提高了50%之多。
在AI大模型訓(xùn)練中,從傳統(tǒng)的幾千參數(shù)的Backprop,到百萬(wàn)級(jí)的Bert,十億級(jí)的GPT-3、PAML,甚至超大規(guī)模的Switch-C,都在對(duì)計(jì)算芯片提出新的需求,同時(shí)在數(shù)據(jù)網(wǎng)絡(luò)層面,計(jì)算芯片也正面臨著新的挑戰(zhàn)。
面向下一代計(jì)算、內(nèi)存加速、并行訓(xùn)練及低網(wǎng)絡(luò)延遲的AI 訓(xùn)練需求,亞馬遜云科技推出了Trn1n實(shí)例,針對(duì)Trn1實(shí)例進(jìn)行了網(wǎng)絡(luò)優(yōu)化,增加了1600Gbps EFA 網(wǎng)絡(luò)功能,使之能夠更快地面對(duì)超大規(guī)模分布式模型訓(xùn)練場(chǎng)景。
網(wǎng)絡(luò)協(xié)議再創(chuàng)新
為了改善高性能計(jì)算常用的EFA網(wǎng)絡(luò)接口性能、Amazon EBS塊存儲(chǔ)網(wǎng)絡(luò)性能,以及ENA網(wǎng)絡(luò)性能,亞馬遜云科技還對(duì)核心的底層SRD網(wǎng)絡(luò)協(xié)議進(jìn)行了創(chuàng)新,同時(shí)基于SRD網(wǎng)絡(luò)協(xié)議正式推出了高速虛擬網(wǎng)卡ENA Express。
相比于傳統(tǒng)的 TCP 單路徑路由網(wǎng)絡(luò),亞馬遜云科技自己的 SRD(Scalable Reliable Datagram )協(xié)議使用了多路徑路由,這項(xiàng)協(xié)議不按順序傳輸數(shù)據(jù)包,但可以在數(shù)據(jù)包亂序到達(dá)時(shí)進(jìn)行整理。
SRD將“以微秒而不是毫秒”重新傳輸丟棄的數(shù)據(jù)包,并加速托管在亞馬遜云科技上的網(wǎng)絡(luò)。其性能優(yōu)于TCP,因?yàn)樗贜itro硬件進(jìn)行了調(diào)整和優(yōu)化,亞馬遜云科技通過(guò) Nitro 系統(tǒng)將計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)事務(wù)與主機(jī)隔離開(kāi)來(lái),以提升硬件性能。
ENA Express以為 Elastic Fabric Adapters 提供支持的SRD協(xié)議為基礎(chǔ),將流量的 P99 延遲減少了50%,將 P99.9 延遲減少85%(與 TCP 相比),同時(shí)還將最大單流帶寬從 5Gbps 到增加到了 25Gbps,可以獲得更多的每流帶寬和更少的可變性。
結(jié)語(yǔ)
在云計(jì)算新的發(fā)展階段,云基礎(chǔ)設(shè)施部署所依賴(lài)的芯片,已經(jīng)成為了各大云廠(chǎng)商提升“內(nèi)功”的必爭(zhēng)之地。亞馬遜云科技在虛擬化芯片Nitro、服務(wù)器芯片Graviton、AI/ML芯片三條產(chǎn)品線(xiàn)上持續(xù)發(fā)力,一次又一次地突破技術(shù)邊界,旨在不需要犧牲安全的情況下,減少成本,同時(shí)提高性能,讓客戶(hù)應(yīng)用更好地在云上持續(xù)發(fā)展。