亞馬遜云科技：全面底層技術(shù)創(chuàng)新，持續(xù)優(yōu)化云服務(wù)性?xún)r(jià)比

作者：趙立京 2022-12-16 11:25:25

作為連續(xù)11年在云基礎(chǔ)設(shè)施和平臺(tái)服務(wù)Gartner魔力象限 (CIPS) 被評(píng)為領(lǐng)導(dǎo)者的廠(chǎng)商，亞馬遜云科技的看法是：芯片創(chuàng)新是最底層的創(chuàng)新，是最具顛覆性的創(chuàng)新，也是改變?cè)朴?jì)算游戲規(guī)則的能力。

以往我們說(shuō)，云計(jì)算顛覆性地改變了人類(lèi)的生活和工作方式?，F(xiàn)在，人們對(duì)于云計(jì)算性?xún)r(jià)比的追求越來(lái)越高。

企業(yè)用戶(hù)希望通過(guò)云來(lái)獲得更強(qiáng)的數(shù)據(jù)處理能力、更快的響應(yīng)速度和更低的成本，且不增加能耗。如何實(shí)現(xiàn)“高性能、高安全性和低成本”一個(gè)都不能少呢？作為連續(xù)11年在云基礎(chǔ)設(shè)施和平臺(tái)服務(wù)Gartner魔力象限 (CIPS) 被評(píng)為領(lǐng)導(dǎo)者的廠(chǎng)商，亞馬遜云科技的看法是：芯片創(chuàng)新是最底層的創(chuàng)新，是最具顛覆性的創(chuàng)新，也是改變?cè)朴?jì)算游戲規(guī)則的能力。

亞馬遜全球副總裁、亞馬遜云科技大中華區(qū)執(zhí)行董事張文翊曾表示，云計(jì)算技術(shù)和服務(wù)的實(shí)際效果，主要基于底層的性能。發(fā)生在底層的創(chuàng)新，往往是最具顛覆性的。系統(tǒng)架構(gòu)和芯片這種底層的創(chuàng)新升級(jí)，不僅能讓客戶(hù)的云體驗(yàn)有質(zhì)的躍升，還能改變傳統(tǒng)IT行業(yè)的游戲規(guī)則。

第五代虛擬化芯片Nitro

首先，云服務(wù)的計(jì)算資源如何才能更好地滿(mǎn)足用戶(hù)的工作負(fù)載要求，讓用戶(hù)不必?fù)?dān)心云計(jì)算資源底層的網(wǎng)絡(luò)、存儲(chǔ)和安全控制的復(fù)雜性？Amazon Nitro就是亞馬遜云科技給出的最佳答案。

從2017年起，為了讓用戶(hù)的應(yīng)用能夠獲得更佳的性能表現(xiàn)，亞馬遜云科技自研了Amazon Nitro 系統(tǒng)，將計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等傳統(tǒng)負(fù)載Offload到專(zhuān)屬硬件層面，大幅提升虛擬化及客戶(hù)實(shí)例的性能。Nitro系統(tǒng)全面提升EC2實(shí)例的安全表現(xiàn)，并能更好地提升計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)的性能。Nitro系統(tǒng)還支持裸金屬EC2實(shí)例，能夠讓所有的服務(wù)器資源都充分調(diào)用到客戶(hù)的負(fù)載上去。

在日前召開(kāi)的2022亞馬遜云科技 re:lnvent 全球大會(huì)上，Amazon Nitro v5重磅發(fā)布。與第四代相比，第五代Nitro芯片擁有兩倍的晶體管數(shù)量，兩倍的計(jì)算性能，兩倍的PCI-E帶寬，同時(shí)內(nèi)存訪(fǎng)問(wèn)速度提升50%。Nitro v5支持每秒增加60%的數(shù)據(jù)包，并減少30%的延遲，同時(shí)每瓦性能提升40%。第五代Nitro提供專(zhuān)門(mén)的I/O功能模塊，進(jìn)一步降低EC2實(shí)例的性能負(fù)擔(dān)，從而將更多資源用于工作負(fù)載。

Amazon EC2 C7gn實(shí)例是首個(gè)基于Nitro v5的實(shí)例，為網(wǎng)絡(luò)密集型工作負(fù)載提供極佳性能，具有更高的網(wǎng)絡(luò)帶寬、更高的數(shù)據(jù)包轉(zhuǎn)發(fā)性能和更低的延遲。與當(dāng)前一代網(wǎng)絡(luò)優(yōu)化型實(shí)例C6gn相比，C7gn為每個(gè)CPU提供了多達(dá)2倍的網(wǎng)絡(luò)帶寬，從100Gbps提升至200Gbps，同時(shí)將每秒數(shù)據(jù)包轉(zhuǎn)發(fā)性能提升50%。

高性能計(jì)算服務(wù)器CPU芯片Graviton 3E

基于對(duì)客戶(hù)工作負(fù)載的深刻理解，亞馬遜云科技逆向設(shè)計(jì)了多種更具有針對(duì)性和特定性的自研芯片，不斷突破行業(yè)傳統(tǒng)認(rèn)知和習(xí)慣，加速云計(jì)算產(chǎn)業(yè)的高速發(fā)展。比如基于ARM的Amazon Graviton自研芯片，就打破了傳統(tǒng)IT行業(yè)依賴(lài)獨(dú)立芯片制造商的格局。為進(jìn)一步提升性能并降低成本，讓更多人有機(jī)會(huì)上云，亞馬遜云科技在去年推出了性能較前代提升25%，能耗降低60%的Graviton 3。而在今年的re:lnvent 全球大會(huì)上，亞馬遜云科技又推出了Amazon Graviton3E芯片。

Amazon Graviton3E是Gravtion3芯片的定制產(chǎn)品，針對(duì)高性能計(jì)算工作負(fù)載中常見(jiàn)的浮點(diǎn)和矢量運(yùn)算進(jìn)行了優(yōu)化與Gravition3相比，Graviton3在線(xiàn)性代數(shù)運(yùn)算基準(zhǔn)測(cè)試HPL中性能提升35%；分子動(dòng)力學(xué)測(cè)試Gromacs中性能提升12%；金融期權(quán)定價(jià)工作負(fù)載測(cè)試中性能提升30%。

Hpc7g實(shí)例采用了Graviton3E芯片，與采用Graviton2處理器的當(dāng)前一代C6gn實(shí)例相比，Hpc7g實(shí)例的浮點(diǎn)性能提高了2倍，與當(dāng)前一代Hpc6a實(shí)例相比性能提高了20%，讓客戶(hù)能夠在多達(dá)數(shù)萬(wàn)個(gè)內(nèi)核的高性能計(jì)算集群中進(jìn)行復(fù)雜的計(jì)算。Hpc7g實(shí)例還提供高內(nèi)存帶寬和200Gbps的EFA （Elastic Fabric Adapter，彈性結(jié)構(gòu)適配器）網(wǎng)絡(luò)帶寬，可以更快的運(yùn)行并完成高性能計(jì)算應(yīng)用?？蛻?hù)可以通過(guò)開(kāi)源的集群管理工具Amazon ParallelCluster使用Hpc7g實(shí)例，與其它實(shí)例類(lèi)型一起配置Hpc7g實(shí)例，這讓客戶(hù)在同一個(gè)高能性計(jì)算集群中靈活運(yùn)行不同的工作負(fù)載類(lèi)型。

AI推理芯片Inferentia和訓(xùn)練芯片Trainium

除了 Amazon Graviton系列外，亞馬遜云科技還自研了面向機(jī)器學(xué)習(xí)推理和訓(xùn)練的加速芯片Amazon Inferentia和Amazon Trainium，為客戶(hù)提供更好的性?xún)r(jià)比。

大型語(yǔ)言模型的出現(xiàn)推動(dòng)深度學(xué)習(xí)進(jìn)入了下一個(gè)階段，但龐大的參數(shù)量加大了推理所需的算力和成本。2019年，亞馬遜云科技的Inferentia芯片第一代出現(xiàn)在Inf1實(shí)例上，為用戶(hù)提供了性?xún)r(jià)比優(yōu)于GPU實(shí)例的選項(xiàng)。當(dāng)時(shí)深度學(xué)習(xí)模型大多是數(shù)百萬(wàn)個(gè)，而如今某些深度學(xué)習(xí)模型的參數(shù)已經(jīng)超過(guò)數(shù)百億，比如百度的PLATO-XL對(duì)話(huà)生成模型、亞馬遜的AlexaTM等。

為此，亞馬遜云科技推出了全新的Inferentia2芯片，最高可支持到1750億參數(shù)的大型深度學(xué)習(xí)模型?；贗nferentia2芯片的Inf2實(shí)例也首次支持分布式推理，將大型模型分布到多個(gè)芯片上進(jìn)行推理。與上一代Inf1實(shí)例相比，Inf2可以提供高達(dá)4倍的吞吐量和十分之一的延遲，與GPU實(shí)例相比更是將能效提高了50%之多。

在AI大模型訓(xùn)練中，從傳統(tǒng)的幾千參數(shù)的Backprop，到百萬(wàn)級(jí)的Bert，十億級(jí)的GPT-3、PAML，甚至超大規(guī)模的Switch-C，都在對(duì)計(jì)算芯片提出新的需求，同時(shí)在數(shù)據(jù)網(wǎng)絡(luò)層面，計(jì)算芯片也正面臨著新的挑戰(zhàn)。

面向下一代計(jì)算、內(nèi)存加速、并行訓(xùn)練及低網(wǎng)絡(luò)延遲的AI 訓(xùn)練需求，亞馬遜云科技推出了Trn1n實(shí)例，針對(duì)Trn1實(shí)例進(jìn)行了網(wǎng)絡(luò)優(yōu)化，增加了1600Gbps EFA 網(wǎng)絡(luò)功能，使之能夠更快地面對(duì)超大規(guī)模分布式模型訓(xùn)練場(chǎng)景。

網(wǎng)絡(luò)協(xié)議再創(chuàng)新

為了改善高性能計(jì)算常用的EFA網(wǎng)絡(luò)接口性能、Amazon EBS塊存儲(chǔ)網(wǎng)絡(luò)性能，以及ENA網(wǎng)絡(luò)性能，亞馬遜云科技還對(duì)核心的底層SRD網(wǎng)絡(luò)協(xié)議進(jìn)行了創(chuàng)新，同時(shí)基于SRD網(wǎng)絡(luò)協(xié)議正式推出了高速虛擬網(wǎng)卡ENA Express。

相比于傳統(tǒng)的 TCP 單路徑路由網(wǎng)絡(luò)，亞馬遜云科技自己的 SRD（Scalable Reliable Datagram ）協(xié)議使用了多路徑路由，這項(xiàng)協(xié)議不按順序傳輸數(shù)據(jù)包，但可以在數(shù)據(jù)包亂序到達(dá)時(shí)進(jìn)行整理。

SRD將“以微秒而不是毫秒”重新傳輸丟棄的數(shù)據(jù)包，并加速托管在亞馬遜云科技上的網(wǎng)絡(luò)。其性能優(yōu)于TCP，因?yàn)樗贜itro硬件進(jìn)行了調(diào)整和優(yōu)化，亞馬遜云科技通過(guò) Nitro 系統(tǒng)將計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)事務(wù)與主機(jī)隔離開(kāi)來(lái)，以提升硬件性能。

ENA Express以為 Elastic Fabric Adapters 提供支持的SRD協(xié)議為基礎(chǔ)，將流量的 P99 延遲減少了50%，將 P99.9 延遲減少85%（與 TCP 相比），同時(shí)還將最大單流帶寬從 5Gbps 到增加到了 25Gbps，可以獲得更多的每流帶寬和更少的可變性。

結(jié)語(yǔ)

在云計(jì)算新的發(fā)展階段，云基礎(chǔ)設(shè)施部署所依賴(lài)的芯片，已經(jīng)成為了各大云廠(chǎng)商提升“內(nèi)功”的必爭(zhēng)之地。亞馬遜云科技在虛擬化芯片Nitro、服務(wù)器芯片Graviton、AI/ML芯片三條產(chǎn)品線(xiàn)上持續(xù)發(fā)力，一次又一次地突破技術(shù)邊界，旨在不需要犧牲安全的情況下，減少成本，同時(shí)提高性能，讓客戶(hù)應(yīng)用更好地在云上持續(xù)發(fā)展。

責(zé)任編輯：趙立京來(lái)源： 51CTO