應(yīng)對“算力井噴+全球布局”挑戰(zhàn),亞馬遜云科技創(chuàng)新不止
原創(chuàng)展望今天的世界,我們看到的是前所未有的挑戰(zhàn),只有專注創(chuàng)新才能發(fā)現(xiàn)更多的增長機會。云服務(wù)是支持創(chuàng)新的關(guān)鍵生產(chǎn)力,亞馬遜云科技也從未停止過創(chuàng)新。
在近日舉辦的 2023 亞馬遜云科技中國峰會上,亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建表示,現(xiàn)今創(chuàng)新至關(guān)重要,而云技術(shù)能更快、更高效地幫助企業(yè)創(chuàng)新,亞馬遜云科技廣泛和深入的服務(wù)可以幫助客戶專注于創(chuàng)新,擺脫基礎(chǔ)架構(gòu)的束縛?!拔蚁?,這應(yīng)該是亞馬遜云科技能為您、為您的企業(yè)所提供的最大價值所在。”
算力資源井噴下的創(chuàng)新
生成式 AI 的熱潮,也讓亞馬遜云科技看到越來越多的新機會。陳曉建表示,生成式 AI 是目前最為關(guān)注的創(chuàng)新技術(shù),AI 技術(shù)的爆發(fā)也直接推動了對算力需求的增長。
為此,亞馬遜云科技多方面布局,幫助企業(yè)應(yīng)對各種算力需求。首先,亞馬遜云科技通過自研芯片,提供更高的性價比,同時,亞馬遜云科技也支持不同芯片品牌,包括 Intel、AMD和英偉達(dá),讓用戶可以自由選擇適合自己業(yè)務(wù)的芯片產(chǎn)品;第二,亞馬遜提供各種豐富的計算實例、網(wǎng)絡(luò)、存儲等不同產(chǎn)品的組合,提供高度靈活的組合式方案,通過彈性的資源幫助企業(yè)應(yīng)對突發(fā)算力的需求;第三,亞馬遜云科技通過提供 Serverless 相關(guān)技術(shù)和產(chǎn)品,有效降低運維的復(fù)雜性和成本,幫助企業(yè)更快更敏捷地應(yīng)對業(yè)務(wù)創(chuàng)新需求。
圖片
豐富的自研芯片產(chǎn)品
加速創(chuàng)新的基座:第一款自研芯片 Amazon Nitro
2006 年,亞馬遜云科技發(fā)布了第一款 Amazon EC2 計算實例,如今亞馬遜云科技已經(jīng)有600 多種實例,可以支撐不同硬件、操作系統(tǒng)、計算平臺,滿足用戶的算力需求。2017 年,亞馬遜云科技推出的計算實例的速度逐漸加快,這也是得益于亞馬遜自研的 Amazon Nitro 系統(tǒng)。
陳曉建介紹說,Amazon Nitro 實現(xiàn)了三大改變,第一,作為高度輕量化的虛擬化,徹底改變了對虛擬化基礎(chǔ)設(shè)施的設(shè)想;第二,實現(xiàn)網(wǎng)絡(luò)層面的數(shù)據(jù)通信和存儲的隔離;第三,實現(xiàn)了硬件級別的加密。有了 Amazon Nitro 之后,Amazon EC2 整個實例應(yīng)用的安全性極大增強,每個單元可以獨立發(fā)展,同時也確保了 Amazon EC2 所有實例運行的穩(wěn)定,Amazon Nitro 讓亞馬遜云科技能夠加快創(chuàng)新速度、進(jìn)一步降低客戶成本并提供更多優(yōu)勢。
如今,最新一代 Amazon Nitro V5 芯片相比之前的芯片性能有了大幅的提升,擁有更快的轉(zhuǎn)發(fā)率,更低的延遲,并且每瓦功耗上節(jié)省 40%。
云原生處理器:基于 ARM 架構(gòu)的通用處理芯片 Amazon Graviton
亞馬遜云科技自研了基于 ARM 架構(gòu)的通用處理器芯片 Amazon Graviton?;?/span> ARM 架構(gòu)的通用處理器 Graviton3,相比之前的 Graviton2,計算性能提高多達(dá) 25%,浮點性能提高多達(dá) 2 倍,加密工作負(fù)載性能最多加快 2 倍;而去年新推出的 Graviton 3E 特別關(guān)注的是向量計算的性能,與上一代相比提升了 35%,這項性能提升對于高性能計算 HPC 的應(yīng)用尤為重要。
與 Gravtion3 相比,Gravtion3E 在 HPL(線性代數(shù)的測量工具)上 Graviton 性能提升 35%,在 GROMACS(分子運動)上性能提升 12%,在金融期權(quán)定價的工作負(fù)載上性能提升 30%,和類似 X86的 EC2 實例相比,整個功耗可以降低 60%。
F1 一級方程式賽車,通過使用 Graviton 運行空氣動力學(xué)模擬,開發(fā)新一代賽車的速度較過去提升了 70%,賽車壓力損失從50% 降低到 15%,為賽車手提供了更高的超車機會。此外,F(xiàn)1 還在探索機器學(xué)習(xí)在模擬過程中的應(yīng)用,通過 5000 多次單車和多車模擬收集了超過 5.5 億個數(shù)據(jù)點,為組織提供了全新洞察。
超大集群超能算力:機器學(xué)習(xí)訓(xùn)練芯片 Amazon Trainium
在訓(xùn)練過程當(dāng)中最重要的指標(biāo)往往就是訓(xùn)練效率和性價比,亞馬遜云科技以 HuggingFace BERT 模型作為案例,基于 Amazon Trainium 的 Trn1 實例和通用的GPU實例相比,在訓(xùn)練的吞吐率方面,單節(jié)點的吞吐率可以提升 1.2 倍,而多節(jié)點集群的吞吐率可以提升 1.5 倍,從成本考慮,單節(jié)點成本可以降低 1.8 倍,集群的成本更是降低了 2.3 倍。
隨著模型越來越復(fù)雜,很多時候靠一個單點的計算訓(xùn)練是無法滿足用戶需求,因此,用戶需要一個分布式訓(xùn)練,特別是需要一個非常大規(guī)模的集群?;?/span> Amazon Trainium,亞馬遜云科技構(gòu)建一個 EC2 UltraCluster 超大集群,由 3 萬張的 Amazon Trainium 芯片構(gòu)成一個超大集群,使用戶可以獲得云上 6 ExaFlops 的訓(xùn)練超算能力。
陳曉建介紹道,這個背后涉及多方面的創(chuàng)新,一方面是 EFA 創(chuàng)新型網(wǎng)絡(luò),以及 PB 級別的無阻塞網(wǎng)絡(luò)互聯(lián)。另一方面是由于 Amazon Trainium 本身是低功耗的芯片,使得構(gòu)建 3 萬張芯片的超大集群也成為可能。
吞吐率與延遲的權(quán)衡:機器學(xué)習(xí)推理芯片 Amazon Inferentia
2019 年,亞馬遜云科技推出了第一代用于機器學(xué)習(xí)的推理芯片 Amazon Inferentia,所對應(yīng)的實例Inf1 和同樣基于通用 GPU 的 EC2 實例相比,帶來了 70% 成本的降低,并且獲得了廣泛的應(yīng)用,包括像 Airbnb,Snap,OPPO 小布語音助手等諸多客戶的青睞。
推理往往需要考慮吞吐率和延遲,用戶肯定希望有更高的吞吐率,從而獲得更優(yōu)的性價比。但是如果要達(dá)到一個更高的吞吐率,可能就會帶來延遲的提升,從而造成用戶體驗的下降,因此,開發(fā)者往往要在吞吐率和延遲之間的權(quán)衡,Amazon Inferentia 在設(shè)計之初就考慮到吞吐率和延遲的優(yōu)化,使得用戶兩者可以兼得。
2022 年,亞馬遜云科技推出了第二代推理芯片 Amazon Inferentia2,進(jìn)一步提升了 4 倍吞吐量,延遲只是之前的 1/10。通過優(yōu)化,第二代 Amazon Inferentia 可以大規(guī)模部署復(fù)雜的模型,例如大型語言模型(LLM)和 Diffusion 類模型。亞馬遜云科技以自然語言常見的 BERT 模型舉例,Amazon Inferentia2 的吞吐可以提升三倍,延遲降低了 8.1 倍,而成本只是通用 GPU 實例的 1/4。
Amazon Trainium 和 Amazon Inferentia 芯片為訓(xùn)練模型和運行推理提供了最低的成本。因此,許多領(lǐng)先的生成式 AI 初創(chuàng)公司,例如 AI21 Labs、Hugging Face、Runway 和 Stability AI 都采用了 Amazon Trainium 和 Amazon Inferentia 來作為他們研發(fā)和應(yīng)用的平臺。
積木式彈性計算存儲組合,滿足多種算力需求
生成式 AI 需求非常多樣,用戶需要高性價比的硬件方案,同時也需要高度彈性化的伸縮。亞馬遜云科技提供 600 多種不同的計算實例,從處理器、網(wǎng)絡(luò)、存儲各種周邊的服務(wù)能夠與計算很好地結(jié)合,以積木的方式形成豐富靈活的計算實例資源,滿足多種不同算力的要求。
陳曉建指出,當(dāng)數(shù)據(jù)規(guī)模達(dá)到 PB 級別時,數(shù)據(jù)存儲方式就變得非常重要。用戶的數(shù)據(jù)存儲是多種多樣的,通常可以把它分為熱、溫、冷、凍四種類型,不同類型的數(shù)據(jù)存儲成本有很大差別,數(shù)據(jù)存儲的性能也有很大差別,因此數(shù)據(jù)的成本和性能之間的平衡非常重要。
圖片
為此,亞馬遜云科技提供了 8 種存儲級別的對象存儲 Amazon S3 方案,無論是高性能計算還是機器學(xué)習(xí),抑或是通用計算,用戶都可以根據(jù)自己的需求找到最適合自己的存儲級別。此外,亞馬遜云科技也提供了智能分層,如果用戶不清楚應(yīng)該屬于哪個層級,亞馬遜云科技也會通過應(yīng)用訪問模式自動幫助用戶選擇一個最適合的存儲層級。
亞馬遜云科技為綜合性視覺效果公司維塔數(shù)碼提供了從基礎(chǔ)架構(gòu)算力資源到云上制作堆棧、機器學(xué)習(xí)堆棧的一系列服務(wù)。維塔數(shù)碼使用了包括 GPU 在內(nèi)的大量計算實例,Spot 實例還為其提供了非常強的伸縮性以及很好的性價比。維塔數(shù)碼表示:“《阿凡達(dá) 1》花了 14個月看到了第一幀,《阿凡達(dá) 2》在八個月內(nèi)我們在云中擁有了 33 億個線程小時?!?/span>
利用Serverless 降低云的使用門檻
有多種多樣的芯片和高伸縮性的資源供給是不是就夠了呢?用戶還希望能降低云運維的復(fù)雜性,亞馬遜云科技為用戶提供了第三種武器 Serverless。
據(jù)了解,自從 2014 年發(fā)布 Lambda 以來,亞馬遜云科技已經(jīng)相繼發(fā)布了 105 種 Serverless 新技術(shù),包括解決 Java 應(yīng)用冷啟動的問題的 Amazon Lambda SnapStart,可視化編輯器 Amazon Application Composer 等,用戶可以根據(jù)自己的應(yīng)用類型來靈活選擇不同顆粒度的產(chǎn)品。此外,亞馬遜云科技已經(jīng)實現(xiàn)了全棧數(shù)據(jù)服務(wù)的 Serverless 化,開啟了Serverless 新時代,讓客戶無需預(yù)置或管理基礎(chǔ)設(shè)施,就可以運行幾乎任何類型的應(yīng)用程序,幫助客戶最大限度減輕運維工作,并增加業(yè)務(wù)敏捷性。
圖片
《MARVEL SNAP》是一款基于漫威 IP 的數(shù)字卡牌游戲,由 Second Dinner 來開發(fā)。該游戲在去年 10 月推出以來廣受用戶好評,擁有全球超過數(shù)百萬的客戶,并且獲得了年度手機游戲大獎。據(jù)了解,Second Dinner 全面采用了亞馬遜云科技的 Serverless 架構(gòu)來開發(fā)、構(gòu)建和運行該游戲。整個游戲沒有使用任何一臺 EC2 計算實例或容器,完全由事件驅(qū)動架構(gòu)實現(xiàn),這不僅幫助用戶節(jié)省了成本,加快了應(yīng)用開發(fā)速度,也減少了安全方面隱患。亞馬遜云科技將整個 Serverless 后臺的架構(gòu)實現(xiàn)了從功能、安全和資源供給等方面的完整管理,最終 Marvel Snap 在啟動的時候沒有一個后臺錯誤,這在游戲行業(yè)是聞所未聞的。
全球業(yè)務(wù)布局的創(chuàng)新
如今,很多中國企業(yè)業(yè)務(wù)的發(fā)展逐漸從國內(nèi)走到海外,有越來越多的中國企業(yè)在全球大展拳腳。陳曉建認(rèn)為,2023 年是中國企業(yè)出海的一個分水嶺,如果說在過去十年很多中國企業(yè)的出海是專注于投資和發(fā)展,未來十年會有更多的企業(yè)專注于打造全球化的跨國公司。打造全球化的企業(yè)對于整個 IT 架構(gòu)提出了更高的要求,企業(yè)不光需要覆蓋全球遍地可及的云服務(wù),也需要能夠快速進(jìn)行部署高可用的服務(wù),當(dāng)然還需要符合全球各國和各地區(qū)合法合規(guī)的前提下開展業(yè)務(wù)。
為此,亞馬遜云科技提供全球無處不在的云服務(wù)、快速部署的高效能力,以及符合各國和各地區(qū)合法合規(guī)的要求,幫助企業(yè)加速全球布局,加速業(yè)務(wù)創(chuàng)新。
提供全球算力,讓創(chuàng)新快速抵達(dá)需要的地方
如今,亞馬遜云科技在全球擁有 31 個區(qū)域,99 個可用區(qū),已經(jīng)覆蓋了 245 個國家和地區(qū),但是亞馬遜云科技沒有停止,還在持續(xù)拓展全球的基礎(chǔ)設(shè)施,在這些可用區(qū)背后是亞馬遜云科技所構(gòu)建的骨干網(wǎng),這個全球骨干網(wǎng)是有史以來最大規(guī)模的專門構(gòu)建的骨干網(wǎng)之一。
圖片
如果企業(yè)有低延遲、本地數(shù)據(jù)處理的需求,或者由于合法合規(guī)要求需要數(shù)據(jù)保存在自己的數(shù)據(jù)中心,亞馬遜云科技可以提供多樣的產(chǎn)品,包括 Local Zones、Wavelength、Outposts、IoT、Snow Family 等等,來解決用戶多元化網(wǎng)絡(luò)需求。陳曉建指出,“這些產(chǎn)品可以將亞馬遜云科技的基礎(chǔ)架構(gòu)擴展到幾乎任何數(shù)據(jù)中心或本地設(shè)施,更重要的是他們提供了完全一致的混合體驗。”
OPPO 手機業(yè)務(wù)遍布全球,有上百個云上的 VPC 和多個本地資源需要相互連接,每個國家又有不同的合法合規(guī)的要求,這增加了全網(wǎng)的組網(wǎng)難度,OPPO 希望全球業(yè)務(wù)獨立運作、區(qū)域合規(guī)自治,同時又有統(tǒng)一的管理。在使用亞馬遜云科技的 Cloud WAN 廣域網(wǎng)服務(wù)后,OPPO 可通過本地網(wǎng)絡(luò)提供商連接到亞馬遜云科技,通過中央控制面板和網(wǎng)絡(luò)策略在分鐘就可以建立起一個覆蓋全球的自己的專用網(wǎng)。借助完整的網(wǎng)絡(luò)視圖,OPPO 可以直觀地了解整個網(wǎng)絡(luò)的運行狀況、安全和性能。
資本交易市場對于網(wǎng)絡(luò)的可靠性和網(wǎng)絡(luò)的延遲要求是非常高的,因此對于基礎(chǔ)架構(gòu)有著非常嚴(yán)苛的要求。Nasdaq 選用了亞馬遜云科技的 Outposts,在位于新澤西州 Carteret 數(shù)據(jù)中心部署了業(yè)界第一個 Private Amazon Local Zone,通過 Private Amazon Local Zone 就近的部署,Nasdaq 可以最大限度保證整個網(wǎng)絡(luò)超低的延遲,為資本市場的擴張?zhí)峁┝擞辛Φ谋U稀?/span>
此外,亞馬遜云科技的技術(shù)已經(jīng)可以在太空這樣極端環(huán)境下收集和處理數(shù)據(jù),并且可以做出實時的決策。隨著近地軌道的發(fā)射和成本不斷下降,亞馬遜云科技有更多的機會突破環(huán)境限制,在太空進(jìn)行實驗。Amazon Snowcone 是專門支持邊緣計算工作所設(shè)計的邊緣設(shè)備,所有的工作負(fù)載都會經(jīng)過多層加密的保護(hù),數(shù)據(jù)在搜集之后可以本地處理之后上傳到云端進(jìn)行進(jìn)一步的處理。Axiom 通過使用亞馬遜云科技的 SnowCone 支持太空的實驗,環(huán)繞了地球進(jìn)行了 240 次旅行。
快速部署穩(wěn)定系統(tǒng)的能力,讓創(chuàng)新更放心
亞馬遜云科技 CTO Werner Vogels 曾說過,“Everything fails, all the time”。所有的功能模塊都有可能出現(xiàn)故障,亞馬遜云科技也不能完全避免故障的發(fā)生,但是通過努力,亞馬遜云科技可以將風(fēng)險降到最低。
首先,亞馬遜云科技的每個區(qū)域都會有多個可用區(qū),任何單一可用區(qū)的故障不會影響到其他可用區(qū)的業(yè)務(wù),最大限度防止服務(wù)中斷的發(fā)生。
第二,解耦控制面與數(shù)據(jù)面的做法,更多地依靠數(shù)據(jù)面來保持服務(wù)運行、降低對控制面的依賴,能夠提高整體穩(wěn)定性。
第三,蜂窩架構(gòu)則是一種從船舶設(shè)計中借鑒的技術(shù)。它把系統(tǒng)分割成多個微小的、單一的、相互之間隔離的蜂窩狀單元,能夠在問題出現(xiàn)時降低爆炸半徑,通過爆炸半徑能夠把故障控制在一個單元以內(nèi)。亞馬遜云科技的大部分服務(wù)也都采用同樣的設(shè)計,從而能夠降低故障發(fā)生時對系統(tǒng)整體的影響。
第四,隨機分片就是對蜂窩架構(gòu)的進(jìn)一步優(yōu)化。它把客戶的訪問隨機分配到不同的單元中,在任何一個單元出問題的時候,由于采用蜂窩的設(shè)計方式,單元爆炸半徑是有限的,不會對系統(tǒng)造成大的影響;此外,客戶的請求是通過隨機的方式分配到不同單元,因此單個單元的故障并不會對整個系統(tǒng)造成影響,可以通過其他的單元可以完成。目前,隨機分配的思路在越來越多亞馬遜云科技服務(wù)中被證明具有強大的適用性,比如 Amazon Route 53,是典型采用隨機分片的產(chǎn)品。
第五,亞馬遜云科技設(shè)置了服務(wù)責(zé)任模型,通過明確定義亞馬遜云科技與客戶責(zé)任區(qū)間的方式,保障客戶在應(yīng)用的任何階段都能享有對所寫代碼和程序的控制權(quán)。
第六,運營就緒審查。通過對亞馬遜云科技大量運營案例進(jìn)行分析,對過往的問題進(jìn)行復(fù)盤,從而在整個部署時能夠避免重現(xiàn)用戶之前所發(fā)生的問題。
第七,亞馬遜云科技致力于發(fā)展安全的持續(xù)部署,可以最大限度減少因錯誤部署而對生產(chǎn)造成的影響。
第八,亞馬遜云科技還有一個 COE 糾錯流程,可以了解問題發(fā)生時系統(tǒng)的狀態(tài),以避免類似的錯誤再次發(fā)生。
支持全球業(yè)務(wù)合規(guī),保障業(yè)務(wù)出海
亞馬遜云科技幾乎滿足全球所有國家和地區(qū)的合規(guī)性要求,最大程度確保企業(yè)的創(chuàng)新業(yè)務(wù)在全球范圍內(nèi)安全、合規(guī)的。
亞馬遜云科技擁有 50 多項服務(wù)符合 CISPE 準(zhǔn)則,還有云原生敏感數(shù)據(jù)保護(hù)解決方案,可以幫助用戶更好地發(fā)現(xiàn)和管理在亞馬遜云科技上面的敏感數(shù)據(jù),從而滿足個人數(shù)據(jù)保護(hù)法的要求。
安全是實現(xiàn)合規(guī)的一種方式,亞馬遜云科技也一直在高度致力于建設(shè)各種高度安全的云計算環(huán)境,亞馬遜云科技擁有超過 300 種安全合規(guī)和治理服務(wù),幫助各行各業(yè)的客戶能夠更方便地搭建滿足全球各地安全和合規(guī)要求的架構(gòu)。
對于全球布局,亞馬遜云科技提供從中心到邊緣的多種產(chǎn)品的解決方案,包括覆蓋全球的基礎(chǔ)架構(gòu),以及快速部署穩(wěn)定系統(tǒng)的能力,還有全面支持全球各個國家和地區(qū)業(yè)務(wù)合規(guī)能力,這些能力都將成為用戶創(chuàng)造堅實底層架構(gòu)的基石。
亞馬遜云科技一直在創(chuàng)新的路上不斷前行,通過不斷優(yōu)化和升級其產(chǎn)品和服務(wù),幫助企業(yè)更好地實現(xiàn)數(shù)字化轉(zhuǎn)型,推動業(yè)務(wù)創(chuàng)新。相信在未來,亞馬遜云科技還將繼續(xù)發(fā)揮自身優(yōu)勢和技術(shù)實力,為全球企業(yè)帶來更多驚喜和價值!






