雙11最有價(jià)值的技術(shù)干貨!2684億的背后,阿里巴巴的四大技術(shù)核心突破
一邊是全球大規(guī)模的流量洪峰,一邊是核心系統(tǒng)100%上云,雙11的這一天,阿里云扛住了。
在過去一年間,阿里巴巴將部署在線下數(shù)據(jù)中心的上萬(wàn)個(gè)應(yīng)用、數(shù)以十萬(wàn)計(jì)的服務(wù)器、數(shù)百萬(wàn)容器向公共云平臺(tái)遷移,而消費(fèi)者和商家對(duì)這個(gè)“飛機(jī)換引擎”的過程毫無(wú)感知。今年的訂單創(chuàng)建峰值更是高達(dá)54.4萬(wàn)筆/秒,是2009年第一次雙11的1360倍。
這背后每一個(gè)技術(shù)基礎(chǔ)設(shè)施都是一項(xiàng)超級(jí)工程,包括飛天云操作系統(tǒng)、自研神龍服務(wù)器、云數(shù)據(jù)庫(kù)、實(shí)時(shí)計(jì)算、AI技術(shù)等,都是核心系統(tǒng)100%上云背后的基石。
“我們?cè)诹泓c(diǎn)把大部分計(jì)算機(jī)資源分配給交易等應(yīng)用,過了1點(diǎn)之后,我們把數(shù)據(jù)分配給數(shù)據(jù)處理系統(tǒng)。”張建鋒透露,“我前十分鐘,基本上消費(fèi)者沒有感受到任何抖動(dòng),大家購(gòu)物非常順暢。”
為了保證消費(fèi)者順暢的買買買,阿里巴巴做了這四件事。
首先是自主研發(fā)核心虛擬化系統(tǒng),用來解決困擾云計(jì)算行業(yè)的虛擬化性能損耗問題。
一般的核心電商系統(tǒng)內(nèi),都有大量的低延遲系統(tǒng),以典型的內(nèi)存型數(shù)據(jù)庫(kù)場(chǎng)景為例,業(yè)務(wù)單次請(qǐng)求是在微秒級(jí)時(shí)間內(nèi)完成的。如果性能不達(dá)標(biāo),消費(fèi)者在天貓?zhí)詫毶腺I買買的時(shí)候就會(huì)遇上各種卡頓等問題。
而傳統(tǒng)的的虛擬化技術(shù),為了處理此類請(qǐng)求,會(huì)引入微秒級(jí)的額外開銷,最終使得業(yè)務(wù)端到端延遲成倍增加,不能滿足業(yè)務(wù)需求。
所以要上云,第一個(gè)要解決的就是如何保證性能。在這個(gè)背景下,阿里云神龍?jiān)品?wù)器橫空出世。
神龍是阿里云自主研發(fā)的新一代IaaS核心計(jì)算架構(gòu),其創(chuàng)新之處來與,涵蓋自研“X-Dragon虛擬化芯片”、“X-Dragon Hypervisor系統(tǒng)軟件”以及“X-Dragon服務(wù)器硬件架構(gòu)”,其創(chuàng)新之處在于實(shí)現(xiàn)了軟硬件的深度結(jié)合,通過專用芯片來抵消虛擬化技術(shù)帶來的性能損耗問題,完全發(fā)揮處理器和內(nèi)存的性能。
今年雙11采用的基于神龍架構(gòu)的彈性裸金屬服務(wù)器,成功跨越了性能損耗這座高山,其CPU和內(nèi)存都做到了性能零損耗,并通過芯片級(jí)加速的彈性網(wǎng)卡和云盤存儲(chǔ),成為云端容器載體,順利承載雙十一流量洪峰。與同配置物理機(jī)相比,不僅業(yè)務(wù)系統(tǒng)性能提升20%,而且抗高負(fù)載壓力表現(xiàn)更好,整個(gè)業(yè)務(wù)性能非常平穩(wěn)和線性,讓消費(fèi)者雙11購(gòu)買體驗(yàn)“如絲般順滑”。
更為重要的一點(diǎn)是,一般的服務(wù)器隨著壓力增長(zhǎng),最終負(fù)載能力會(huì)慢慢下降,它不是線性的。我們神龍服務(wù)器壓力越大,輸出也是非常線性的,這是非常難做到的。
第二件搞定的事是數(shù)據(jù)庫(kù)。今年雙11背后重點(diǎn)有兩個(gè)數(shù)據(jù)庫(kù),一個(gè)是自研的OceanBase,就是此前在TPC-C測(cè)試?yán)锩婺孟铝巳虻谝坏募夹g(shù)明星,在雙11當(dāng)天的每秒處理峰值達(dá)到了破紀(jì)錄的6100萬(wàn)次。
另一款也是自研的云原生數(shù)據(jù)庫(kù)PolarDB,采用了存儲(chǔ)計(jì)算分離、軟硬一體化等創(chuàng)新設(shè)計(jì),滿足大規(guī)模業(yè)務(wù)場(chǎng)景上云需求。在第六屆世界互聯(lián)網(wǎng)大會(huì)上, POLARDB當(dāng)選了世界互聯(lián)網(wǎng)領(lǐng)先科技成果。在雙11的交易中,OceanBase和PolarDB每秒處理峰值都遠(yuǎn)遠(yuǎn)超越傳統(tǒng)Oracle數(shù)據(jù)庫(kù)。
雙11是一次大規(guī)模的全社會(huì)協(xié)作,要想讓業(yè)務(wù)流、信息流和資金流做到順暢、及時(shí)和精準(zhǔn)地在整個(gè)雙11系統(tǒng)中完成同步,數(shù)據(jù)庫(kù)是非常關(guān)鍵的技術(shù)環(huán)節(jié)。
除了OceanBase、PolarDB外,RDS、AnalyticDB、TSDB等全線數(shù)據(jù)庫(kù)產(chǎn)品參與雙11,支撐阿里巴巴內(nèi)外部客戶順利通過大考,保障了數(shù)億消費(fèi)者的購(gòu)物體驗(yàn)。
第三件事是計(jì)算存儲(chǔ)分離,今天的阿里巴巴存儲(chǔ)是有一個(gè)地方專門存數(shù)據(jù)的,由于數(shù)據(jù)是從遠(yuǎn)端存取的,所以存儲(chǔ)可以非常方便擴(kuò)容。
基于計(jì)算存儲(chǔ)分離設(shè)計(jì)架構(gòu),存儲(chǔ)可以在不同場(chǎng)景下,發(fā)揮著巨大的作用。
例如,在 AI 語(yǔ)音購(gòu)物和商品應(yīng)用管理場(chǎng)景方面,阿里云文件存儲(chǔ) NAS 作為高性能共享文件系統(tǒng),提供單個(gè)實(shí)例數(shù)萬(wàn) QPS 和毫秒級(jí)延時(shí)處理能力,平穩(wěn)應(yīng)對(duì)日常 50 倍流量,支撐業(yè)務(wù)系統(tǒng)順利扛過雙十一洪峰。
而在海量圖片和直播視頻處理場(chǎng)景方面,作為非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲(chǔ)系統(tǒng),阿里云對(duì)象存儲(chǔ)OSS存儲(chǔ)了數(shù)萬(wàn)億商品詳情、主圖、視頻、音頻、文檔等各種多媒體文件,總?cè)萘窟_(dá)數(shù)EB級(jí)。
還有FPGA圖片處理服務(wù),以5倍的單機(jī)性能、1/10的處理延遲,為雙11提供更穩(wěn)定、更高效的圖片處理。
最后一件,也是提升最大的一件事:RDMA網(wǎng)絡(luò)。在阿里巴巴數(shù)十個(gè)數(shù)據(jù)中心里,都支持RDMA網(wǎng)絡(luò)技術(shù),延時(shí)可顯著降低90%,最大程度滿足計(jì)算要求。
RDMA是目前業(yè)內(nèi)受歡迎的高性能網(wǎng)絡(luò)技術(shù),能大大節(jié)約數(shù)據(jù)傳輸時(shí)間,被認(rèn)為是提高人工智能、超算等效率的關(guān)鍵。數(shù)據(jù)顯示,在未使用RDMA網(wǎng)絡(luò)時(shí),語(yǔ)音識(shí)別訓(xùn)練每次迭代任務(wù)時(shí)長(zhǎng)為650ms至700ms,其中通信時(shí)延就占400ms。
從2016年開始,阿里巴巴就投入大量資源,用以改造RDMA、提高傳輸性能。自主設(shè)計(jì)網(wǎng)卡底層滿足大規(guī)模應(yīng)用的網(wǎng)絡(luò),并結(jié)合阿里自研交換機(jī)實(shí)現(xiàn)性能最大化,最終建成全球大規(guī)模數(shù)據(jù)中心內(nèi)的“高速網(wǎng)”,使得集群極大地突破了傳輸速度瓶頸。
目前,阿里云在全球19個(gè)地域擁有56個(gè)可用區(qū),網(wǎng)絡(luò)總帶寬已達(dá)到 PB 級(jí)別超大規(guī)模,同時(shí)推出了基于硅光技術(shù)的400G DR4光模塊,以支持其下一代數(shù)據(jù)中心網(wǎng)絡(luò)的建設(shè)。
正是這樣的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,讓計(jì)算存儲(chǔ)分離、零損耗的神龍、破紀(jì)錄的數(shù)據(jù)庫(kù)成為雙11最耀眼的明星。
更難能可貴的是,從飛天云操作系統(tǒng)到神龍服務(wù)器、數(shù)據(jù)庫(kù)、交換機(jī)、交換機(jī)操作系統(tǒng)、RDMA網(wǎng)絡(luò),全部是阿里巴巴自研的。
“我們今天已經(jīng)積累了非常豐富、非常強(qiáng)的能力,從硬件、數(shù)據(jù)庫(kù)、云計(jì)算操作系統(tǒng),到上面的核心應(yīng)用平臺(tái),四位一體,才使得阿里整個(gè)經(jīng)濟(jì)體所有核心應(yīng)用都能夠跑在上面,這是這次雙11跟往年最大不一樣的地方。”張建鋒表示。