「奇點」AI計算平臺細節(jié)曝光!竟是微軟四年前老項目重生
AI服務(wù)平臺的成本和效率問題,是各大服務(wù)提供商一直著力解決和改進的難題。
具體而言,就是如何在滿足客戶需求的同時,盡量降低整個系統(tǒng)資源的消耗,以及如何通過提高深度學(xué)習(xí)工作負載的利用率來降低成本。
近日,微軟 Azure 研究團隊合作構(gòu)建了一個新的 AI 基礎(chǔ)設(shè)施服務(wù),代號為「Singularity」。用研究人員的話說,這是「一個全新的人工智能平臺服務(wù),將成為微軟內(nèi)部和外部人工智能的主要驅(qū)動力?!?/span>
Singularity 服務(wù)旨在為數(shù)據(jù)科學(xué)家和 AI 從業(yè)者提供一種在微軟專為 AI 構(gòu)建的分布式基礎(chǔ)架構(gòu)服務(wù)上構(gòu)建、擴展、試驗和迭代其模型的方法。
論文地址:
??https://arxiv.org/pdf/2202.07848.pdf
在一篇系統(tǒng)介紹Singularity 服務(wù)的論文中,研究人員表示:
「Singularity 的核心是一種新穎的、可以感知工作負載的調(diào)度程序,可以透明地搶占和彈性擴展深度學(xué)習(xí)工作負載,在不影響正確性和性能的情況下,提高全球范圍內(nèi)的 AI 加速器(例如 GPU、FPGA)的利用率?!?/span>
據(jù)介紹,使用Singularity服務(wù),活動作業(yè)負載可以動態(tài)且透明地占用并遷移到一組不同的節(jié)點、集群、數(shù)據(jù)中心或區(qū)域,并準(zhǔn)確執(zhí)行,還能夠在給定類型的一組不同的加速器上調(diào)整大?。磸椥钥s放)。
Singularity平臺架構(gòu)示意圖
用戶無須對代碼進行任何更改,也不需要使用任何可能限制靈活性的自定義庫。微軟表示,這種方法顯著提高了深度學(xué)習(xí)工作負載的可靠性。
這篇論文的作者包括 Azure 首席技術(shù)官 Mark Russinovich;合作伙伴架構(gòu)師 Rimma Nehme,他曾在 Azure Cosmos DB 工作,直到 2019 年轉(zhuǎn)到 Azure 從事人工智能和深度學(xué)習(xí)工作;以及技術(shù)研究員 Dharma Shukla等。
和今天使用的彈性負載調(diào)度機制相比,Singularity調(diào)度程序可以將每個 worker 一對一映射到物理 GPU,或者使用多對一映射,將物理 GPU 虛擬化并跨多個 worker 進行時間切片,world-size不變。
相比之下,目前的彈性機制調(diào)度程序會將工作從上一個檢查點重新啟動,world-size減小至四分之一,導(dǎo)致資源浪費(比如自上一個檢查點以來的初始化和迭代需要重做)。
測試結(jié)果顯示,在不同模型上,使用Singularity服務(wù)(DP)相對基線水平(B)獲得的性能提升。
在透明彈性負載調(diào)度性能上,Singularity則取得了7%的平均優(yōu)勢。
研究人員表示,Singularity在調(diào)度深度學(xué)習(xí)工作負載方面實現(xiàn)了重大突破,將諸如彈性等小眾特征轉(zhuǎn)化為主流特征,并在此基礎(chǔ)上實現(xiàn)了對深度學(xué)習(xí)工作負載的調(diào)度。
Singularity實現(xiàn)了前所未有的工作負載可替換性水平。工作負載能夠利用全球分布的機群中的任何地方的空閑資源。
Singularity提供簡單的用戶體驗:用戶只需要關(guān)注機器學(xué)習(xí)任務(wù)本身,而不需要考慮檢查點或彈性負載問題。這些基礎(chǔ)設(shè)施的優(yōu)化對用戶是完全透明的。
四年前的老項目「重生」?
ZD Net報道稱,Singularity 可能是將微軟此前推出的 Brainwave 項目推向商業(yè)化的下一個階段。
微軟此前曾討論過將 FPGA 或現(xiàn)場可編程門陣列作為服務(wù)提供給客戶的計劃。
2018 年,微軟公開了其旨在 Azure 中提供快速 AI 處理和計算能力的「Brainwave」項目。
當(dāng)時,微軟在云端提供了由 Brainwave 提供支持的 Azure 機器學(xué)習(xí)硬件加速模型的預(yù)覽——一個向客戶提供面向 AI 工作負載的 FPGA 處理平臺。
Brainwave 由高性能分布式系統(tǒng)架構(gòu)組成;運行在可定制芯片(FPGA)上的硬件深度神經(jīng)網(wǎng)絡(luò)引擎,用于部署訓(xùn)練模型的編譯器。
實際上,這不是微軟在自家平臺上第一次使用Singularity這個詞了。微軟之前就曾將 Singularity 用來命名微內(nèi)核操作系統(tǒng),以及一組完全以托管代碼開發(fā)的相關(guān)工具和資源庫。
Singularity 最終催生和/或影響了微軟的其他幾個云平臺和操作系統(tǒng)項目,對 Barrelfish、 Helios、 Midori和 Drawbridge等項目均產(chǎn)生了不小的影響。
AI計算平臺,大廠爭相布局
值得注意的是,在人工智能高性能計算和加速計算平臺的構(gòu)建上,微軟早就開始布局了。
2019年,微軟在OpenAI上投資了10億美元,并在一年后宣布,他們已經(jīng)與OpenAI合作并專門為OpenAI建造了第五強大的公開記錄超級計算機。
雖然微軟與OpenAI合作建造的AI超級計算機專門用于OpenAI,但微軟一直表示,他們計劃通過Azure AI服務(wù)和GitHub,想更多的用戶提供大型AI模型和訓(xùn)練優(yōu)化工具。
微軟還在其「Azure AI」旗下向不需要專用超級計算機的客戶提供各種加速計算服務(wù)。
2021年11月,微軟宣布將在Azure中使用 80GB NVIDIA A100 GPU,以擴大其AI超級計算機陣容。
而且,微軟并不是唯一一家試圖在內(nèi)部和客戶中提供人工智能超級計算功能的科技公司。Meta也在做同樣的事情,如無意外,Meta已經(jīng)將這項工作定位為解鎖元宇宙的關(guān)鍵。