大模型時代,九章云極DataCanvas點亮五座“燈塔”?
原創(chuàng)“計算”是貫穿人類文明史的一大主題。
早在茹毛飲血的原始社會,先民們就開始結繩記事;進入20世紀,世界上首臺數字式電子計算機ENIAC誕生,標志著人類算力正式跨越閾限;隨后半導體技術出現,芯片成為了算力的主要載體;科技巨輪駛入21世紀,云計算的發(fā)展再度為算力迎來巨變。
如今當我們習慣算力云化后,大模型的崛起又帶來變數,各色生成式AI應用落地,各地智算中心拔地而起,新一輪底層算力變革正式啟幕。
眾所周知,底層計算歷來都是軟硬件適配協(xié)同的結果。一方面,計算需求的演進,催生了硬件形態(tài)與功能的變革,另一方面,以操作系統(tǒng)為代表的軟件作為中樞神經,橋接著底層硬件與上層應用。
在此背景下,人工智能基礎軟件供應商九章云極DataCanvas于日前發(fā)布了DATACANVAS AIDC OS智算操作系統(tǒng)。這個團隊從智算操作系統(tǒng)入手,為算力的效能瓶頸求得一個新解。
迷失:算力利用率的困局
在大模型的狂飆突進中,算力需求的爆發(fā)式增長只是故事的開始。
在企業(yè)千帆競發(fā),掘金AI新大陸之前,無法忽視的是橫亙眼前的巨大鴻溝。這種“鴻溝”不僅表現在算力供需兩端的矛盾上,還表現在算力利用率上。公開數據顯示,目前整體算力利用率不足30%。
一方面,面對算力需求缺口,計算資源捉襟見肘;另一方面,現實中卻普遍存在大量算力資源未得到有效利用,以致被閑置和浪費的現象。
落實到智算中心的籌建中,這也是無法回避的問題。
下游算力需求的集中爆發(fā),催生了智算中心的建設熱潮。相比傳統(tǒng)IDC,智算中心的設計理念有著鮮明的差異:其一,在內部,GPU取代CPU成為主角,高速連接的 GPU 構成了新的計算中心;其二,就功能定位來說,其工作載荷高度聚焦,即大模型的訓練、調優(yōu)和推理。換言之,大模型反向驅動底層的資源管理。
從這個意義上說,智算中心可以被視為“模型的算力工廠”。
可是在智算中心的建設過程中,依舊面臨重重困難。九章云極DataCanvas聯合創(chuàng)始人&CTO尚明棟在接受采訪時,強調了兩個不可回避的問題:一是高額的成本;二是穩(wěn)定性的挑戰(zhàn)。
他提到:以構建1000P算力的智算中心為例,包括硬件、能源在內,總成本可能高達5.5億,其中硬件成本占比約80%,而能源成本每年約合1000到1500萬(根據不同地區(qū)的電力計價水平)。如此高昂的投入如何獲得穩(wěn)定持續(xù)的收入是必須思考的議題。
與此同時,隨著算力集群規(guī)模的增大,整個算力集群的穩(wěn)定性也越來越難以保障,因此,其效率也始終低于常規(guī)默認的基準。
要解決這些問題,提升算力利用率是當務之急。九章云極DataCanvas為之找到的突破口就是——智算操作系統(tǒng)。
尋路:操作系統(tǒng)躍遷的轉機
提到操作系統(tǒng),大家可能會想到 Windows、Linux、macOS等等。但到了大模型時代,當底層硬件架構從 以CPU為核心 變成以 GPU 為核心時,當大規(guī)模、高性能的 AI 計算任務逐漸成為剛需時,新一代操作系統(tǒng)的誕生成為必然。
相較傳統(tǒng)操作系統(tǒng),智算操作系統(tǒng)可以說是專門為適應AI時代計算需求而設計的操作系統(tǒng),它在硬件支持、資源調度、AI服務集成等方面進行了深度優(yōu)化和革新,旨在為用戶提供一個高效、易用、智能的平臺。
圍繞DATACANVAS AIDC OS智算操作系統(tǒng),尚明棟介紹了其整體的設計思路:
“智算中心操作系統(tǒng)的定位是管理好硬件和軟件的協(xié)同,能夠使GPU發(fā)揮出最大的算力。所以,在智算中心的操作系統(tǒng)里,需要協(xié)調上層和下層的生態(tài),下層面向智算基礎資源,能夠去協(xié)調高速算力、存儲和網絡,上層需要面對智算中心使用群體提供完整的大模型工具鏈?!?/span>
可說,在智算中心內部,AIDC OS 扮演了一個“頂天立地”的角色:上接大模型應用,下管萬卡集群,是智算中心進行運營和管理的基礎。如果把目光調整至外部,就會發(fā)現AIDC OS也是一個開放的生態(tài)。
“不僅可以在系統(tǒng)之上像九章云極DataCanvas開源的Alaya一樣,預訓練一個7B、13B、35B的大模型,同時也可以開放兼容其他開源大模型的微調和統(tǒng)一的模型納管?!?/span>
而對九章云極DataCanvas的研發(fā)團隊來說,打造 AIDC OS 是為了更好地利用算力,因此他們有著清晰的目標。
尚明棟對此做了進一步說明:
首先,降低用戶使用門檻。因為智算中心核心是面向模型,軟件供應商提供模型全生命周期的所有能力,通過軟件方式,能夠讓用戶無縫無感地將智算算力使用起來。
再者,能夠持續(xù)地降低成本,提升算力的有效性。通過提高整個智算中心運維的穩(wěn)定性,以及硬件的使用效率,最終達成降低智算中心的使用成本的目的。
至此,一幅在算力新紀元中乘風破浪的理想藍圖已然徐徐鋪開:以智算操作系統(tǒng)為橋梁,持續(xù)優(yōu)化算力資源配置,加速千行百業(yè)落地大模型的進程,增強其為產業(yè)創(chuàng)造的價值與經濟效益。那么九章云極要如何做到呢?
點燈:五大價值內核的聚力
在求索之路上,九章云極持續(xù)打磨 AIDC OS的功能和性能,最終提煉出五大價值內核,宛如在算力利用的困局中點亮了五座燈塔,照亮了算力飛躍的新航路。
尚明棟對這五大核心價值,進行了逐一說明。
告別“裸金屬”:紓解算力調度能力不足且利用率低的癥結
裸金屬服務器通常可以提供相對更安全的物理隔離,而且由于沒有虛擬化層的介入,它能避免虛擬化技術帶來的額外性能損耗,提供更接近硬件性能的計算能力。
而九章云極DataCanvas在這里提出的“告別裸金屬”,是希望能在裸金屬之上提供新的價值。更確切地說,是提升智算中心資產的附加值,將運營方的運營和運維的能力從裸算力設備提升到AI大模型運維和服務能力的輸出上。
尚明棟介紹:我們的AIDC OS通過對資源的協(xié)同管理和彈性調度,旨在最大限度提升效率。如何實現效率最大化?其策略關鍵在于采取更小粒度的調度和管理,而不是按照整機或整卡的固定分配模式。如此一來,就可以更加靈活地去分享內存資源,更高效地利用計算單元,確保對各類硬件資源進行充分且合理的調度,從而達到對更多計算資源進行高效利用的目的。
為AI而生:降低AI大模型訓練微調門檻
如前文所述,AIDC 區(qū)別于傳統(tǒng)的 IDC,不同的建設目的和驅動機制也導致兩者的計算方式和資源管理方式截然不同。
傳統(tǒng) IDC 的主要計算單元是 CPU,而且一定面向的是多任務,在此之上通過虛擬機的方式提供服務,從而實現普算服務,比如提供OA的服務、視頻直播服務、電商服務等等。
而 AIDC 的建設目的從來都只專注于人工智能核心任務。所以,AIDC OS從來不是傳統(tǒng)的云管平臺的平移,同樣GPU的高度異構也需要更強的抽象和隔離能力。針對大模型的訓練、微調、部署和推理等任務,AIDC OS提供的是集“算力、數據、算法、調度”為一體的融合服務。
全局加速優(yōu)化:彌補AI加速優(yōu)化能力不足
算力的成本高昂,決定了對其加速優(yōu)化本質上是對經濟效益的精打細算。如果加速優(yōu)化策略能實現10%的效率提升,則意味著在大模型的訓練過程中,將成功削減同等比例的成本支出。
尚明棟介紹,AIDC OS在加速性能上的顯著優(yōu)勢集中體現于推理端與訓練端,而這背后蘊含著九章云極DataCanvas研發(fā)團隊在工程實踐中的深厚積累。
“舉個例子,通過內核的優(yōu)化,可以將多個運算融合到一個內核中,從而減少內核的調用次數和跨內核訪問主內存的延遲。通過對Transformer的優(yōu)化內核,可以充分利用內存的帶寬,最大限度提升算力利用率,同時結合其他加速策略,包括編譯優(yōu)化并行加速、緩存優(yōu)化模型壓縮等等,可以使我們的推理速度提高4倍,同時將Token吞吐量提高到5倍?!?/span>
訓練端的優(yōu)化同樣卓有成效?!巴ㄟ^通信加速,通過梯度壓縮算法,將通信量減少了2到3倍,整體的訓練效率在保持原有精度的同時,單卡利用率提升50%。結合內存的優(yōu)化、數據的三級緩存、算法的加速等策略,集群訓練效率上可以提升100%?!?/span>
異構算力納管與調度:直擊異構算力資源納管困難
在智算中心構建過程中,異構算力的出現是常態(tài)。如果是在不同的智算中心,那么通過高速網絡異構的分散性會表現得更加突出。如何去調度和管理異構算力是必須直面的一大痛點。
而AIDC OS能夠做到的,不僅是可以支持不同廠商芯片模型的轉化,同時也可以實現在混合專家模型里進行混合訓練的技術。
九章云極DataCanvas對此同樣擁有大量工程化的積累。借助拓撲感知調度與Affinity調度策略,AIDC OS能夠根據拓撲位置實現算力資源的就近部署,從而精準優(yōu)化算力效能與作業(yè)性能。除拓撲感知調度外,系統(tǒng)還支持優(yōu)先級調度、故障感知調度以及動態(tài)平衡調度等多種調度機制,大幅提升算力資源的利用率。
1度算力:實現“買到即用到”的算力服務
這一核心理念的價值在于:九章云極DataCanvas從用戶視角出發(fā),首次提出了統(tǒng)一的算力服務計量單位“度”(DCU)。就像水、電一樣,算力也有了自己的衡量單位,這為標準化的算力計量計費、以及未來算力資源的互聯互通打下了基石。
尚明棟強調,1度算力并不單純是物理的衡量,它將所有硬件投入、運營管理、運維管理和運維投入變化囊括其中,實現可度量??闪炕乃懔τ谒懔Φ氖褂谜吆蛷V大的企業(yè)來說,意味著可以真正實現“買到即用到”的算力服務。
他談到:在訓練大模型的時候經常會遇到這樣的問題,由于前期經驗不足,團隊并不精準地知道到底需要多大規(guī)模的算力。同時,在此過程中,即使部署了大規(guī)模集群算力,依然會因為各種原因讓模型訓練中斷,比如數據問題,比如程序bug。一旦中斷,這些算力就會被浪費。
“所以我們在此提到的有效算力指的是,當你使用的時候算力是在計價的,當你沒有使用的時候,不會被計價,我們最終的用戶買到的是真正有效的算力。同時我們運營商也可以獲得更高的單價,隨著算網建設的發(fā)展,同樣1度算力度量的算力也會促進我們算力的流通進行公平的結算。”
遠航:重構計算,吾道不孤
僅從操作系統(tǒng)本身而言,生態(tài)的成功與否往往直接影響到其生存與繁榮。AIDC OS 同樣如此。而在智算中心的核心生態(tài)里,智算中心操作系統(tǒng)本身就處在承上啟下的關鍵連接位。如何不斷健全其生態(tài)構建,是關乎長遠的發(fā)展要義。
尚明棟表示,九章云極DataCanvas希望與GPU廠商、大模型廠商、智能體廠商、行業(yè)客戶以及智算中心的建設者都成為朋友,廣結善緣、共建生態(tài)。
目前為止,AIDC OS已經適配了中科、海光、N騰、天數智芯等主流GPU;另外,在大模型方面,除了九章云極DataCanvas自研的Alaya大模型之外,也可以支持一眾國內的開源大模型,在平臺上進行模型的微調和統(tǒng)一納管。
站在又一次技術浪潮襲來的當口,改變世界的能力可以被掌握在更多人手中。而要成為這場變革的舵手,不僅要有凌霄之志,更要有善利之懷,與志同道合者共繪智算新圖景。在駛向新大陸的征程里,革新之路,星漢燦爛;重構計算,吾道不孤。