自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI 大底座,大模型時代的答卷

人工智能
大模型是人工智能邁向通用智能的里程碑技術(shù),駕馭好大模型是完成智能化升級路徑上的必答題。超大規(guī)模的算力、全棧融合的軟件優(yōu)化,是對這道必答題的最好回答。

1. 文心一言的誕生

“文心一言就是在這個全國 AI 領(lǐng)域規(guī)模最大的高性能 GPU 集群上完成訓(xùn)練的?!?/p>

早在 2021 年 6 月,為了滿足未來的大模型訓(xùn)練任務(wù),百度智能云開始規(guī)劃全新的高性能 GPU 集群的建設(shè),聯(lián)合 NVIDIA 共同完成了可以容納萬卡以上規(guī)模的 IB 網(wǎng)絡(luò)架構(gòu)設(shè)計,集群中節(jié)點間的每張 GPU 卡都通過 IB 網(wǎng)絡(luò)連接, 并在 2022 年 4 月將集群建設(shè)完成,提供單集群 EFLOPS 級別的算力。

2023 年 3 月,文心一言在這個高性能集群上誕生,并不斷迭代出新的能力。目前,這個集群的規(guī)模還在不斷擴大。

NVIDIA 中國區(qū)解決方案與工程總經(jīng)理賴俊杰博士:高速 IB 網(wǎng)絡(luò)互聯(lián)的 GPU 集群是大模型時代的關(guān)鍵基礎(chǔ)設(shè)施。NVIDIA 和百度智能云共同建成的這個國內(nèi)云計算市場最大規(guī)模的高性能 GPU/IB 集群,將加速百度在大模型領(lǐng)域獲得更大突破。

2. 高性能集群設(shè)計

高性能集群并不是算力的簡單堆積,還需要經(jīng)過專門的設(shè)計和優(yōu)化,才能發(fā)揮出集群的整體算力。

在分布式訓(xùn)練中 GPU 會在機間和機內(nèi)不斷地進(jìn)行通信。在利用 IB 、RoCE 等高性能網(wǎng)絡(luò)為機間通信提供高吞吐、低時延的服務(wù)同時,還需要對服務(wù)器的內(nèi)部網(wǎng)絡(luò)連接,以及集群網(wǎng)絡(luò)中的通信拓?fù)溥M(jìn)行專門設(shè)計,滿足大模型訓(xùn)練對通信的要求。

做到極致的設(shè)計優(yōu)化,需要對 AI 任務(wù)中的各項操作都對基礎(chǔ)設(shè)施意味著什么有深刻理解。分布式訓(xùn)練中不同的并行策略,即模型、數(shù)據(jù)、參數(shù)如何進(jìn)行拆分,會產(chǎn)生不同的數(shù)據(jù)通信需求,比如數(shù)據(jù)并行和模型并行會分別引入大量的機內(nèi)和機間 Allreduce 操作,專家并行會產(chǎn)生機間 All2All 操作,4D 混合并行則會將各類并行策略產(chǎn)生的通信操作都引入。

為此,百度智能云從單機服務(wù)器和集群網(wǎng)絡(luò)兩個方面優(yōu)化設(shè)計,構(gòu)建高性能 GPU 集群。

在單機服務(wù)器方面,百度智能云的超級 AI 計算機 X-MAN,目前已經(jīng)進(jìn)化到第 4 代。X-MAN 4.0 為 GPU 建立起了高性能的卡間通信,提供單機內(nèi)部 134 GB/s 的 Allreduce 帶寬。這是目前百度定制化程度最高,專用物料最多的服務(wù)器產(chǎn)品。在 MLCommons 1.1 榜單中,X-MAN 4.0 在同配置單機硬件性能名列 TOP2。

在集群網(wǎng)絡(luò)方面,專門設(shè)計了面向大模型訓(xùn)練優(yōu)化過的三層 Clos 架構(gòu),確保在大規(guī)模訓(xùn)練時集群的性能和加速比。和傳統(tǒng)方式相比,該架構(gòu)經(jīng)過八導(dǎo)軌的優(yōu)化,讓任一同號卡在不同機器中的通信中的跳步數(shù)盡可能少,為 AI 訓(xùn)練中網(wǎng)絡(luò)流量占比最大的同號卡 Allreduce 操作提供高吞吐和低延時的網(wǎng)絡(luò)服務(wù)。

該網(wǎng)絡(luò)架構(gòu)可以最大能支持到 16000 卡的超大規(guī)模集群,這個規(guī)模是現(xiàn)階段全 IB 網(wǎng)絡(luò)盒式組網(wǎng)的最大規(guī)模。該集群的網(wǎng)絡(luò)性能穩(wěn)定一致性能做到了 98% 的水平,接近一直在穩(wěn)定通信的狀態(tài)。經(jīng)大模型算法團(tuán)隊驗證,在此超大規(guī)模集群上提交千億模型訓(xùn)練作業(yè),同等機器規(guī)模下整體訓(xùn)練效率是上一代集群的 3.87 倍。

但是,建設(shè)大規(guī)模高性能異構(gòu)集群,只是大模型成功落地的第一步。確保 AI 大模型訓(xùn)練任務(wù)的順利完成,還需要更多系統(tǒng)性軟硬一體的優(yōu)化。

3. 大模型訓(xùn)練的挑戰(zhàn)

過去幾年,大模型的參數(shù)規(guī)模將達(dá)到每年增長 10 倍的速度。2020 年左右,億級別參數(shù)才是大模型,2022 年,已經(jīng)是需要千億參數(shù)規(guī)模才能叫大模型了。

在大模型之前,一個 AI 模型的訓(xùn)練,通常單機單卡、或者單機多卡就可以滿足,訓(xùn)練周期在小時到數(shù)天之間?,F(xiàn)在,為了完成千億參數(shù)大模型的訓(xùn)練,幾百臺服務(wù)器、數(shù)千張 GPU/XPU 卡的大集群分布式訓(xùn)練成為必選項,訓(xùn)練周期也擴展到以月為單位。

為了訓(xùn)練 1750 億參數(shù)的 GPT-3 (3000 億 token 數(shù)據(jù)),1 塊 A100 按半精度峰值計算性能折算需要 32 年, 1024 塊 A100 按資源利用率 45% 計算需要 34 天時間。當(dāng)然,即使不考慮時間問題,1 塊 A100 也是無法訓(xùn)練千億參數(shù)規(guī)模的模型的,因為模型參數(shù)已經(jīng)超過單卡顯存容量。

在分布式訓(xùn)練的環(huán)境下進(jìn)行大模型訓(xùn)練,訓(xùn)練周期從單卡幾十年縮短到幾十天,需要突破計算墻、顯存墻、通信墻等各種挑戰(zhàn),使得集群內(nèi)的所有資源都能被充分利用,加速訓(xùn)練過程,縮短訓(xùn)練周期。

計算墻,指的是單卡算力和模型總算力之間的巨大差異。A100 的單卡算力只有 312 TFLOPS,而 GPT-3 則需要 314 ZFLOPs 的總算力,兩者相差了 9 個數(shù)量級。

顯存墻,指的是單卡無法完整存儲一個大模型的參數(shù)。GPT-3 的 1750 億參數(shù)本身就需要 700 GB 的顯存空間(每個參數(shù)按照 4 個字節(jié)計算),而 NVIDIA A100 GPU 只有 80 GB 顯存。

計算墻和顯存墻的本質(zhì)是有限的單卡能力和模型的巨大的存儲、計算需求之間的矛盾。這可以通過分布式訓(xùn)練的方法解決,但分布式訓(xùn)練之后又會遇到通信墻的問題。

通信墻,主要是分布式訓(xùn)練下集群各計算單元需要頻繁參數(shù)同步,通信性能將影響整體計算速度。如果通信墻如果處理的不好,很可能導(dǎo)致集群規(guī)模越大,訓(xùn)練效率反而會降低。成功的突破通信墻,體現(xiàn)為集群有較強的擴展能力,即集群的多卡加速能力和規(guī)模是匹配的。多卡的線性加速比就是評估集群多卡加速能力的指標(biāo),數(shù)值越高越好。

這幾堵墻在多機多卡的訓(xùn)練中開始出現(xiàn)。隨著大模型的參數(shù)越來越大,對應(yīng)的集群規(guī)模也越來越大,這三堵墻也越來越高。同時,在大集群長時間訓(xùn)練過程中,還會出現(xiàn)設(shè)備故障,有可能會影響或者中斷訓(xùn)練進(jìn)程。

4. 大模型訓(xùn)練的過程

一般來說,從基礎(chǔ)設(shè)施視角看大模型訓(xùn)練,整個過程可以大致分成以下兩個階段:

階段一:并行策略和訓(xùn)練優(yōu)化

在提交待訓(xùn)練的大模型后,AI 框架會綜合考慮大模型的結(jié)構(gòu)等信息、以及訓(xùn)練集群的能力,為本次訓(xùn)練任務(wù)制定出一個并行訓(xùn)練策略,并完成 AI 任務(wù)放置。這個過程就是拆開模型、放置任務(wù),即大模型應(yīng)該被如何拆解,被拆開的各個部分如何放置到集群的各個 GPU/XPU 中。

針對放置在 GPU/XPU 中運行的 AI 任務(wù),AI 框架會聯(lián)合訓(xùn)練集群在單卡運行時和集群通信層面進(jìn)行全鏈路優(yōu)化,加速大模型訓(xùn)練過程中各個 AI 任務(wù)的運行效率,包括數(shù)據(jù)加載,算子計算、通信策略等。比如將 AI 任務(wù)中運行的普通算子替換為經(jīng)過優(yōu)化的高性能算子,提供適配當(dāng)前并行策略和訓(xùn)練集群網(wǎng)絡(luò)能力的通信策略等。

階段二:資源管理和任務(wù)調(diào)度

大模型訓(xùn)練任務(wù)按照上面制定的并行策略開始運行,訓(xùn)練集群為 AI 任務(wù)提供各類高性能的資源。比如 AI 任務(wù)運行在什么環(huán)境中,如何為 AI 任務(wù)提供資源對接,AI 任務(wù)通過什么存儲方式讀取和保存數(shù)據(jù),GPU/XPU 通過什么類型網(wǎng)絡(luò)設(shè)施通信等。

同時,在運行過程中,訓(xùn)練集群會聯(lián)合 AI 框架通過彈性容錯等方式,為大模型的長時間訓(xùn)練提供可靠的環(huán)境。比如如何觀測和感知集群中各類資源和 AI 任務(wù)的運行狀態(tài)等,如何在集群變化時能夠?qū)Y源和 AI 任務(wù)進(jìn)行調(diào)度等。

從以上兩個階段的拆解中,我們可以發(fā)現(xiàn)整個大模型訓(xùn)練的過程,都依賴 AI 框架和訓(xùn)練集群的密切配合,完成對三堵墻的突破,共同確保大模型訓(xùn)練的高效和穩(wěn)定。

5. 全棧融合,「AI 大底座」加速大模型訓(xùn)練

結(jié)合多年在 AI 和大模型領(lǐng)域的技術(shù)積累和工程實踐,百度在 2022 年底推出了全棧自研的 AI 基礎(chǔ)設(shè)施「AI 大底座」,包括「芯片 – 框架 – 模型 」三層技術(shù)棧,在各個層面都擁有關(guān)鍵自研技術(shù)和領(lǐng)先產(chǎn)品,分別對應(yīng)昆侖芯、飛槳 (PaddlePaddle)、文心大模型。

在這三層技術(shù)棧的基礎(chǔ)上,百度智能云推出了兩大 AI 工程平臺,「AI 中臺」和「百度百舸· AI 異構(gòu)計算平臺」,分別在開發(fā)和資源層面進(jìn)行提效,完成對三堵墻的突破,加速訓(xùn)練過程。

其中,「AI 中臺」依托 AI 框架為大模型訓(xùn)練過程制定并行策略和優(yōu)化過的環(huán)境,覆蓋訓(xùn)練的全生命周期?!赴俣劝亵?」實現(xiàn)了高效的芯片使能,提供各類 AI 資源的管理和任務(wù)調(diào)度的能力。

圖片

百度「AI 大底座」對各層的技術(shù)棧進(jìn)行了全棧融合、系統(tǒng)優(yōu)化,完成了云和智的技術(shù)一體化建設(shè),可以實現(xiàn)對大模型訓(xùn)練的端到端優(yōu)化和加速。

百度集團(tuán)副總裁侯震宇:大模型訓(xùn)練是一個系統(tǒng)工程,集群規(guī)模、訓(xùn)練時間、花費金額,相比過去都提高了很多。如果不是全棧優(yōu)化,很難保證大模型訓(xùn)練的順利完成。百度多年來在大模型上的技術(shù)投入和工程實踐,使得我們建立起了一套完整的軟件棧能力,用來加速大模型的訓(xùn)練。

接下來,我們將結(jié)合上文提到的大模型訓(xùn)練過程的兩階段,講述「AI 大底座」的各層技術(shù)棧是如何相互融合、系統(tǒng)優(yōu)化,實現(xiàn)大模型訓(xùn)練的端到端優(yōu)化和加速。

5.1 并行策略和訓(xùn)練優(yōu)化

模型拆分

飛槳可以為大模型訓(xùn)練提供數(shù)據(jù)并行、模型并行、流水并行、參數(shù)分組切片、專家并行等豐富的并行策略。這些并行策略可以滿足從十億到千億、甚至萬億參數(shù)規(guī)模大模型的訓(xùn)練,實現(xiàn)對計算墻和顯存墻的突破。2021 年 4 月,飛槳在業(yè)界第一個提出 4D 混合并行策略,可支持千億級大模型的訓(xùn)練在月級別完成。

拓?fù)涓兄?/h4>

百度百舸擁有專為大模型訓(xùn)練場景準(zhǔn)備的集群拓?fù)涓兄芰?,包括?jié)點內(nèi)架構(gòu)感知、節(jié)點間架構(gòu)感知等,比如每臺服務(wù)器內(nèi)部的算力大小、 CPU 和 GPU/XPU、GPU/XPU 和 GPU/XPU 鏈接方式,以及服務(wù)器之間 GPU/XPU 和 GPU/XPU 網(wǎng)絡(luò)鏈接方式等信息。

自動并行

在大模型訓(xùn)練任務(wù)開始運行前,飛槳可以依據(jù)百度百舸平臺的拓?fù)涓兄芰?,對集群形成統(tǒng)一分布式資源圖。同時,飛槳根據(jù)待訓(xùn)練的大模型形成的統(tǒng)一邏輯計算視圖。

綜合這兩張圖,飛槳自動化地為模型搜索出最優(yōu)的模型切分和硬件組合策略,將模型參數(shù)、梯度、優(yōu)化器狀態(tài)按照最優(yōu)策略分配到不同的 GPU/XPU 上,完成 AI 任務(wù)的放置以提升訓(xùn)練性能。

比如將模型并行的 AI 任務(wù)都放置在同一臺服務(wù)器的不同 GPU 上,這些 GPU 通過服務(wù)器內(nèi)部的 NVSwitch 鏈接。將數(shù)據(jù)并行、流水線并行的 AI 任務(wù)放置在不同服務(wù)器的同號 GPU 上,這些 GPU 通過 IB 或者 RoCE 鏈接。通過這種依據(jù) AI 任務(wù)的類型進(jìn)行 AI 任務(wù)放置的的方法,使得集群資源能夠被高效使用,加速大模型訓(xùn)練。

端到端自適應(yīng)訓(xùn)練

在訓(xùn)練任務(wù)運行過程中,如果集群發(fā)生了變化,比如有資源出現(xiàn)了故障,或者集群規(guī)模有變化,百度百舸會進(jìn)行容錯的替換或者彈性擴縮容。由于參與計算的節(jié)點所在位置發(fā)生了變化,它們之間的通信模式也許已經(jīng)不是最優(yōu)。飛槳能夠依據(jù)最新的集群信息,自動調(diào)整模型切分和 AI 任務(wù)放置策略。同時,百度百舸完成相應(yīng)的任務(wù)和資源的調(diào)度。

飛槳統(tǒng)一的資源和計算視圖以及自動并行能力,再結(jié)合百度百舸的彈性調(diào)度能力,實現(xiàn)了大模型的端到端自適應(yīng)分布式訓(xùn)練,可以覆蓋集群訓(xùn)練的全生命周期。

這是 AI 框架和 AI 異構(gòu)算力平臺的深入交互,實現(xiàn)了算力、框架、算法三位一體的系統(tǒng)優(yōu)化,支持大模型自動彈性的進(jìn)行訓(xùn)練,端到端實測有 2.1 倍的性能提升,保證了大規(guī)模訓(xùn)練的高效性。

訓(xùn)練優(yōu)化

完成模型的拆分和 AI 任務(wù)的放置后,在訓(xùn)練過程中為了確保算子在飛槳、Pytorch 等各類主流 AI 框架和各類計算卡上可以加速計算,百度百舸平臺中內(nèi)置了 AI 加速套件。AI 加速套件包括了數(shù)據(jù)層存儲加速、訓(xùn)練和推理加速庫 AIAK ,分別從數(shù)據(jù)加載、模型計算、分布式通信等維度進(jìn)行了全鏈路優(yōu)化。

其中,數(shù)據(jù)加載和模型計算的優(yōu)化可以有效提高單卡的運行效率;分布式通信的優(yōu)化,結(jié)合集群的 IB 或者 RoCE 等高性能網(wǎng)絡(luò)和專門優(yōu)化的通信拓?fù)?,以及合理?AI 任務(wù)放置策略,共同解決通信墻問題。

百度百舸在千卡規(guī)模集群中的多卡加速比達(dá)到了 90%,使得集群擁有的整體算力可以被充分釋放出來。

在 2022 年 11 月發(fā)布的 MLPerf Trainning v2.1 測試結(jié)果中,百度使用飛槳加百度百舸提交的模型訓(xùn)練性能結(jié)果,位列同等 GPU 配置下世界第一,端到端訓(xùn)練時間和訓(xùn)練吞吐均超越 NGC PyTorch 框架。

5.2 資源管理和任務(wù)調(diào)度

百度百舸通過容器引擎 CCE 承載所有 AI 任務(wù)的運行,并通過相關(guān)容器插件的方式提供各類 AI 資源管理、架構(gòu)感知、彈性容錯等能力,在資源效能層面完成計算墻、顯存墻、通信墻的突破。

資源管理

百度百舸可以提供各類計算、網(wǎng)絡(luò)、存儲等 AI 資源,包括百度太行·彈性裸金屬服務(wù)器 BBC、IB 網(wǎng)絡(luò)、RoCE 網(wǎng)絡(luò)、并行文件存儲 PFS、對象存儲 BOS、數(shù)據(jù)湖存儲加速 RapidFS 等各類適合大模型訓(xùn)練的云計算資源。

在任務(wù)運行時,可以將這些高性能資源進(jìn)行合理的組合,進(jìn)一步提升 AI 作業(yè)的效率,全流程實現(xiàn) AI 任務(wù)的計算加速。在 AI 任務(wù)開始前可以預(yù)熱對象存儲 BOS 中的訓(xùn)練數(shù)據(jù),通過彈性 RDMA 網(wǎng)絡(luò)將數(shù)據(jù)加載至數(shù)據(jù)湖存儲加速 RapidFS 中。彈性 RDMA 網(wǎng)絡(luò)相比傳統(tǒng)網(wǎng)絡(luò)可以降低 2 至 3 倍通信時延,在高性能存儲的基礎(chǔ)上,加速 AI 任務(wù)數(shù)據(jù)的讀取。最后通過高性能的百度太行·彈性裸金屬服務(wù)器 BBC 或者云服務(wù)器 BCC,進(jìn)行 AI 任務(wù)的計算。

彈性容錯

AI 任務(wù)運行時,不僅需要高性能的資源,還需要確保集群的穩(wěn)定,最大程度降低資源故障發(fā)生率以免打斷訓(xùn)練。但是,資源的故障不能絕對避免,AI 框架和訓(xùn)練集群需要聯(lián)合保證訓(xùn)練任務(wù)被打斷后能夠從最近的狀態(tài)恢復(fù),從而為大模型的長時間訓(xùn)練提供可靠環(huán)境。

百度自研的異構(gòu)集合通庫 ECCL ,支持昆侖芯和其他異構(gòu)芯片的通信,支持慢節(jié)點和故障節(jié)點的感知。通過百度百舸的資源彈性和容錯策略,將慢節(jié)點和故障節(jié)點剔除,并將最新的架構(gòu)拓?fù)浞答伣o飛槳,重新進(jìn)行任務(wù)布置,對應(yīng)訓(xùn)練任務(wù)調(diào)配至其他 XPU/GPU 上,確保訓(xùn)練的平滑高效運行。

6. 大模型時代的 AI 普惠

大模型是人工智能邁向通用智能的里程碑技術(shù),駕馭好大模型是完成智能化升級路徑上的必答題。超大規(guī)模的算力、全棧融合的軟件優(yōu)化,是對這道必答題的最好回答。

為了幫助社會和產(chǎn)業(yè)快速訓(xùn)練出自己的大模型,搶占時代先機,2022 年底百度智能云發(fā)布了陽泉智算中心,搭載百度「AI 大底座」的全棧能力,可以提供 4 EFLOPS 的異構(gòu)算力。這是目前亞洲單體規(guī)模最大、技術(shù)最先進(jìn)的數(shù)據(jù)中心。

目前,百度智能云已經(jīng)將「AI 大底座」的全部能力對外開放,實現(xiàn)大模型時代的 AI 普惠,通過各個地域的中心云、邊緣云 BEC、本地計算集群 LCC、私有云 ABC Stack 等多種形式進(jìn)行交付,使得社會和產(chǎn)業(yè)可以方便的獲得智能服務(wù)。

責(zé)任編輯:武曉燕 來源: 百度智能云技術(shù)站
相關(guān)推薦

2023-08-31 07:16:32

人工智能AI算力

2023-07-14 13:49:18

OceanStor華為

2024-07-01 21:06:10

2024-10-08 08:30:15

AI大模型C端

2024-09-26 00:10:00

Agent大模型AI

2023-06-28 18:52:53

火山引擎智譜AI

2023-12-08 07:44:20

2024-06-19 16:11:22

2025-02-28 10:13:58

2023-07-17 16:07:51

人工智能監(jiān)管部門

2024-12-25 08:02:17

人工智能AI運維

2025-04-16 04:20:00

2024-07-03 14:01:42

2025-04-22 08:08:37

2024-05-29 10:31:52

點贊
收藏

51CTO技術(shù)棧公眾號