谷歌云更新 Kubernetes 引擎,可支持萬(wàn)億參數(shù)的人工智能模型
生成式人工智能模型越來(lái)越大,參數(shù)已多達(dá) 2 萬(wàn)億個(gè),大型語(yǔ)言模型對(duì)計(jì)算和存儲(chǔ)的需求也在增加。
谷歌云(Google Cloud)今天宣布升級(jí)旗下 Kubernetes 引擎的容量,以應(yīng)對(duì)更大規(guī)模的模型,Kubernetes 引擎的容量將從目前支持 15000 個(gè)節(jié)點(diǎn)集群升級(jí)到支持 65000 個(gè)節(jié)點(diǎn)集群。Kubernetes 引擎的擴(kuò)容將為處理全球最復(fù)雜且資源密集型的人工智能任務(wù)提供所需的規(guī)模和計(jì)算能力。
在人工智能加速器工作負(fù)載上訓(xùn)練數(shù)萬(wàn)億參數(shù)的模型需要超過(guò) 10,000 個(gè)節(jié)點(diǎn)的集群。人工智能模型的參數(shù)指的是模型中的變量,這些變量控制著模型的行為方式和預(yù)測(cè)能力。變量越多,模型準(zhǔn)確預(yù)測(cè)的能力就越強(qiáng)。參數(shù)有點(diǎn)類似于模型里的旋鈕或開(kāi)關(guān),模型開(kāi)發(fā)者可以調(diào)整這些參數(shù)達(dá)到提高模型性能或準(zhǔn)確性的目的。
谷歌云Kubernetes和無(wú)服務(wù)器高級(jí)產(chǎn)品總監(jiān) Drew Bradstock 在接受記者采訪時(shí)表示,“從根本上講,大型語(yǔ)言模型(LLM)不斷增大,世界各地公司需要非常大的集群才能高效運(yùn)行這些模型。他們不僅僅需要大型集群。他們需要可靠、可擴(kuò)展的集群才能應(yīng)對(duì)運(yùn)行這些 LLM 訓(xùn)練工作負(fù)載實(shí)際遇到的挑戰(zhàn)?!?/p>
谷歌 Kubernetes 引擎(縮寫(xiě)為 GKE)是谷歌提供的托管 Kubernetes 服務(wù),GKE 可減少運(yùn)行容器環(huán)境的工作量。GKE 可根據(jù)工作負(fù)載需求的變化自動(dòng)添加和移除硬件資源,例如專用人工智能芯片或圖形處理單元。GKE 也可以為用戶 更新 Kubernetes 及監(jiān)督其他維護(hù)任務(wù)。
GKE 新的65,000節(jié)點(diǎn)集群能夠管理分布在250,000個(gè)張量處理單元上的人工智能模型,張量處理單元是用于加速機(jī)器學(xué)習(xí)和生成式人工智能工作負(fù)載的專用人工智能處理器。Bradstock 表示,這比 GKE 在單個(gè)集群上以前的基準(zhǔn)(5 萬(wàn)個(gè) TPU 芯片)提高了五倍。
新的65,000節(jié)點(diǎn)集群大大提高了運(yùn)行大規(guī)模人工智能工作負(fù)載的可靠性和效率。Bradstock 認(rèn)為,規(guī)模的增加對(duì)大規(guī)模人工智能訓(xùn)練和推理都很重要,因?yàn)?Kubernetes 允許用戶無(wú)需擔(dān)心停機(jī)就可以處理基于硬件的故障。這也能加快作業(yè)完成時(shí)間,因?yàn)轭~外的容量可以在更短的時(shí)間內(nèi)運(yùn)行更多的模型迭代。
Bradstock 表示,為了實(shí)現(xiàn)這一目標(biāo),谷歌云正在將GKE從開(kāi)源的分布式鍵值存儲(chǔ)etcd過(guò)渡到更強(qiáng)大的基于谷歌分布式數(shù)據(jù)庫(kù)Spanner系統(tǒng)。這將使 GKE 集群能夠處理幾乎無(wú)限的規(guī)模并提供更低的延遲。
谷歌還對(duì) GKE 基礎(chǔ)設(shè)施進(jìn)行了重大改造,改造后 GKE 的擴(kuò)展速度顯著加快。客戶需求因此能夠更快地得到滿足。此外,GKE 也能夠在單個(gè)集群中運(yùn)行五個(gè)負(fù)載作業(yè),每個(gè)作業(yè)的規(guī)模均與谷歌云之前訓(xùn)練大型語(yǔ)言模型的記錄相匹配。
Bradstock表示,客戶的關(guān)注、該系統(tǒng)中人工智能的普及以及人工智能在整個(gè)行業(yè)的快速發(fā)展等等推動(dòng)了升級(jí)需求。谷歌的客戶一直都在利用 GKE 的集群功能訓(xùn)練他們的模型,客戶包括Anthropic PBC等領(lǐng)先的前沿人工智能模型開(kāi)發(fā)商。
Anthropic 公司計(jì)算主管 James Bradbury 表示,“GKE 對(duì)更大型集群的新支持為我們提供了加快人工智能創(chuàng)新步伐所需的規(guī)模?!?/p>
Bradstock表示,在過(guò)去的一年里,GKE 上 TPU 和圖形處理單元的使用增加了 900%,大大超過(guò)了以前的使用量,而以前使用量就已經(jīng)很大了。他表示,“這主要是由人工智能的快速增長(zhǎng)所推動(dòng)的。人工智能在未來(lái)將占 GKE 使用的主