谷歌AI芯片大升級(jí):瞄準(zhǔn)大模型和生成式AI,還集成主流深度學(xué)習(xí)框架
一直以來,谷歌已經(jīng)構(gòu)建了業(yè)界領(lǐng)先的 AI 能力,比如引領(lǐng)新一代人工智能發(fā)展的 Transformer 架構(gòu)、利用 AI 進(jìn)行優(yōu)化的基礎(chǔ)設(shè)施等。其中谷歌云則致力于提供先進(jìn)的 AI 基礎(chǔ)設(shè)施服務(wù),包括 GPU 和 TPU。
當(dāng)?shù)貢r(shí)間 8 月 29 日,谷歌云舉辦了 Google Cloud Next ’23 年度大會(huì),推出了全新的 TPU 產(chǎn)品 ——Cloud TPU v5e,它是 AI 優(yōu)化的基礎(chǔ)設(shè)施產(chǎn)品組合,并將成為迄今為止最具成本效益、多功能且可擴(kuò)展的云 TPU。目前已經(jīng)提供了預(yù)覽版。
我們了解到, TPU v5e 能夠與 Google Kubernetes Engine(GKE)、用于構(gòu)建模型和 AI 應(yīng)用的開發(fā)者工具 Vertex AI 以及 Pytorch、JAX、TensorFlow 等深度學(xué)習(xí)框架集成在一起,提供了易用和熟悉的界面,很容易上手。
谷歌云還推出了基于英偉達(dá) H100 GPU 的 GPU 超級(jí)計(jì)算機(jī) A3 VMs,為大規(guī)模 AI 大模型提供支持。這款產(chǎn)品將于 9 月份全面上市。
谷歌 CEO 皮查伊。
谷歌首席科學(xué)家、知名學(xué)者 Jeff Dean 的推文。
此外在活動(dòng)上,谷歌還宣布將 Meta 和 Anthropic 等公司的 AI 工具(如 Llama 2 和 Claude 2)添加到其云平臺(tái)上, 在云產(chǎn)品中集成強(qiáng)大的生成式 AI 能力。目前包括 Llama 2 和 Claude 2 在內(nèi),谷歌云客戶可以使用 100 多個(gè)強(qiáng)大的 AI 模型和工具。
相較于 TPU v4,TPU v5e 在哪些方面升級(jí)了
谷歌云這次推出的 TPU v5e 性能和易用性到底如何呢?我們接著來看。
根據(jù)官方提供的數(shù)據(jù),Cloud TPU v5e 為中型和大型訓(xùn)練和推理帶來了高性能和成本效益。這代 TPU 可以說專為大語言模型和生成式 AI 模型打造,與前代 TPU v4 相比,每美元訓(xùn)練性能提升高達(dá) 2 倍、每美元推理性能提升高達(dá) 2.5 倍。并且 TPU v5e 的成本不到 TPU v4 的一半,使更多機(jī)構(gòu)有機(jī)會(huì)訓(xùn)練和部署更大、更復(fù)雜的 AI 模型。
TPU v5e 芯片。
值得一提的是, 得益于技術(shù)上的創(chuàng)新,這些成本效益并不需要犧牲任何性能或靈活性。谷歌云利用 TPU v5e pods 來平衡性能、靈活性和效率,最多允許 256 個(gè)芯片互連,總帶寬超過 400 Tb/s,INT8 性能達(dá)到 100 petaOps。
一個(gè) TPU v5e 的 2D 切片細(xì)節(jié)。
TPU v5e 還具有很強(qiáng)的多功能性,支持八種不同的虛擬機(jī)配置,單片內(nèi)芯片數(shù)量可以從一個(gè)到 256 個(gè),允許客戶選擇合適的配置來支持不同規(guī)模的大語言模型和生成式 AI 模型。
除了更強(qiáng)功能和成本效益之外,TPU v5e 的易用性也達(dá)到了一個(gè)全新的高度?,F(xiàn)在客戶可以通過 Google Kubernetes Engine(GKE)來管理 TPU v5e 以及 TPU v4 上的大規(guī)模 AI 工作負(fù)載編排,進(jìn)而提升 AI 開發(fā)效率。對(duì)于喜歡簡單托管服務(wù)的機(jī)構(gòu)而言,Vertex AI 現(xiàn)在支持使用 Cloud TPU 虛擬機(jī)來訓(xùn)練不同的框架和庫了。
另外如前文提到的,Cloud TPU v5e 為 JAX、PyTorch 和 TensorFlow 等領(lǐng)先的 AI 框架以及流行開源工具(Huggingface 的 Transformers 和 Accelerate、PyTorch Lightning 和 Ray)提供了內(nèi)置支持。即將推出的 PyTorch/XLA 2.1 版本將支持 TPU v5e 以及用于大規(guī)模模型訓(xùn)練的建模和數(shù)據(jù)并行等新功能。
最后為了更輕松地?cái)U(kuò)展訓(xùn)練工作,谷歌云在 TPU v5e 預(yù)覽版中引入了 Multislice 技術(shù),使用戶輕松擴(kuò)展 AI 模型,并且可以超出物理 TPU pods 的范圍,最多可以容納數(shù)萬個(gè) TPU v5e 或 TPU v4 芯片。
利用多個(gè) TPU Podslices 實(shí)現(xiàn)性能線性擴(kuò)展。
截至目前,使用 TPU 的訓(xùn)練工作僅限于單片 TPU 芯片,TPU v4 的最大切片數(shù)量為 3,072。借助 Multislice,開發(fā)人員可以利用單個(gè) Pod 內(nèi)的 ICI(芯片內(nèi)互連)技術(shù)或者通過數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)上的多個(gè) Pod,將工作負(fù)載擴(kuò)展到數(shù)萬個(gè)芯片。
這種多層切片技術(shù)為谷歌構(gòu)建其最先進(jìn)的 PaLM 模型提供了支持?,F(xiàn)在谷歌云客戶也能體驗(yàn)這一技術(shù)了。
此次升級(jí)的 TPU v5e 得到了客戶的高度認(rèn)可。AssemblyAI 技術(shù)副總裁 Domenic Donato 表示,當(dāng)使用 TPU v5e 在他們的 ASR(自動(dòng)語音識(shí)別)模型上運(yùn)行推理時(shí),每美元的性能始終是市場(chǎng)同類解決方案的 4 倍。這種強(qiáng)大的軟硬件組合能夠?yàn)樗麄兊目蛻籼峁└?jīng)濟(jì)高效的 AI 解決方案。
隨著谷歌云不斷升級(jí) AI 基礎(chǔ)設(shè)施,越來越多的客戶將選擇使用谷歌云服務(wù)。據(jù)此前谷歌母公司 Aplabet 的介紹,超過半數(shù)的生成式 AI 初創(chuàng)公司正在使用谷歌的云計(jì)算平臺(tái)。
對(duì)于谷歌而言,此次 Cloud TPU v5e 拉開了進(jìn)一步變革產(chǎn)品模式、賦能云客戶的序幕。