AI時(shí)代CIO如何應(yīng)對(duì)GPU匱乏
通過(guò)采用模型優(yōu)先的心態(tài)、優(yōu)化利用率和戰(zhàn)略性地運(yùn)用負(fù)載平衡,首席信息官可以緩解芯片短缺。
譯自How CIOs Can Battle GPU Poverty in the Age of AI,作者 Liam Crilly。
人工智能時(shí)代的淘金熱已經(jīng)到來(lái),但對(duì)于許多公司來(lái)說(shuō),鶴嘴鋤卻處于缺貨狀態(tài)。隨著人工智能需求的激增,一種被稱為“GPU 匱乏”的現(xiàn)象正在困擾 CIO,其速度超過(guò)了建立數(shù)據(jù)中心以及更重要的是為其提供動(dòng)力所需的芯片的能力。
簡(jiǎn)而言之,GPU 匱乏意味著希望將 GPU 用于人工智能計(jì)算的組織根本無(wú)法在這些強(qiáng)大的并行處理系統(tǒng)上購(gòu)買容量,而這些系統(tǒng)是運(yùn)行許多類型機(jī)器學(xué)習(xí)的最有效方式。
這種稀缺性源于完美風(fēng)暴的完美風(fēng)暴。強(qiáng)大的圖形處理單元的全球芯片短缺已導(dǎo)致初創(chuàng)公司專門籌集資金來(lái)購(gòu)買 GPU——當(dāng)你考慮到在獲得收入之前進(jìn)行大規(guī)模資本支出正是云計(jì)算解決的問(wèn)題時(shí),這是一種瘋狂的策略。然后是人工智能工作負(fù)載不斷增長(zhǎng)的需求。
隨著越來(lái)越多的企業(yè)尋求利用 OpenAI 和 Google 等公司的人工智能服務(wù)或利用云中的人工智能模型和工具鏈,它們?cè)黾恿藢?duì) GPU 定價(jià)的壓力——使 GPU 進(jìn)一步超出初創(chuàng)公司和其他缺乏資金的組織的承受范圍。
GPU 匱乏正在整個(gè)供應(yīng)鏈以及人工智能構(gòu)建者的整個(gè)工具帶上上下波動(dòng)。數(shù)據(jù)中心建設(shè)設(shè)備面臨著備用發(fā)電機(jī)和變壓器等需求核心組件的多年積壓。即使是尋找擁有廉價(jià)房地產(chǎn)、廉價(jià)且充足的電力以及與全球互聯(lián)網(wǎng)快速連接的合適地點(diǎn)也變得更加艱巨。
然后是芯片缺失的問(wèn)題。半導(dǎo)體制造廠正在努力跟上步伐,他們快速建造新工廠的努力只會(huì)經(jīng)過(guò)許多年才能取得成果。
與此同時(shí),超大規(guī)模云提供商和大型企業(yè)正在吞噬有限的 GPU 生產(chǎn)供應(yīng),導(dǎo)致價(jià)格暴漲。對(duì)于許多公司,特別是那些沒(méi)有無(wú)底預(yù)算的公司來(lái)說(shuō),在云中訪問(wèn) GPU 以用于人工智能應(yīng)用程序的困難正在成為重大的業(yè)務(wù)風(fēng)險(xiǎn)。
然而,聰明的 CIO 可以通過(guò)常識(shí)性步驟來(lái)降低運(yùn)行企業(yè)人工智能的資源需求,從而緩解 GPU 瘋狂。
使用節(jié)儉模型和推理
就像一個(gè)足智多謀的旅行者學(xué)會(huì)輕裝上陣一樣,數(shù)據(jù)科學(xué)家可以使用更小、更高效的人工智能模型取得驚人的成果。例如,微軟的 Phi-2 模型經(jīng)過(guò)教科書(shū)和超高質(zhì)量數(shù)據(jù)的訓(xùn)練,既緊湊又節(jié)能,需要更少的計(jì)算來(lái)調(diào)整和推理。
量化和剪枝等較新的技術(shù)使研究人員能夠縮小龐然物模型,而不會(huì)犧牲準(zhǔn)確性。TensorFlow Lite 等框架專門設(shè)計(jì)用于在邊緣設(shè)備上部署這些精簡(jiǎn)模型,Hugging Face 等初創(chuàng)公司正在使預(yù)訓(xùn)練的、高效模型的訪問(wèn)民主化。負(fù)責(zé) PyTorch 框架的團(tuán)隊(duì)也在創(chuàng)造新的方法,以更少的數(shù)據(jù)和開(kāi)銷有效地訓(xùn)練模型。
優(yōu)化一切
隨著 GPU 時(shí)間的平流層價(jià)格,優(yōu)化人工智能工作負(fù)載可以快速且很好地獲得回報(bào)。人工智能工程和 MLOps 團(tuán)隊(duì)?wèi)?yīng)積極且頻繁地分析性能以識(shí)別瓶頸。這可能意味著對(duì)不同的配置(批次大小、GPU 數(shù)量)進(jìn)行基準(zhǔn)測(cè)試,以找到最適合你特定任務(wù)的最高效設(shè)置,因?yàn)樗⒉豢偸侵苯拥摹?/span>
精明的團(tuán)隊(duì)將在訓(xùn)練期間組合和調(diào)整數(shù)據(jù)精度(FP16、FP32 等)以減少內(nèi)存使用并運(yùn)行更大的批次大小。管理內(nèi)存分配和數(shù)據(jù)移動(dòng),使用數(shù)據(jù)預(yù)取和精細(xì)定時(shí)數(shù)據(jù)傳輸?shù)燃夹g(shù)來(lái)緊密跟蹤計(jì)算可用性可能會(huì)有所幫助。
為人工智能作業(yè)找到理想的批次大小至關(guān)重要。較大的批次大小可以更好地利用 GPU,但過(guò)大會(huì)導(dǎo)致內(nèi)存不足錯(cuò)誤。進(jìn)行實(shí)驗(yàn)以找到最佳點(diǎn)。如果你有更大的 GPU 或預(yù)留了大量 GPU 容量,請(qǐng)務(wù)必試用 GPU 虛擬化軟件。這可以讓你重新利用訓(xùn)練模型或進(jìn)行更大調(diào)整所需的寶貴且稀有的計(jì)算,以解決人工智能應(yīng)用程序操作所需的更普通的模型推理。
最后,如果可能,在容器的基礎(chǔ)上進(jìn)行部署,該容器支持自動(dòng)擴(kuò)展,以根據(jù)實(shí)時(shí)需求動(dòng)態(tài)調(diào)整分配給工作負(fù)載的 GPU 數(shù)量。這有助于避免過(guò)度配置,同時(shí)確保在高峰期有足夠的資源。
調(diào)整人工智能的負(fù)載平衡
經(jīng)過(guò)適當(dāng)調(diào)整的負(fù)載均衡解決了 GPU 匱乏的挑戰(zhàn),同時(shí)確保 AI 作業(yè)獲得所需的資源,而不會(huì)出現(xiàn)超時(shí),并提供了增強(qiáng)的安全性。它通過(guò)識(shí)別 AI 任務(wù)不同的計(jì)算需求而不同于傳統(tǒng)的負(fù)載均衡。
通過(guò)分析工作負(fù)載、評(píng)估其 CPU 和 GPU 需求以及優(yōu)先處理時(shí)間敏感的操作,特定于 AI 的負(fù)載均衡器可以動(dòng)態(tài)地在最合適的硬件上分配工作。這種方法保護(hù)了昂貴的 GPU,用于真正需要其功能的操作,同時(shí)將受 CPU 約束的工作卸載到更具成本效益的資源上。
至關(guān)重要的是,特定于 AI 的負(fù)載均衡引入了令牌管理控制的新維度。在令牌發(fā)揮作用(語(yǔ)言模型)的 AI 系統(tǒng)中,平衡負(fù)載不僅僅關(guān)乎硬件效率。負(fù)載均衡器可以監(jiān)控與 AI 作業(yè)關(guān)聯(lián)的令牌使用情況,動(dòng)態(tài)地重新路由請(qǐng)求以優(yōu)化令牌消耗并防止成本超支。
此外,通過(guò)根據(jù)作業(yè)的潛在安全影響和令牌敏感性智能地路由作業(yè),AI 負(fù)載均衡器有助于隔離高風(fēng)險(xiǎn)工作負(fù)載,為 AI 系統(tǒng)提供額外的保護(hù)層。實(shí)施此類負(fù)載均衡策略需要仔細(xì)考慮框架集成、穩(wěn)健的監(jiān)控以及基于云的 AI負(fù)載均衡解決方案的潛在成本節(jié)約。
經(jīng)過(guò) AI 調(diào)整的負(fù)載均衡器可能會(huì)提供更精細(xì)的控制——例如,基于令牌的速率限制,以及將作業(yè)運(yùn)送或轉(zhuǎn)移到在令牌使用或成本方面最經(jīng)濟(jì)的 LLM 集群的算法。
未來(lái)(希望)是富足的
好消息是,該行業(yè)并沒(méi)有坐以待斃。芯片制造商正在加大生產(chǎn)力度,專門為 AI 設(shè)計(jì)的新芯片架構(gòu)即將面世。更多的 AI 數(shù)據(jù)中心將上線。許多聰明的開(kāi)發(fā)人員和工程團(tuán)隊(duì)正在不斷改進(jìn) AI 模型的工作方式,并減少訓(xùn)練模型的負(fù)擔(dān),同時(shí)保持或甚至提高性能。
但是,這些解決方案不會(huì)在一夜之間出現(xiàn)。與此同時(shí),通過(guò)采用以模型為先的心態(tài)、優(yōu)化利用率和戰(zhàn)略性地使用負(fù)載均衡,首席信息官可以減輕當(dāng)前基礎(chǔ)設(shè)施泡沫的最嚴(yán)重影響,避免 GPU 匱乏,確保他們的組織擁有足夠的 AI 來(lái)完成需要完成的工作。