領(lǐng)跑未來,我們需要怎樣的AI Infra?
原創(chuàng)作者 | 云昭
25個(gè)月,這對于一門新技術(shù)的成熟度周期而言,只是剛剛開始。然而對于大模型而言,過去25個(gè)月的進(jìn)度卻異常兇猛。
一方面,模型的能力得到了快速持續(xù)的進(jìn)化。伴隨2024年底OpenAI o3模型的發(fā)布,大模型的多項(xiàng)能力攀至新的高點(diǎn),除了自然語言的生成,更是在數(shù)學(xué)和編程能力做到了媲美甚至超過了人類的碩士和博士的水平;另一方面,以多模態(tài)模型、復(fù)雜推理模型、AI開發(fā)工具的關(guān)鍵AI研究方向,也取得了重大進(jìn)展,極大地拓展了生成式AI的應(yīng)用場景和想象力。
而在用戶側(cè),從過去一年金融、醫(yī)療、教育、游戲、文娛、社交、電商等領(lǐng)域AI的發(fā)展來看,用戶接受和使用生成式AI功能的習(xí)慣正在逐漸形成。
模型能力的進(jìn)化,用戶使用AI場景的增多,無疑將促成AI Killer App的到來。微軟CEO納德拉甚至拋出了衡量未來國家或企業(yè)的增長決定公式:
任何國家或企業(yè)的成長效率將取決于“每瓦特、每美元對應(yīng)的 Token 數(shù)量”。未來兩年、五年甚至十年,我們會(huì)看到這種公式與 GDP 增長直接相關(guān)。 |
可以預(yù)見,接下來的十年里,企業(yè)中每一度電、每一塊錢、每一分鐘,所能生成的AI推理的token數(shù)量,將成為一家公司在AI時(shí)代成長速度的關(guān)鍵指標(biāo)。
那么,新的增長機(jī)會(huì)已至,公司的IT基礎(chǔ)設(shè)施準(zhǔn)備好了嗎?顯然并沒有。
一、未來十年,我們需要一個(gè)全新的AI Infra
AI應(yīng)用時(shí)代,大規(guī)模AI推理場景背后帶來了一系列全新的技術(shù)挑戰(zhàn),這都是我們需要重新思考的。除了更先進(jìn)的模型,除了旺盛的模型推理需求,我們應(yīng)該需要一個(gè)全新的AI Infra!
1.要打造領(lǐng)先對手的AI產(chǎn)品和服務(wù)體驗(yàn),在原有IT設(shè)施上做AI縫補(bǔ)匠是行不通的
大模型時(shí)代,AI原生應(yīng)用與之前web時(shí)代的App有著很大不同。除了需要頻繁與大模型進(jìn)行交互,還出現(xiàn)了一些新的特點(diǎn)。尤其在流量爆發(fā)時(shí),原有架構(gòu)的支撐能力更是捉襟見肘。那么,傳統(tǒng)IT架構(gòu)在AI時(shí)代如何進(jìn)化?目前還沒有一個(gè)很好的理念。
一些業(yè)內(nèi)AI應(yīng)用開發(fā)者一開始選擇繼續(xù)沿用現(xiàn)有的IT能力,結(jié)果都十分“慘烈”,因?yàn)橐挥龅搅髁扛叻?,系統(tǒng)就出現(xiàn)宕機(jī)情況。而為了解決宕機(jī)問題,做法也十分簡單粗暴:在推理層繼續(xù)加GPU卡、加算力。
可以說,這種“頭痛醫(yī)頭”、“哪里不夠補(bǔ)充哪里”的做法治標(biāo)不治本,本身就很不AI Native,而且會(huì)浪費(fèi)大量計(jì)算資源,降低產(chǎn)品的投入產(chǎn)出比。
因此,要打造領(lǐng)先對手的AI產(chǎn)品和服務(wù)體驗(yàn),在原有IT設(shè)施上做AI縫補(bǔ)匠是行不通的。
我們需要意識(shí)到:“以CPU為中心”的架構(gòu)在支撐AI原生應(yīng)用方面存在著很多棘手的挑戰(zhàn),而且隨著時(shí)間的累積/應(yīng)用規(guī)模的爆發(fā),問題會(huì)越來越嚴(yán)重。所以,只有真正從深層次上重新思考:用“以GPU為中心”的角度去重塑原有的基礎(chǔ)設(shè)施,才有可能從根本上為打造極致的AI產(chǎn)品和服務(wù)體驗(yàn),消除后顧之憂。
近日,作為“AI云原生”理念的提出者,火山引擎提出了一種“以GPU為核心、面向大規(guī)模推理”的云架構(gòu)。該架構(gòu)以GPU為核心重新優(yōu)化計(jì)算、存儲(chǔ)與網(wǎng)絡(luò)架構(gòu),使得GPU可以直接訪問存儲(chǔ)和數(shù)據(jù)庫,較以前的方案,讀寫的吞吐提升10倍,IO延遲降低為原來的1/50,同時(shí)提供了大規(guī)模的高速互聯(lián)和端到端的安全保護(hù)。
劃重點(diǎn),這種新架構(gòu)的不同之處,就在于從AI原生應(yīng)用的角度出發(fā)進(jìn)行深度創(chuàng)新,不僅實(shí)現(xiàn)了應(yīng)用背后大模型所需算力資源的高效利用與調(diào)度,同時(shí)還考慮到了應(yīng)用在復(fù)雜場景下模型所需各種上下游的配套服務(wù)。
2.大模型時(shí)代,擁有面向大規(guī)模AI推理的基礎(chǔ)設(shè)施將成為企業(yè)實(shí)現(xiàn)突圍的重中之重
正如前文所說,下一個(gè)十年,隨著Agent時(shí)代的開啟,以高頻大模型推理為主要場景的大體量、強(qiáng)性能的AI應(yīng)用將是未來產(chǎn)品的主流形態(tài)。據(jù)IDC報(bào)告,未來5年,國內(nèi)的大模型訓(xùn)練和推理將分別以超過50%和190%的年復(fù)合增速發(fā)展,同時(shí)在2028年,推理算力將會(huì)超過訓(xùn)練算力。
因此在企業(yè)中引入適配大規(guī)模AI推理場景的基礎(chǔ)設(shè)施,將成為AI應(yīng)用爆發(fā)時(shí)代贏得先機(jī)的技術(shù)籌碼,進(jìn)而通過技術(shù)優(yōu)勢進(jìn)一步轉(zhuǎn)化為產(chǎn)品優(yōu)勢,帶來新一輪的業(yè)務(wù)增長,實(shí)現(xiàn)大模型語境下的業(yè)績突圍。
那么,面向大規(guī)模的AI推理場景,一款A(yù)I應(yīng)用不只是滿足用戶多輪對話、長文本推理那么簡單,還有重重技術(shù)挑戰(zhàn)需要攻克。比如在數(shù)據(jù)流動(dòng)方面,高時(shí)延、大帶寬是感受最為明顯的兩個(gè)難點(diǎn)。
由于數(shù)據(jù)需要繞行GPU而導(dǎo)致南北向時(shí)延過高,尤其在文生圖和多模態(tài)的場景下,響應(yīng)時(shí)間則更長,少則幾十、上百秒,多則分鐘級(jí)別的響應(yīng);又由于AI應(yīng)用的系統(tǒng)返回的內(nèi)容比較多,帶寬量需求會(huì)更大。如果按照傳統(tǒng)的方式,在服務(wù)端計(jì)算完后,再把結(jié)果返回給客戶端,網(wǎng)絡(luò)的擁塞就會(huì)非常大,東西向的帶寬則很難保證。
再比如網(wǎng)絡(luò)方面,業(yè)務(wù)潮汐波動(dòng)大,網(wǎng)關(guān)開始承載著AI應(yīng)用時(shí)代前所未有的帶寬、時(shí)延、安全等要求,如何進(jìn)行智能分流,也是一個(gè)值得關(guān)注的問題。
對于這些挑戰(zhàn),火山引擎在支撐字節(jié)跳動(dòng)內(nèi)外部高日活使用的過程中,打磨設(shè)計(jì)出了一系列的技術(shù)創(chuàng)新和方案:比如推出了支持內(nèi)存零拷貝的GDKV的方案,數(shù)據(jù)無須經(jīng)過CPU;再比如能夠感知GPU和模型負(fù)載的AI網(wǎng)關(guān)等。
3.大規(guī)模AI應(yīng)用的行業(yè)know-how儲(chǔ)備,是不容忽視的關(guān)鍵要素
基于大模型構(gòu)建的AI應(yīng)用是一個(gè)新興的領(lǐng)域。隨著AI應(yīng)用規(guī)模急速增長,企業(yè)對AI算力的規(guī)模化、質(zhì)量、成本以及大模型工具鏈的復(fù)合型能力都提出了遠(yuǎn)高于以往的要求。因此,不管是基礎(chǔ)設(shè)施、工程、算法層面,還是在產(chǎn)品打磨、流量生態(tài)層面,都將極為考驗(yàn)行業(yè)know-how的儲(chǔ)備。
好的經(jīng)驗(yàn)和架構(gòu)不可復(fù)制,但可以借鑒。眾所周知,字節(jié)跳動(dòng)在大規(guī)模AI應(yīng)用方面是名副其實(shí)的領(lǐng)航者。近兩年,字節(jié)跳動(dòng)豆包有著市場領(lǐng)先的用戶規(guī)模和日活數(shù)據(jù),而火山引擎作為技術(shù)底座,也在這一過程中儲(chǔ)備了十足創(chuàng)新的軟硬實(shí)力,不管是工程、技術(shù)層面,還是服務(wù)產(chǎn)品、生態(tài)的能力,都已經(jīng)嶄露頭角。
可以預(yù)見,面向未來對AI Infra做出深度的理念和技術(shù)創(chuàng)新,抓住時(shí)機(jī)在推理側(cè)搶先布局,同時(shí)儲(chǔ)備足夠的大規(guī)模AI應(yīng)用行業(yè)Know-how,將會(huì)是下一個(gè)十年,企業(yè)在AI應(yīng)用時(shí)代獲得領(lǐng)先地位的有力保證。
二、大規(guī)模AI應(yīng)用時(shí)代已來
在大規(guī)模AI應(yīng)用迎來寒武紀(jì)爆發(fā)之際,各行業(yè)中已經(jīng)出現(xiàn)了提前卡位的玩家。美圖秀秀就是采用新一代AI Infra的提前批的一員。
近年來,美圖積極投身AIGC產(chǎn)品的研發(fā)潮,在各類熱門產(chǎn)品中融入自研AI大模型,在文生圖、圖生圖、AI視頻處理等多個(gè)應(yīng)用場景中取得顯著成果。
隨著美圖的終端用戶對于AI功能訪問需求越來越大,推理任務(wù)的數(shù)量和復(fù)雜性大幅增加,對高性能計(jì)算資源的需求也隨之上升,同時(shí)訪問也呈現(xiàn)出較大的波動(dòng)性。在高性能計(jì)算資源成本控制、彈性擴(kuò)展能力建設(shè)以及存儲(chǔ)訪問性能提升等方面,美圖都面臨著相當(dāng)棘手的挑戰(zhàn)。
美圖通過與火山引擎合作,這些問題都得到了有效的解決。算力成本控制方面,美圖從火山引擎獲得了多類型高性能計(jì)算資源,并能夠根據(jù)不同推理場景選擇合適的服務(wù)資源,依托火山引擎虛擬化技術(shù),提高算力使用效率,有效降低整體計(jì)算成本;應(yīng)對訪問波動(dòng)性方面,美圖依靠火山引擎容器服務(wù)VKE在短時(shí)間快速部署大量節(jié)點(diǎn)的能力,構(gòu)建起及時(shí)應(yīng)對流量洪峰的技術(shù)保障,同時(shí)依靠其強(qiáng)大的資源池實(shí)現(xiàn)了推理服務(wù)的高度彈性和可擴(kuò)展性;存儲(chǔ)訪問方面,美圖選擇火山引擎的vePFS緩存服務(wù),在數(shù)據(jù)讀取場景下?lián)碛懈咔腋€(wěn)定的訪問帶寬,確保了前端在大流量服務(wù)下的存儲(chǔ)訪問性能的嚴(yán)格要求。
通過這一系列的合作舉措,美圖不僅增強(qiáng)了其產(chǎn)品的競爭力,還為其用戶帶來了更加穩(wěn)定和高效的服務(wù)體驗(yàn)。
同樣,在新興熱門的端到端自動(dòng)駕駛領(lǐng)域,構(gòu)建面向未來的“以GPU為中心”的新一代AI Infra,也成為了智駕企業(yè)尋求突破同質(zhì)化地帶的技術(shù)驅(qū)動(dòng)力。四維圖新近期通過與火山引擎合作,借助火山引擎提供的高性能GPU集群、彈性調(diào)度、高性能存儲(chǔ)、合規(guī)云、一鍵故障檢測等方案,以及在自動(dòng)駕駛領(lǐng)域積累的豐富的行業(yè)經(jīng)驗(yàn),四維圖新快速抓住了窗口期,快速進(jìn)入了智能駕駛的第一梯隊(duì)。
未來已來。不難預(yù)料,在接下來的十年里,位列AI TOP應(yīng)用榜上的玩家,會(huì)在提前布局AI Infra的一批企業(yè)中誕生。