中國團隊首次奪魁!無問芯穹FlightVGM獲FPGA'25最佳論文,峰值算力超GPU21倍
國際可重構(gòu)計算領(lǐng)域頂級會議 ——FPGA 2025 在落幕之時傳來消息,今年的最佳論文頒發(fā)給了無問芯穹和上交、清華共同提出的視頻生成大模型推理 IP 工作 FlightVGM,這是 FPGA 會議首次將該獎項授予完全由中國大陸科研團隊主導(dǎo)的研究工作,同時也是亞太國家團隊首次獲此殊榮。
這項工作首次在 FPGA 上實現(xiàn)了視頻生成模型(Video Generation Models, VGMs)的高效推理,也是該團隊繼去年在 FPGA 上加速大語言模型 FlightLLM(FPGA’24)后的最新系列工作。與 NVIDIA 3090 GPU 相比,F(xiàn)lightVGM 在 AMD V80 FPGA 上實現(xiàn)了 1.30 倍的性能提升與 4.49 倍的能效提升(峰值算力差距超過 21 倍)。
論文鏈接:https://dl.acm.org/doi/10.1145/3706628.3708864
論文第一作者劉軍是上海交通大學(xué)博士生,共同一作曾書霖是清華大學(xué)博士后,通訊作者是汪玉和戴國浩。汪玉是 IEEE Fellow、清華大學(xué)電子工程系教授、系主任和無問芯穹發(fā)起人,戴國浩是上海交通大學(xué)副教授、無問芯穹聯(lián)合創(chuàng)始人兼首席科學(xué)家。
上一輪清華電子系相關(guān)工作被 FPGA 國際會議收錄應(yīng)追溯到 2016 年的 Going Deeper with Embedded FPGA Platform for Convolutional Neural Network 與 2017 年 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA。前者催化了深鑒科技的創(chuàng)立,后者被 FPGA 國際會議評為當(dāng)年唯一的最佳論文,隨后深鑒科技于 2018 年被可編程芯片廠商賽靈思以 3 億美元收購。
在大模型部署成本爭議甚囂塵上的產(chǎn)業(yè)背景下,以 FPGA、ASIC 等靈活可編程硬件和專用任務(wù)集成電路來提升硬件運行效率,或?qū)⒊蔀榇竽P吐涞匦侍嵘c成本降低的最關(guān)鍵一環(huán)。2024 年,無問芯穹曾以大語言模型定制推理 IP FlightLLM 被 FPGA 高評價錄取,今年再次以 VGM 模型定制推理 IP FlightVGM 拿下最佳論文獎,都是在通過創(chuàng)新硬件架構(gòu)提升效率。據(jù)悉,這一系列研究成果現(xiàn)已被集成到無問芯穹自研大模型推理 IP LPU(Large-model Processing Unit)之中,并已與合作伙伴開展合作驗證。
下面是論文的核心內(nèi)容解讀。
背景
在視頻生成領(lǐng)域,擴散 Transformer(DiT)逐漸成為一種重要的框架。DiT 模型通過一個擴散過程生成視頻,它將噪聲圖像逐步恢復(fù)為清晰的視頻幀,從而展現(xiàn)了強大的生成能力。最初,DiT 被提出是為了探索在大規(guī)模數(shù)據(jù)處理中的可擴展性,隨著技術(shù)的不斷發(fā)展,DiT 的架構(gòu)也不斷被優(yōu)化,逐步提高了生成視頻的質(zhì)量和分辨率,使得生成的視頻更加清晰、精細。盡管如此,這種方法的計算需求非常高,尤其是在生成高分辨率和較長時長的視頻時,所需的計算量和內(nèi)存消耗大幅增加,因此如何提升生成效率并優(yōu)化計算過程,成為該領(lǐng)域的關(guān)鍵問題之一。
核心見解:從視頻壓縮到視頻生成
視頻壓縮技術(shù)(如 H.264、H.265)通過離散余弦變換(DCT)等技術(shù),識別并消除視頻幀間和幀內(nèi)的冗余信息,從而實現(xiàn)高達 1000 倍的壓縮率。這一思想的核心在于,視頻數(shù)據(jù)在時間和空間維度上存在大量重復(fù)模式,例如相鄰幀之間的背景幾乎不變,或同一幀內(nèi)的紋理具有高度相似性。通過檢測并跳過這些冗余信息,壓縮算法能夠顯著減少數(shù)據(jù)量,同時保持視頻質(zhì)量。
FlightVGM 創(chuàng)新性地將這一思想引入視頻生成模型的加速中。視頻生成模型(VGMs)在推理過程中同樣表現(xiàn)出顯著的時空冗余性。例如,相鄰幀之間的 Token 在語義上高度相似,而同一幀內(nèi)的不同區(qū)域也可能共享相同的視覺特征。然而,現(xiàn)有 GPU 架構(gòu)無法充分利用這種冗余性。FPGA 雖然具備稀疏計算的優(yōu)勢,但其峰值算力遠低于 GPU,且其計算單元(例如 V80 的 DSP58)的傳統(tǒng)設(shè)計無法動態(tài)適配混合精度需求,限制了其在視頻生成加速中的應(yīng)用。FlightVGM 通過以下三項技術(shù),解決上述挑戰(zhàn):
1.“時間 - 空間” 激活值在線稀疏化方法:基于視頻壓縮中的相似性檢測思想,F(xiàn)lightVGM 設(shè)計了幀間和幀內(nèi)的冗余激活稀疏機制。通過余弦相似度計算,動態(tài)跳過相似部分計算,顯著降低了計算負載。
2.“浮點 - 定點” 混合精度 DSP58 拓展架構(gòu):借鑒視頻壓縮中的分塊處理思想,F(xiàn)lightVGM 對視頻生成模型的不同模塊進行精度分層處理。關(guān)鍵模塊(如注意力機制)保留 FP16 精度,非關(guān)鍵模塊(如線性層)量化至 INT8,最大化硬件利用率。
3.“動態(tài) - 靜態(tài)” 自適應(yīng)調(diào)度策略:針對激活值在線稀疏化導(dǎo)致的負載不均衡問題,F(xiàn)lightVGM 針對實際工作負載自適應(yīng)調(diào)整不同操作負載的執(zhí)行順序,從而提高計算利用率。
技術(shù)要點
“時間 - 空間” 激活值在線稀疏方法
我們提出了一種 “時間 - 空間” 激活值在線稀疏化方法,同時考慮了幀間和幀內(nèi)的相似性。激活稀疏化的核心思想是:如果兩個 token 之間具有高度相似性,則可以只計算其中一個 token,并將結(jié)果共享給另一個 token。具體來說,輸入激活是一個 3 維張量,由 tokenizer 從噪聲視頻中處理得到。因此,輸入激活可以表示為,其中 F 表示幀數(shù),T 表示每幀的 token 數(shù),d 表示隱藏維度。為了簡便起見,我們用 (
) 來表示第 1 幀的第 1 個 token。對于輸入激活
,我們使用
和
來表示參考向量和輸入向量。我們使用余弦相似度作為度量標(biāo)準(zhǔn)。
激活稀疏化包含兩個步驟:幀間稀疏化和幀內(nèi)稀疏化。
1. 幀間稀疏化:我們將輸入激活分為 G 個連續(xù)的組,并選擇中間幀作為參考幀。剩余幀的 token 與參考幀的 token 逐一計算相似度,若超過閾值,則使用參考幀的 token 計算結(jié)果替代當(dāng)前 token。
2. 幀內(nèi)稀疏化:我們將每幀的 token 分為 K 個塊,選擇中間 token 作為參考 token,計算其他 token 與參考 token 的相似度,若超過閾值則用參考 token 替代計算。如果某 token 已在幀間稀疏化中被裁剪,其相似度為 0。
從計算角度來看,相似度計算需要進行一次內(nèi)積和兩次模長計算,因此其計算量為 3d,其中 d 為隱藏維度。以一個線性操作為例,假設(shè)輸入激活的大小為
,權(quán)重矩陣 W 的大小為
,則原始操作的計算量為
。對于稀疏操作,考慮幀間和幀內(nèi)稀疏化帶來的額外計算,假設(shè)稀疏度為 s,則稀疏操作的總計算量為:
由于原始計算量包含了 d 的二次項,而稀疏化帶來的額外計算只是 d 的線性項(典型值 d=1152),因此稀疏化引入的額外開銷幾乎可以忽略不計。
“浮點 - 定點” 混合精度 DSP58 拓展架構(gòu)
AMD V80 FPGA 配備了硬件 IP DSP58,支持多種計算模式,如標(biāo)量、向量和浮點配置。然而,由于這些配置之間無法在運行時進行動態(tài)切換,這與視頻生成模型對數(shù)據(jù)的混合精度的需求存在沖突,導(dǎo)致我們無法充分利用 DSP58 的計算潛力。
為了解決這一問題,我們提出了基于 DSP58 的創(chuàng)新性 FP16-INT8 混合精度硬件架構(gòu) ——DSP-Expansion (DSP-E)。該架構(gòu)允許在運行時配置,支持兩個 FP16 乘加單元(MAC)或四個 INT8 乘加單元。我們的核心思路是通過引入額外的乘法器來解決當(dāng)一個 DSP58 執(zhí)行兩個 FP16 分數(shù)乘法時的數(shù)據(jù)混淆問題,這些乘法器在 INT8 模式下也可以復(fù)用。在 FP16 模式下,DSP58 執(zhí)行兩個 MAC 的分數(shù)乘法,并通過減去 INT8 乘法器的結(jié)果來獲得正確的中間計算結(jié)果。中間結(jié)果的指數(shù)部分通過 INT 加法器計算,并通過指數(shù)對齊和調(diào)整單元對齊小數(shù)點位置,最終通過加法、歸一化和四舍五入得到最終結(jié)果。在 INT8 模式下,DSP-E 通過復(fù)用 DSP58、兩個 INT8 乘法器和兩個 INT 加法器,最大化計算性能。通過將相關(guān)數(shù)據(jù)輸入到不同的端口,額外的邏輯單元可以復(fù)用硬件資源,從而有效地提高了計算吞吐量。
為了在計算精度和硬件資源的約束下實現(xiàn)最大吞吐量,我們提出了一個異構(gòu)的 DSP58 陣列設(shè)計,以適應(yīng)不同的計算需求。我們根據(jù)不同設(shè)計的資源消耗(包括 DSP、LUT、REG、RAM 等)進行評估,并通過資源約束來確保最優(yōu)計算性能。此外,我們還考慮了 INT8 與 FP16 計算性能的比值,以衡量計算能力的提升。
實驗結(jié)果
算法評估
與基準(zhǔn)模型相比,F(xiàn)lightVGM 對于模型精度的影響幾乎可以忽略(僅平均損失為 0.008),而使用全 INT8 量化時,平均損失為 0.042。同時,在實際視頻生成效果上,F(xiàn)lightVGM 生成的視頻與原始模型仍有較好的保持。
性能評估
對于 NVIDIA 3090 GPU,在 FP16 精度下,AMD V80 FPGA 的峰值算力差距超過了 21 倍。然而,基于 V80 FPGA 實現(xiàn)的 FlightVGM 仍在性能和能效上超過了 GPU。這是因為 FlightVGM 充分利用了 VGM 固有的稀疏相似性和混合精度數(shù)據(jù)分布特性,并通過軟硬件協(xié)同開辟了 “算法 - 軟件 - 硬件” 的全新優(yōu)化空間并成功在其中找到了一個足夠好的解。而 GPU 由于硬件架構(gòu)的限制,難以達到相同的加速效果,且缺乏稀疏化和定制化計算數(shù)據(jù)流優(yōu)化的支持。
展望和未來工作
隨著 VGM 計算需求的增長,F(xiàn)lightVGM 展示了如何通過 FPGA 的軟硬件協(xié)同創(chuàng)新,實現(xiàn)更高能效的文生視頻大模型推理。未來,通過探索 AIE(AI Engine)+ HBM(High Bandwidth Memory)的全新 FPGA 架構(gòu),F(xiàn)PGA 有望為視頻生成任務(wù)提供更高效的計算支持,成為未來計算平臺的重要選擇。