微軟推出MixLLM,全局混合精度量化方法助力模型效能飛躍
量化已成為壓縮大語言模型(LLMs)的最有效方法之一。然而,現有的量化方案仍然存在不可忽視的準確性下降或系統效率低下的局限性。在本文中,我們全面分析了量化的一般原則對準確性、內存消耗和系統效率三角關系的影響。我們提出了MixLLM,這是一種基于輸出特征之間的混合精度量化的方法。MixLLM從全局視角識別高顯著性的輸出特征,而非僅在單層內部,有效地為最需要的輸出特征分配更大的位寬,從而在低內存消耗的情況下實現良好的準確性。我們提出了算法-系統協同設計的量化配置的最佳點,以實現高準確性和系統效率。
為應對系統挑戰(zhàn),我們設計了兩步去量化方法:輕松利用int8 Tensor Core,并通過快速數據類型轉換顯著減少去量化開銷,同時提出軟件流水線以最大程度地重疊內存訪問、去量化和矩陣乘法。廣泛的實驗表明,僅增加10%的比特數,對于Llama 3.1 70B模型,困惑度(PPL)增加可從約0.5降低到0.2以內,同時在三個流行模型上,MMLU-Pro平均提高了0.93。除了卓越的準確性,MixLLM還實現了最先進的系統效率。
論文: ??https://arxiv.org/pdf/2412.14590??
2. TRecViT: A Recurrent Video Transformer
我們提出了一種用于視頻建模的新模塊。該模塊基于時間-空間-通道的分解方法,為每個維度設計了專門的塊:門控線性循環(huán)單元(LRUs)在時間維度上執(zhí)行信息混合、自注意力層在空間維度上進行混合、多層感知機(MLPs)處理通道維度。這個被稱為TRecViT的架構在稀疏和密集任務上表現出色,無論是在監(jiān)督學習還是自監(jiān)督學習模式下都能良好運行。值得注意的是,我們的模型具有因果性,并且在大規(guī)模視頻數據集(如SSv2、Kinetics400)上的性能優(yōu)于或與純注意力模型ViViT-L相當,同時具有以下顯著優(yōu)勢:參數數量減少3倍、內存占用減少12倍、計算復雜度(FLOPs)降低5倍。
論文: ??https://arxiv.org/pdf/2412.14294??
3. NILE: Internal Consistency Alignment in Large Language Models
作為增強大語言模型(LLM)與人類意圖對齊的關鍵步驟,指令微調(Instruction Fine-Tuning,IFT)對數據集質量有著極高的要求。然而,現有的IFT數據集常常包含與模型預訓練階段學習的內部知識不一致的信息,這可能嚴重影響IFT的效果。
為解決這一問題,我們引入了NILE(內部一致性對齊)框架,旨在優(yōu)化IFT數據集,進一步釋放LLM的潛能。NILE的工作原理是:提取目標預訓練LLM對指令數據相關的內部知識、利用這些內部知識修正IFT數據集中的答案、提出創(chuàng)新的內部一致性過濾(Internal Consistency Filtering,ICF)方法,篩選與模型內部知識高度一致的訓練樣本。
我們的實驗證明,經NILE對齊的IFT數據集顯著提升了LLM在多個能力評估數據集上的性能:Arena-Hard數據集性能提升高達66.6%、Alpaca-Eval V2數據集性能提升68.5%。進一步分析確認,NILE框架的每個組件都對這些顯著的性能提升做出了貢獻,并提供了有力證據:數據集與預訓練內部知識的一致性對于最大化LLM潛力至關重要。
論文: ??https://arxiv.org/pdf/2412.16686??
4. Large Motion Video Autoencoding with Cross-modal Video VAE
學習一個魯棒的視頻變分自編碼器(VAE)對于減少視頻冗余和促進高效視頻生成至關重要。直接將圖像VAE孤立地應用于單個幀可能導致時間不一致性和次優(yōu)壓縮率,這是由于缺乏時間維度的壓縮?,F有的視頻VAE已開始解決時間壓縮問題,但往往仍然存在重建性能不足的挑戰(zhàn)。
在本文中,我們提出了一種新穎且強大的視自編碼器,能夠實現高保真視頻編碼。研究的主要創(chuàng)新點包括:空間-時間壓縮策略、文本引導增強、模型多樣性提升。
論文: ???https://arxiv.org/pdf/2412.17805??
本文轉載自?? AI-PaperDaily??,作者: AI-PaperDaily
