提升人工智能性能的三種關鍵的LLM壓縮策略 原創(chuàng)
在當今快節(jié)奏的數(shù)字環(huán)境中,依賴人工智能的企業(yè)面臨著新的挑戰(zhàn):運行人工智能模型的延遲、內(nèi)存使用和計算能力成本。隨著人工智能快速發(fā)展,幕后推動這些創(chuàng)新的模型變得越來越復雜、資源密集。雖然這些大模型在處理各種任務中取得了出色的性能,但它們通常伴隨著很高的計算和內(nèi)存需求。
對于威脅檢測、欺詐檢測、生物識別登機等實時人工智能應用,提供快速、準確的結果變得至關重要。企業(yè)加快實施人工智能的真正動機不僅在于節(jié)省基礎設施和計算成本,還在于實現(xiàn)更高的運營效率、縮短響應時間以及提供無縫的用戶體驗,而這一切可以轉換為實實在在的業(yè)務成果,比如提高客戶滿意度和減少等待時間。
面對這些挑戰(zhàn),我們想到了兩種解決方案,但它們并非沒有缺點。一種解決方案是訓練較小的模型,犧牲準確性和高性能,以換取速度。另一種解決方案是購置更好的硬件(比如GPU),可以以低延遲運行復雜的高性能人工智能模型。然而,由于GPU遠遠供不應求,第二種解決方案會迅速抬高成本。它也無法滿足人工智能模型需要在智能手機等邊緣設備上運行的使用場景。
這時候模型壓縮技術閃亮登場:這種方法旨在減少人工智能模型的大小以及對計算的需求,同時保持模型性能。我們在本文中將探討一些模型壓縮策略,幫助開發(fā)人員在資源極其受限的環(huán)境中部署人工智能模型。
模型壓縮起到怎樣的幫助?
機器學習模型應該加以壓縮有幾個原因。首先,較大的模型通常提供更好的準確性,但需要大量的計算資源來運行預測。許多最先進的模型既計算開銷大又內(nèi)存密集,比如大語言模型和深度神經(jīng)網(wǎng)絡。由于這些模型部署在實時應用領域中,比如推薦引擎或威脅檢測系統(tǒng),它們對高性能GPU或云基礎設施的需求抬高了成本。
其次,某些應用環(huán)境的延遲需求增加了費用。許多人工智能應用依賴實時或低延遲的預測,這勢必需要功能強大的硬件來保持較低的響應時間。預測工作量越大,持續(xù)運行這些模型的成本就越高。
此外,在面向消費者的服務中,大量的推理請求可能會使成本飆升。比如說,部署在機場、銀行或零售等場所的解決方案將涉及每天大量的推理請求,每個請求都消耗計算資源。這種操作負載需要認真細致的延遲和成本管理,以確保擴展人工智能不會耗盡資源。
然而,模型壓縮不僅僅是成本問題。較小的模型消耗較少的能量,這意味著移動設備的電池壽命更長,數(shù)據(jù)中心的功耗也更低。這不僅降低了運營成本,而且通過降低碳排放量,使人工智能發(fā)展與環(huán)境可持續(xù)發(fā)展目標保持一致。通過克服這些挑戰(zhàn),模型壓縮技術為更加實用、具有成本效益、可廣泛部署的人工智能解決方案鋪平了道路。
主流的模型壓縮技術
經(jīng)過壓縮的模型可以更快速、更高效地執(zhí)行預測,從而支持各種實時應用,增強各個領域(從機場加快安檢過程到實時身份驗證)的用戶體驗。以下是一些常用的壓縮人工智能模型的技術。
?模型修剪
模型修剪是一種通過去除對模型輸出影響不大的參數(shù)來減小神經(jīng)網(wǎng)絡大小的技術。通過消除冗余或不重要的權重,模型的計算復雜性有所降低,從而縮短了推理時間,并降低了內(nèi)存使用量。結果是模型更精簡了,但依然性能良好,僅需更少的資源來運行。對于企業(yè)來說,模型修剪尤其大有助益,因為它可以在不嚴重犧牲準確性的情況下減少進行預測的時間和成本。經(jīng)過修剪的模型可以重新訓練,以恢復任何丟失的準確性。模型修剪可以以迭代方式進行,直至達到所需的模型性能、大小和速度。迭代式修剪之類的技術有助于在保持性能的同時有效地減小模型大小。
?模型量化
量化是優(yōu)化機器學習模型的另一種有效方法。它降低了用于表示模型參數(shù)和計算的數(shù)字的精度,通常是從32位浮點數(shù)降低到8位整數(shù)。這大大減少了模型的內(nèi)存占用量,并通過使其能夠在功能較弱的硬件上運行來加快推理速度。內(nèi)存和速度的提升可以高達4倍。在計算資源受限的環(huán)境中,比如邊緣設備或移動電話,模型量化讓企業(yè)可以更高效地部署模型。量化還削減了運行人工智能服務的能耗,從而降低了云計算或硬件成本。
通常,量化是在經(jīng)過訓練的人工智能模型上完成的,并使用校準數(shù)據(jù)集來最大限度地減少性能損失。在性能損失仍然超出可接受范圍的情況下,量化感知訓練之類的技術可以允許模型在學習過程中適應這種壓縮,從而幫助保持準確性。此外,可以在模型修剪后運用模型量化,在保持性能的同時進一步改善延遲。
?知識精煉
這種技術是指訓練一個較小的模型(學生)來模仿一個更大、更復雜的模型(教師)的行為。這個過程通常包括使用原始訓練數(shù)據(jù)和教師的軟輸出(概率分布)來訓練學生模型。這不僅有助于將最終決策轉型小模型,還有助于將大模型的細微“推理”轉移到小模型。
學生模型通過專注于數(shù)據(jù)的關鍵方面來學習接近教師模型的性能,從而產(chǎn)生一個輕量級模型,它保留了原始模型的大部分準確性,但計算需求低得多。對于企業(yè)來說,知識精煉或蒸餾便于部署更小巧、更快速的模型,以極低的推理成本提供類似的結果。它在速度和效率至關重要的實時應用環(huán)境中尤其具有價值。
學生模型可以通過運用修剪和量化技術進一步加以壓縮,從而得到一個極其輕盈又快速的模型,其性能與更大的復雜模型相仿。
結語
隨著企業(yè)力求擴大其人工智能業(yè)務運營,實施實時人工智能解決方案成為一個關鍵問題。像模型修剪、量化和知識精煉這樣的技術通過優(yōu)化模型以進行更快速、更便宜的預測,又不對性能造成重大損失,為克服這一挑戰(zhàn)提供了實用的解決方案。如果采用這些策略,企業(yè)就可以減少對昂貴硬件的依賴,針對眾多服務更廣泛地部署模型,并確保人工智能仍然是企業(yè)運營中經(jīng)濟上可行的一部分。在運營效率事關企業(yè)創(chuàng)新能力的情況下,優(yōu)化機器學習推理不僅僅是一種選項,更是一種必要。
原文標題:?Here are 3 critical LLM compression strategies to supercharge AI performance??,作者:Chinmay Jog
