深度學習模型大小與模型推理速度的一些探討
本文對衡量深度學習模型大小的一些常用指標,如計算量、參數量、訪存量、內存占用等進行探討,分析這些指標對模型部署推理的影響,尤其是計算量與訪存量對模型推理速度的影響,并給出在不同硬件架構下設計網絡結構的一些建議。
0、前言
當年頭一次實習做算法的時候,主管給的第一個任務就是“把一個大的分割模型砍成一個小的”。當時并不理解模型“大”、“小”的真正含義,就簡單的選取計算量作為評價指標,瘋狂砍計算量(backbone 換 MobileNet/ShuffleNet、Conv 換成 DepthWise Conv、以及一些奇奇怪怪的融合結構等等),把模型計算量砍了將近 10 倍,結果一部署發(fā)現速度并沒有快多少,反而是把最初的 ResNet 簡單砍掉幾個 block 效果更好。
也是從那時起接觸了訪存量、流水線、RoofLine 模型等概念,對模型推理速度的問題產生了興趣,從此踏上了深度學習推理優(yōu)化的不歸路(劃掉)。
如今做推理優(yōu)化和 HPC 已經有一段時間了,還是偶爾能回想起當年不懂推理時設計的與硬件嚴重不匹配的模型。此外在工作中跟研究員溝通時,也會發(fā)現部分研究員對模型大小和模型推理速度的關系不太了解,設計出一些很難發(fā)揮硬件計算能力的模型結構。因此在這里對一些用于評價模型大小的指標——計算量、參數量、訪存量、內存占用等指標進行詳細探討,分析這些指標會對模型的部署推理產生何種影響,詳細討論計算量和訪存量對模型推理速度的影響,并給出不同硬件架構下設計高效網絡結構的一些建議。
本文不僅僅是為了給出網絡的設計建議,更是希望能夠有效傳達性能優(yōu)化的基礎理論知識,以及性能分析的基本思路,幫助各位同學減少網絡設計與部署之間的 gap,更高效的完成網絡設計與部署工作。非常希望本文能夠對大家的工作有所幫助,也非常歡迎大家在評論區(qū)留言探討。
一、常用的模型大小評估指標
目前常用于評價模型大小的指標有:計算量、參數量、訪存量、內存占用等,這些指標從不同維度評價了模型的大小。本節(jié)僅作簡單介紹,熟悉的小伙伴可以跳過此節(jié),直接看后面的分析與探討。
1. 計算量
計算量可以說是評價模型大小最常用的指標了,很多論文在跟 baseline 進行比較時,都會把計算量作為重要的比較依據。
計算量是模型所需的計算次數,反映了模型對硬件計算單元的需求。計算量一般用 OPs (Operations) ,即計算次數來表示。由于最常用的數據格式為 float32,因此也常常被寫作 FLOPs (Floating Point Operations),即浮點計算次數。(這里為了跟傳統習慣保持一致,下文就統一采用 FLOPs 啦)
模型的整體計算量等于模型中每個算子的計算量之和。而每個算子的計算量計算方法各不一致。例如對于 Eltwise Sum 來講,兩個大小均為 (N, C, H, W) 的 Tensor 相加,計算量就是 N x C x H x W;而對于卷積來說,計算量公式為(乘加各算一次):
PyTorch 有不少工具可以模型計算量,但需要注意的是這些工具有可能會遺漏一些算子的計算量,將其計算量算成 0,從而導致統計的計算量跟實際計算量有輕微的偏差,不過大多數情況下這些偏差影響不大。
2. 參數量
早期的論文也很喜歡用參數量來評價模型大小。
參數量是模型中的參數的總和,跟模型在磁盤中所需的空間大小直接相關。對于 CNN 來說參數主要由 Conv/FC 層的 Weight 構成,當然其他的一些算子也有參數,不過一般忽略不計了。
參數量往往是被算作訪存量的一部分,因此參數量不直接影響模型推理性能。但是參數量一方面會影響內存占用,另一方面也會影響程序初始化的時間。
參數量會直接影響軟件包的大小。當軟件包大小是很重要的指標時,參數量至關重要,例如手機 APP 場景,往往對 APK 包的大小有比較嚴格的限制;此外有些嵌入式設備的 Flash 空間很小,如果模型磁盤所需空間很大的話,可能會放不下,因此也會對參數量有所要求。
除了在設計模型時減少參數量外,還可以通過壓縮模型的方式降低軟件包大小。例如 Caffe 和 ONNX 采用的 Protobuf 就會對模型進行高效的編碼壓縮。不過壓縮模型會帶來解壓縮開銷,會一定程度增加程序初始化的時間。
3. 訪存量
訪存量往往是最容易忽視的評價指標,但其實是現在的計算架構中對性能影響極大的指標。
訪存量是指模型計算時所需訪問存儲單元的字節(jié)大小,反映了模型對存儲單元帶寬的需求。訪存量一般用 Bytes (或者 KB/MB/GB )來表示,即模型計算到底需要存/取多少 Bytes 的數據。
和計算量一樣,模型整體訪存量等于模型各個算子的訪存量之和。對于 Eltwise Sum 來講,兩個大小均為 (N, C, H, W) 的 Tensor 相加,訪存量是 (2 + 1) x N x C x H x W x sizeof(data_type),其中 2 代表讀兩個 Tensor,1 代表寫一個 Tensor;而對于卷積來說,訪存量公式為:
訪存量對模型的推理速度至關重要,設計模型時需要予以關注。
4. 內存占用
內存占用是指模型運行時,所占用的內存/顯存大小。一般有工程意義的是最大內存占用,當然有的場景下會使用平均內存占用。這里要注意的是,內存占用 ≠ 訪存量。
內存占用在論文里不常用,主要原因是其大小除了受模型本身影響外,還受軟件實現的影響。例如有的框架為了保證推理速度,會將模型中每一個 Tensor 所需的內存都提前分配好,因此內存占用為網絡所有 Tensor 大小的總和;但更多的框架會提供 lite 內存模式,即動態(tài)為 Tensor 分配內存,以最大程度節(jié)省內存占用(當然可能會犧牲一部分性能)。
和參數量一樣,內存占用不會直接影響推理速度,往往算作訪存量的一部分。但在同一平臺上有多個任務并發(fā)的環(huán)境下,如推理服務器、車載平臺、手機 APP,往往要求內存占用可控??煽匾环矫媸侵竷却?顯存占用量,如果占用太多,其他任務就無法在平臺上運行;另一方面是指內存/顯存的占用量不會大幅波動,影響其他任務的可用性。
5. 小結
計算量、參數量、訪存量、內存占用從不同維度定義了模型的大小,應根據不同的場合選用合適的指標進行評價。
模型推理速度不單單受模型計算量的影響,也與訪存量和一些其他因素息息相關。下文將詳細討論影響模型推理速度的因素。
二、計算量越小,模型推理就越快嗎
答案是否定的。
實際上計算量和實際的推理速度之間沒有直接的因果關系。計算量僅能作為模型推理速度的一個參考依據。
模型在特定硬件上的推理速度,除了受計算量影響外,還會受訪存量、硬件特性、軟件實現、系統環(huán)境等諸多因素影響,呈現出復雜的特性。因此,在手頭有硬件且測試方便的情況下, 實測是最準確的性能評估方式 。
在設計網絡結構時,如果有實測的條件,建議在模型迭代早期對性能也進行測試。一些 NAS 的方法也會對搜索出來的網絡結構進行測速,或者干脆對硬件速度進行了建模,也作為初期搜索的重要參數。這種方法設計出來的網絡在后期部署時,會極大減少因性能問題迭代優(yōu)化的時間和人力開銷。
這里我將討論影響模型在硬件上推理速度的一些因素,一方面希望可以幫助手動/自動設計網絡結構的同學更快的設計更高效的網絡結構,另一方面希望當模型部署時性能出現問題時能夠為大家提供分析原因的思路。
這一問題我將從如下 3 個點進行討論:
-
計算密度與 RoofLine 模型
-
計算密集型算子與訪存密集型算子
-
推理時間
1. 計算密度與 RoofLine 模型
計算密度是指一個程序在單位訪存量下所需的計算量,單位是 FLOPs/Byte。其計算公式很簡單,很多教材、資料里也稱之為 計算訪存比 ,用于反映一個程序相對于訪存來說計算的密集程度:
RoofLine 模型是一個用于評估程序在硬件上能達到的 性能上界 的模型,可用下圖表示:
RoofLine 模型
用公式描述:
當程序的 計算密度I 較小時,程序訪存多而計算少,性能受內存帶寬限制,稱為 訪存密集型 程序,即圖中橙色區(qū)域。在此區(qū)域的程序性能上界=計算密度×內存帶寬,表現為圖中的斜線,其中斜率為內存帶寬的大小。計算密度越大,程序所能達到的速度上界越高,但使用的內存帶寬始終為最大值。
反之如果計算密度I較大,程序性能受 硬件最大計算峰值 (下文簡稱為 算力 )限制,稱為 計算密集 型程序,即圖中藍色區(qū)域。此時性能上界=硬件算力,表現為圖中的橫線。此時計算速度不受計算密度影響,但計算密度越大,所需內存帶寬就越少。
在兩條線的交點處,計算速度和內存帶寬同時到達最大值。
在不同設備上,同一個程序的性質可能發(fā)生變化
在不同設備上,同一個程序的性質可能發(fā)生變化。例如上圖中的程序2,在算力稍弱的設備2上屬于計算密集型程序,而在算力較強的設備1上就屬于訪存密集型程序了(感謝評論區(qū)指正)。如果想要充分發(fā)揮設備1的性能,應當適當加大程序的計算密度(比如到程序3的位置)。
2. 計算密集型算子與訪存密集型算子
網絡中的算子可以根據計算密度進行分類。一般來講, Conv、FC、Deconv 算子屬于計算密集型算子;ReLU、EltWise Add、Concat 等屬于訪存密集型算子。
同一個算子也會因參數的不同而導致計算密度變化,甚至改變性質,比如在其他參數不變的前提下,增大 Conv 的 group,或者減小 Conv 的 input channel 都會減小計算密度。
舉個栗子,對于不同參數的卷積,計算密度如下:
可以看到,不同參數下卷積算子的計算密度有很大的差異。第 4 個算子 Depthwise Conv 計算密度僅有 2.346,在當下的很多設備上都屬于訪存密集型算子。
算子的計算密度越大,約有可能提升硬件的計算效率,充分發(fā)揮硬件性能。我們以一個 Intel X86 服務器平臺為例(10980 XE)。該平臺 CPU 頻率為 4.5 GHz,我們以 16 核為例,其理論 FP32 算力為 4.608 TFLOPs/s,內存帶寬理論值為 96 GB/s。在此平臺上的 RoofLine 模型為:
Intel 10980 XE 16 核 RoofLine 模型,以及各個算子的計算密度與性能
該平臺“拐點”的計算密度為 48,計算較為密集的 OP1 和 OP2 處在計算密集區(qū),能夠達到平臺的算力峰值;而 OP3 和 OP4 處在訪存密集區(qū),受內存帶寬限制不能到達算力峰值,尤其是 OP4,由于計算訪存比過低,計算效率僅有可憐的 4.9%,計算效率并不高。
3. 推理時間
這里涉及到一個 gap,很多部署的同學們更喜歡談“計算效率”,而實際上算法同學真正關心的點是“推理時間”,導致兩者在對接的時候經常會出現一些 misleading。因此我這里單獨開一節(jié)來探討一下“推理時間”的評估方法。
其實也很簡單,按照 RoofLine 模型,我們很容易就能得到算子實際的執(zhí)行時間:
這是一個分段函數,拆開來可得:
一句話總結: 對于訪存密集型算子,推理時間跟訪存量呈線性關系,而對于計算密集型算子,推理時間跟計算量呈線性關系 。
講到這里,我們就能 初步 回答本章一開始的問題了:按照 RoofLine 模型,在計算密集區(qū),計算量越小,確實推理時間越小。但是在訪存密集區(qū),計算量與推理時間沒關系,真正起作用的是訪存量,訪存量越小,推理的時間才越快。在全局上,計算量和推理時間并非具有線性關系。
上一節(jié)中,OP4 雖然計算效率很低,但由于訪存量也很低,因此其實推理速度還是快于其他幾個 OP 的。但是我們可以觀察到,其計算量雖然只有 OP1 的 1/130,但是推理時間僅降低到了 1/6,兩者并非是線性關系(也是當年我把模型減到 1/10 計算量,但其實沒快多少的原因)。
再舉兩個例子強化一下,首先看這兩個卷積,他們的計算量差不多,但是因為都在訪存密集區(qū),OP3 的訪存量遠低于 OP5,其推理也更快:
下面這個栗子更明顯,OP5 和 OP6 的區(qū)別僅僅是一個是 DepthWise Conv,一個是普通 Conv,其他參數沒有變化。按照我們之前的直觀感受,Conv 換成 DepthWise Conv 應該會更快,但實際上兩者的推理時間是差不多的(這組參數也是當年我用過的【手動捂臉):
4. 小結
從上面的討論中我們可以看出: 計算量并不能單獨用來評估模型的推理時間,還必須結合硬件特性(算力&帶寬),以及訪存量來進行綜合評估 。并非是計算量越低模型推理越快。 在評價模型大小時,也建議加上訪存量作為重要的評價指標 。
需要強調的一點是,不同的硬件平臺峰值算力和內存帶寬不同,導致同一個模型在平臺 1 上可能是計算密集的,在平臺 2 上可能就變成了訪存密集的。例如上文提到的 Intel X86 平臺,“拐點”值為 48,而 NVIDIA V100“拐點”值為 173.6,上文舉的例子在 V100 平臺上僅有 OP2 落在了計算密集區(qū),剩下的全部是訪存密集的。因此, 同樣的模型在不同平臺上性質可能會發(fā)生改變 ,需要具體情況具體分析。
我們很難給出一個通用性的結論,究其原因是 RoofLine 模型本身是一個非線性模型。這里必須要強調一點的是, 除了峰值算力和內存帶寬之外,還有硬件限制、系統環(huán)境、軟件實現等諸多因素會影響程序的實際性能,使得其非線性特性更加嚴重。因此 RoofLine 模型僅僅只能提供一個性能上界的評估方式,并不代表能夠達到的實際性能。實際性能最準確的測量方式只有真機實測 。
RoofLine 模型更重要的是提供了一種分析性能的思想,即計算密集型程序更多的受限于硬件算力,而訪存密集型程序更多的受限于硬件內存帶寬。在理解這一點的基礎上設計網絡結構,并分析網絡的性能,將更有理論參考。不會再對”計算量減半,為啥推理時間沒變“這種問題抱有疑問了(說的就是我【流淚)
下文將對 RoofLine 模型的一些限制進行討論,分析哪些因素將以何種方式影響程序,使得其到達不了 RoofLine 模型估計的性能上界。
(下文要開始難度升級了,建議沒看懂 RoofLine 模型的同學們再把這一章看一遍,不然后面會看的有點懵)
三、影響模型推理性能的其他因素
RoofLine 模型可以用來評估程序的性能上界,但是實際能達到的性能還會受到硬件限制、系統環(huán)境、軟件實現等諸多因素的影響,距離性能上界有一定距離。本章將對這些影響因素進行分析。
1. 硬件限制對性能上界的影響
前面 RoofLine 模型使用的峰值算力及內存帶寬,是根據紙面數據計算得到的,是理論上的最大值。但在實際情況下, 硬件會因為種種原因,無法達到這個理論值。因此建議大家對硬件進行micro-benchmark,以獲取硬件的真實性能上限 。
以上文的 Intel X86 CPU 為例,我們之前計算的 avx512 理論算力為 4.608 TFLOPs/s,但這個數值的前提是頻率能維持在 4.5 GHz。然而實際上在使用 16 核跑 avx512 指令時,CPU 頻率會下降到約 2.9 GHz,此時理論算力僅剩下 2.96 TFLOPs/s,而實測值僅有 2.86 TFLOPs/s。
除了頻率之外,有些芯片可能會因為一些設計上或實現上的原因,導致在實際使用時達不到理論峰值。比如一些低端芯片不支持多發(fā)射、不支持亂序執(zhí)行、采用了阻塞式 Cache 等等,一些芯片甚至會有一些性能 bug,導致在實際使用時幾乎到達不了理論峰值(這里我個人傾向于把這些原因歸結為硬件限制帶來的損失)。
內存同理,該平臺理論帶寬為 96GB/s,但實測下來最高讀帶寬僅有 74 GB/s,僅能到達理論帶寬的 77%。
我們可以得到修正后的 RoofLine 模型,圖中藍色填充部分反映了因實際算力和內存帶寬達到不了理論值而造成的損失:
修正了實測峰值算力和內存帶寬后的 RoofLine 模型,藍色填充部分為硬件限制帶來的損失
修正后的模型“拐點”發(fā)生了變化,因此算子的性質也會發(fā)生變化。建議拿到硬件后對硬件進行 micro-benchmark,這里推薦兩個測試工具:
一個是高叔叔寫的浮點峰值測試方法的文章,最后有 github 鏈接,大家可以 clone 下來測試硬件峰值:
還有一個是 stream 測試工具,可以用于測試內存帶寬:
2. 系統環(huán)境對性能的影響
除非程序運行在裸機中,否則操作系統一定會對性能上界產生一定影響,比如操作系統在多核間的調度損失、操作系統的內存管理帶來的損失、操作系統本身占用的運算資源等等。
對于一般的深度學習推理任務而言,現代操作系統對性能的影響并不是特別明顯。但是在一些特殊情況下,也會帶來嚴重的性能損失。我這里將會舉兩個例子:
一個是 Android 系統在大小核上的調度,一旦程序在 CPU 上的占用率不足(比如是周期工作的任務),則有可能被 Android 調度到小核上,帶來性能損失。
另一個例子是內存缺頁。在 Linux 系統上,當向系統申請內存頁后,系統只是返回了虛擬頁,等到程序實際使用虛擬頁時,才會通過觸發(fā)缺頁異常的方式,進入操作系統內核分配物理頁,這一過程會嚴重降低性能。
好在這些問題可以通過軟件進行一部分彌補,例如調度問題可以使用綁核來解決,缺頁問題可以通過綁定物理頁(需要內核態(tài))或內存池來解決。因此操作系統帶來的影響是可控的。
除了操作系統帶來的影響,系統中運行的其他進程也會對當前進程造成影響。比如一個系統中運行了多個深度學習實例,或者系統后臺一些 APP 自啟動了等等。這些進程都會占用核心算力和內存帶寬,造成當前進程性能損失。
這往往會導致在工程測試環(huán)境下性能達標的模型,在實際部署時性能下降。因此, 必須關注工程測試環(huán)境和實際部署系統環(huán)境的差異 。如有條件,最好在實際部署環(huán)境下進行測試。
3. 軟件實現對性能的影響
除了硬件限制和系統環(huán)境外, 一個任務的軟件實現好壞對性能有著重大的影響 。
例如對于同樣的矩陣操作任務,使用 python 寫的多重 for 循環(huán),和用 numpy 高度優(yōu)化過的矩陣操作函數,性能可以差出 1~2 個數量級。
對于深度學習模型推理而言,推理框架對模型性能的影響主要體現在:是否充分利用了硬件的流水線資源、是否高效利用了硬件中的緩存、是否采用了時間復雜度更低的算法、是否解決了操作系統帶來的性能損失(如上文的調度問題和內存缺頁問題)、是否進行了正確高效的圖優(yōu)化等等。
由于影響因素很多,因此 軟件對性能的影響往往呈現出很強的非線性 ,導致在評估性能時很難給出一些普適性的結論, 很多時候只能具體情況具體分析 。(有的時候甚至有點玄學【捂臉)
例如同樣計算量的向量四則運算和超越函數,后者往往會慢于前者的原因是很多硬件不支持超越函數的 SIMD 指令;再比如空洞卷積(dilated Conv)性能會弱于普通卷積的原因是前者對訪存的利用不如后者高效等等。
在軟件實現的影響下,RoofLine 模型的上界再次下降,達到圖中的紅線(真實的非線性可能會比我隨手畫的要復雜的多):
RoofLine 模型各種性能損失示意圖,圖中曲線不代表真實比例
因此,在評估或分析深度學習推理性能時,簡單的計算量/訪存量指標是完全不夠的,只能做個性能上界參考。實際能達到的性能其實還要關注很多很多因素,例如算子的訪存模式、數據排布、是否能夠進行圖融合、是否有精度可接受的低時間復雜度算法、算法并行度是否充足、各種運算的比例等等因素。
這些因素對于算法同學而言可能過于復雜,并不需要掌握。但如果所在的公司/部門有交流的機會的話,可以跟部署/優(yōu)化的同學針對模型結構和算子進行探討,以獲取性能優(yōu)化的建議。
這里可以一些 一般性的結論 ,僅供參考:
-
對于一些訪存非常密集且訪存 pattern 連續(xù)的算子,如 Concat、Eltwise Sum、ReLU、LeakyReLU、ReflectionPad 等,在 Tensor 數據量很大的情況下,軟件實現的損失會非常小,正常情況下基本都能達到內存帶寬實測上限;如果框架采用了融合策略的話,基本可以達到 0 開銷。
-
對于 Conv/FC/Deconv 等算子,在計算密度很高的情況下,大多數框架是能夠很接近算力峰值的。但對于計算密度不是特別高的 case,不同框架的表現不一,需要實測才能確定。不過從大趨勢而言,都是計算密度越高,硬件的利用率越高的。
-
盡量使用常用的算子參數,例如 Conv 盡量使用 3x3_s1/s2,1x1___s1/s2 等,這些常用參數往往會被特殊優(yōu)化,性能更好。
4. 小結
RoofLine 模型僅能用于估計模型所能達到的性能上界,而實際部署時,還會受硬件限制、系統環(huán)境、軟件實現等因素的影響,導致無法達到 RoofLine 模型所定義的性能上界。
此外,由于這些因素往往會導致性能曲線有較強的非線性,理論分析和實測會有一定差距,有時這些因素會嚴重影響性能曲線,甚至會導致算子的性質發(fā)生變化。因此本節(jié)討論的內容只是提供一些分析的思路與技巧, 實測始終是最準確的性能評估方式 。
四、面向推理速度的模型設計建議
前面討論了一大堆,其實最實用的還是“怎么設計模型能夠達到更快的推理速度”。
在給出我的個人建議之前,首先要先聲明的是:由于不同硬件、不同環(huán)境、不同框架的差異會很大,這些建議可能并不是在所有條件下都適用。在設計算法或性能測試遇到疑問時,建議咨詢部署/優(yōu)化的同學。
好了,廢話不多說(其實已經說了很多了),給出我的一些個人建議:
方法論建議:
-
了解目標硬件的峰值算力和內存帶寬,最好是實測值,用于指導網絡設計和算子參數選擇。
-
明確測試環(huán)境和實際部署環(huán)境的差異,最好能夠在實際部署環(huán)境下測試性能,或者在測試環(huán)境下模擬實際部署環(huán)境。
-
針對不同的硬件平臺,可以設計不同計算密度的網絡,以在各個平臺上充分發(fā)揮硬件計算能力(雖然工作量可能會翻好幾倍【捂臉)。
-
除了使用計算量來表示/對比模型大小外,建議引入訪存量、特定平臺執(zhí)行時間,來綜合反映模型大小。
-
實測是最準確的性能評估方式,如果有條件快速實測的話,建議以實測與理論分析相結合的方式設計并迭代網絡。
-
遇到性能問題時,可以逐層 profiling,并與部署/優(yōu)化同學保持緊密溝通,具體問題具體分析(適當了解一下計算相關理論的話,可以更高效的溝通)。
網絡設計建議:
-
對于低算力平臺(CPU、低端 GPU 等),模型很容易受限于硬件計算能力,因此可以采用計算量低的網絡來降低推理時間。
-
對于高算力平臺(GPU、DSP 等),一味降低計算量來降低推理時間就并不可取了,往往更需要關注訪存量。單純降低計算量,很容易導致網絡落到硬件的訪存密集區(qū),導致推理時間與計算量不成線性關系,反而跟訪存量呈強相關(而這類硬件往往內存弱于計算)。相對于低計算密度網絡而言,高計算密度網絡有可能因為硬件效率更高,耗時不變乃至于更短。
-
面向推理性能設計網絡結構時,盡量采用經典結構,大部分框架會對這類結構進行圖優(yōu)化,能夠有效減少計算量與訪存量。例如 Conv->BN->ReLU 就會融合成一個算子,但 Conv->ReLU->BN 就無法直接融合 BN 層
-
算子的參數盡量使用常用配置,如 Conv 盡量使用 3x3_s1/s2、1x1___s1/s2 等,軟件會對這些特殊參數做特殊優(yōu)化。
-
CNN 網絡 channel 數盡量選擇 4/8/16/32 的冪次,很多框架的很多算子實現在這樣的 channel 數下效果更好(具體用多少不同平臺不同框架不太一樣)。
-
框架除了計算耗時外,也處理網絡拓撲、內存池、線程池等開銷,這些開銷跟網絡層數成正比。因此相比于“大而淺”的網絡,“小而深”的網絡這部分開銷更大。一般情況下這部分開銷占比不大。但在網絡算子非常碎、層數非常多的時候,這部分開銷有可能會影響多線程的擴展性,乃至于成為不可忽視的耗時因素。
一些其他建議:
-
除了優(yōu)化網絡結構、推理框架性能外,還可以考慮通過一些其他工程技巧來提升系統整體的性能。例如:對推理服務流水化,并行數據讀取與計算的過程,掩蓋 IO 延時。
本文介紹了評估模型大小的四個常用指標——計算量、參數量、訪存量、內存占用,從 RoofLine 模型入手詳細討論了影響模型推理速度的影響因素,并給出了面向推理速度的模型設計方法論與建議。
撰寫本文的目的,不僅僅是給算法同學提供有效的網絡設計建議,更多的還是希望能夠傳達性能優(yōu)化的基礎知識與分析思路,減少算法設計到部署之間的 gap,更快速高效的設計推理友好的網絡模型。希望能對大家的工作有所幫助。
由于本人知識水平有限,如有錯誤和不詳盡的地方,望大家不吝指出,非常歡迎大家在評論區(qū)留言探討。
本文亮點總結
1. 模型在特定硬件上的推理速度,除了受計算量影響外,還會受訪存量、硬件特性、軟件實現、系統環(huán)境等諸多因素影響,呈現出復雜的特性。因此,在手頭有硬件且測試方便的情況下,實測是最準確的性能評估方式。
2. 除了峰值算力和內存帶寬之外,還有硬件限制、系統環(huán)境、軟件實現等諸多因素會影響程序的實際性能,使得其非線性特性更加嚴重。因此 RoofLine 模型僅僅只能提供一個性能上界的評估方式,并不代表能夠達到的實際性能。實際性能最準確的測量方式只有真機實測。