自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

圖像預(yù)處理庫CV-CUDA開源了，打破預(yù)處理瓶頸，提升推理吞吐量20多倍

作者：Synced 2022-12-23 09:49:42

人工智能新聞

當(dāng) CPU 圖像預(yù)處理成為視覺任務(wù)的瓶頸，最新開源的CV-CUDA，將為圖像預(yù)處理算子提速百倍。

在如今信息化時(shí)代中，圖像或者說視覺內(nèi)容早已成為日常生活中承載信息最主要的載體，深度學(xué)習(xí)模型憑借著對(duì)視覺內(nèi)容強(qiáng)大的理解能力，能對(duì)其進(jìn)行各種處理與優(yōu)化。
然而在以往的視覺模型開發(fā)與應(yīng)用中，我們更關(guān)注模型本身的優(yōu)化，提升其速度與效果。相反，對(duì)于圖像的預(yù)處理與后處理階段，很少認(rèn)真思考如何去優(yōu)化它們。所以，當(dāng)模型計(jì)算效率越來越高，反觀圖像的預(yù)處理與后處理，沒想到它們竟成了整個(gè)圖像任務(wù)的瓶頸。
為了解決這樣的瓶頸，NVIDIA 攜手字節(jié)跳動(dòng)機(jī)器學(xué)習(xí)團(tuán)隊(duì)開源眾多圖像預(yù)處理算子庫CV-CUDA，它們能高效地運(yùn)行在 GPU 上，算子速度能達(dá)到 OpenCV（運(yùn)行在 CPU）的百倍左右。如果我們使用 CV-CUDA 作為后端替換OpenCV 和 TorchVision，整個(gè)推理的吞吐量能達(dá)到原來的二十多倍。此外，不僅是速度的提升，同時(shí)在效果上 CV-CUDA 在計(jì)算精度上已經(jīng)對(duì)齊了OpenCV，因此訓(xùn)練推理能無縫銜接，大大降低工程師的工作量。

以圖像背景模糊算法為例，將CV-CUDA替換 OpenCV作為圖像預(yù)/后處理的后端，整個(gè)推理過程吞吐量能加20 多倍。

如果小伙伴們想試試更快、更好用的視覺預(yù)處理庫，可以試試這一開源工具。開源地址：https://github.com/CVCUDA/CV-CUDA

圖像預(yù)/后處理已成為 CV 瓶頸

很多涉及到工程與產(chǎn)品的算法工程師都知道，雖然我們常常只討論模型結(jié)構(gòu)和訓(xùn)練任務(wù)這類「前沿研究」，但實(shí)際要做成一個(gè)可靠的產(chǎn)品，中間會(huì)遇到很多工程問題，反而模型訓(xùn)練是最輕松的一環(huán)了。
圖像預(yù)處理就是這樣的工程難題，我們也許在實(shí)驗(yàn)或者訓(xùn)練中只是簡單地調(diào)用一些API 對(duì)圖像進(jìn)行幾何變換、濾波、色彩變換等等，很可能并不是特別在意。但是當(dāng)我們重新思考整個(gè)推理流程時(shí)會(huì)發(fā)現(xiàn)，圖像預(yù)處理已經(jīng)成為了性能瓶頸，尤其是對(duì)于預(yù)處理過程復(fù)雜的視覺任務(wù)。
這樣的性能瓶頸，主要體現(xiàn)在 CPU 上。一般而言，對(duì)于常規(guī)的圖像處理流程，我們都會(huì)先在CPU 上進(jìn)行預(yù)處理，再放到 GPU 運(yùn)行模型，最后又會(huì)回到 CPU，并可能需要做一些后處理。

以圖像背景模糊算法為例，常規(guī)的圖像處理流程中預(yù)\后處理主要在 CPU 完成，占據(jù)整體 90% 的工作負(fù)載，其已經(jīng)成為該任務(wù)的瓶頸。

因此對(duì)于視頻應(yīng)用，或者 3D 圖像建模等復(fù)雜場景，因?yàn)閳D像幀的數(shù)量或者圖像信息足夠大，預(yù)處理過程足夠復(fù)雜，并且延遲要求足夠低，優(yōu)化預(yù)/后處理算子就已經(jīng)迫在眉睫了。一個(gè)更好地做法，當(dāng)然是替換掉 OpenCV，使用更快的解決方案。

為什么 OpenCV 仍不夠好？

在 CV 中，應(yīng)用最廣泛的圖像處理庫當(dāng)然就是長久維護(hù)的OpenCV 了，它擁有非常廣泛的圖像處理操作，基本能滿足各種視覺任務(wù)的預(yù)/后處理所需。但是隨著圖像任務(wù)負(fù)載的加大，它的速度已經(jīng)有點(diǎn)慢慢跟不上了，因?yàn)镺penCV 絕大多數(shù)圖像操作都是 CPU 實(shí)現(xiàn)，缺少 GPU 實(shí)現(xiàn)，或者 GPU 實(shí)現(xiàn)本來就存在一些問題。
在NVIDIA與字節(jié)跳動(dòng)算法同學(xué)的研發(fā)經(jīng)驗(yàn)中，他們發(fā)現(xiàn)OpenCV 中那些少數(shù)有 GPU 實(shí)現(xiàn)的算子存在三大問題：

部分算子的 CPU 和 GPU 結(jié)果精度無法對(duì)齊；
部分算子 GPU 性能比 CPU 性能還弱；
同時(shí)存在各種CPU算子與各種 GPU 算子，當(dāng)處理流程需要同時(shí)使用兩種，就額外增加了內(nèi)存與顯存中的空間申請(qǐng)與數(shù)據(jù)遷移/數(shù)據(jù)拷貝；

比如說第一個(gè)問題結(jié)果精度無法對(duì)齊，NVIDIA與字節(jié)跳動(dòng)算法同學(xué)會(huì)發(fā)現(xiàn)，當(dāng)我們?cè)谟?xùn)練時(shí)OpenCV 某個(gè)算子使用了 CPU，但是推理階段考慮到性能問題，換而使用OpenCV對(duì)應(yīng)的GPU 算子，也許CPU 和 GPU 結(jié)果精度無法對(duì)齊，導(dǎo)致整個(gè)推理過程出現(xiàn)精度上的異常。當(dāng)出現(xiàn)這樣的問題，要么換回 CPU 實(shí)現(xiàn)，要么需要費(fèi)很多精力才有可能重新對(duì)齊精度，是個(gè)不好處理的難題。
既然 OpenCV 仍不夠好，可能有讀者會(huì)問，那Torchvision 呢？它其實(shí)會(huì)面臨和 OpenCV 一樣的問題，除此之外，工程師部署模型為了效率更可能使用 C++實(shí)現(xiàn)推理過程，因此將沒辦法使用Torchvision而需要轉(zhuǎn)向 OpenCV 這樣的 C++ 視覺庫，這不就帶來了另一個(gè)難題：對(duì)齊Torchvision與OpenCV的精度。
總的來說，目前視覺任務(wù)在 CPU 上的預(yù)/后處理已經(jīng)成為了瓶頸，然而當(dāng)前OpenCV 之類的傳統(tǒng)工具也沒辦法很好地處理。因此，將操作遷移到GPU 上，完全基于CUDA實(shí)現(xiàn)的高效圖像處理算子庫 CV-CUDA，就成為了新的解決方案。

完全在 GPU 上進(jìn)行預(yù)處理與后處理，將大大降低圖像處理部分的CPU 瓶頸。

GPU 圖像處理加速庫： CV-CUDA

作為基于 CUDA 的預(yù)/后處理算子庫，算法工程師可能最期待的是三點(diǎn)：足夠快、足夠通用、足夠易用。NVIDIA 和字節(jié)跳動(dòng)的機(jī)器學(xué)習(xí)團(tuán)隊(duì)聯(lián)合開發(fā)的 CV-CUDA 正好能滿足這三點(diǎn)，利用 GPU 并行計(jì)算能力提升算子速度，對(duì)齊OpenCV 操作結(jié)果足夠通用，對(duì)接 C++/Python 接口足夠易用。

CV-CUDA的速度

CV-CUDA的快，首先體現(xiàn)在高效的算子實(shí)現(xiàn)，畢竟是NVIDIA 寫的，CUDA 并行計(jì)算代碼肯定經(jīng)過大量的優(yōu)化的。其次是它支持批量操作，這就能充分利用GPU設(shè)備的計(jì)算能力，相比 CPU 上一張張圖像串行執(zhí)行，批量操作肯定是要快很多的。最后，還得益于CV-CUDA 適配的 Volta、Turing、Ampere 等 GPU 架構(gòu)，在各 GPU 的 CUDA kernel 層面進(jìn)行了性能上的高度優(yōu)化，從而獲得最好的效果。也就是說，用的 GPU 卡越好，其加速能力越夸張。
正如前文的背景模糊吞吐量加速比圖，如果采用CV-CUDA 替代 OpenCV 和 TorchVision 的前后處理后，整個(gè)推理流程的吞吐率提升20 多倍。其中預(yù)處理對(duì)圖像做 Resize、Padding、Image2Tensor 等操作，后處理對(duì)預(yù)測結(jié)果做的Tensor2Mask、Crop、Resize、Denoise 等操作。

在同一個(gè)計(jì)算節(jié)點(diǎn)上（2x Intel Xeon Platinum 8168 CPUs，1x NVIDIA A100 GPU），以 30fps 的幀率處理 1080p 視頻，采用不同 CV 庫所能支持的最大的并行流數(shù)。測試采用了 4 個(gè)進(jìn)程，每個(gè)進(jìn)程 batchSize 為 64。對(duì)于單個(gè)算子的性能，NVIDIA和字節(jié)跳動(dòng)的小伙伴也做了性能測試，很多算子在GPU 上的吞吐量能達(dá)到 CPU 的百倍。

圖片大小為 480*360，CPU 選擇為 Intel(R) Core(TM) i9-7900X，BatchSize 大小為 1，進(jìn)程數(shù)為 1

盡管預(yù)/后處理算子很多都不是單純的矩陣乘法等運(yùn)算，為了達(dá)到上述高效的性能，CV-CUDA 其實(shí)做了很多算子層面的優(yōu)化。例如采用大量的 kernel 融合策略，減少了 kernel launch 和 global memory 的訪問時(shí)間；優(yōu)化訪存以提升數(shù)據(jù)讀寫效率；所有算子均采用異步處理的方式，以減少同步等待的耗時(shí)等等。

CV-CUDA的通用與靈活

運(yùn)算結(jié)果的穩(wěn)定，對(duì)于實(shí)際的工程可太重要了，就比如常見的 Resize 操作，OpenCV、OpenCV-gpu 以及 Torchvision 的實(shí)現(xiàn)方式都不一樣，那從訓(xùn)練到部署，就會(huì)多很多工作量以對(duì)齊結(jié)果。
CV-CUDA在設(shè)計(jì)之初，就考慮到當(dāng)前圖像處理庫中，很多工程師習(xí)慣使用 OpenCV 的 CPU 版本，因此在設(shè)計(jì)算子時(shí)，不管是函數(shù)參數(shù)還是圖像處理結(jié)果上，盡可能對(duì)齊 OpenCV CPU 版本的算子。因此從OpenCV 遷移到 CV-CUDA，只需要少量改動(dòng)就能獲得一致的運(yùn)算結(jié)果，模型也就不必要重新訓(xùn)練。
此外，CV-CUDA是從算子層面設(shè)計(jì)的，因此不論模型的預(yù)/后處理流程是什么樣的，其都能自由組合，具有很高的靈活性。
字節(jié)跳動(dòng)機(jī)器學(xué)習(xí)團(tuán)隊(duì)表示，在企業(yè)內(nèi)部訓(xùn)練的模型多，需要的預(yù)處理邏輯也多種多樣有許多定制的預(yù)處理邏輯需求。CV-CUDA 的靈活性能保證每個(gè) OP 都支持 stream 對(duì)象和顯存對(duì)象（Buffer和Tensor類，內(nèi)部存儲(chǔ)了顯存指針）的傳入，從而能更加靈活地配置相應(yīng)的 GPU 資源。每個(gè) op 設(shè)計(jì)開發(fā)時(shí)，既兼顧了通用性，也能按需提供定制化接口，能夠覆蓋圖片類預(yù)處理的各種需求。

CV-CUDA的易用

可能很多工程師會(huì)想著，CV-CUDA 涉及到底層 CUDA 算子，那用起來應(yīng)該比較費(fèi)勁？但其實(shí)不然，即使不依賴更上層的 API，CV-CUDA本身底層也會(huì)提供等結(jié)構(gòu)體，提供Allocator 類，這樣在 C++上調(diào)起來也不麻煩。此外，往更上層，CV-CUDA 提供了 PyTorch、OpenCV 和 Pillow 的數(shù)據(jù)轉(zhuǎn)化接口，工程師能快速地以之前熟悉的方式進(jìn)行算子替換與調(diào)用。
此外，因?yàn)镃V-CUDA同時(shí)擁有 C++接口與 Python 接口，它能同時(shí)用于訓(xùn)練與服務(wù)部署場景，在訓(xùn)練時(shí)用Python 接口跟快速地驗(yàn)證模型能力，在部署時(shí)利用C++接口進(jìn)行更高效地預(yù)測。CV-CUDA免于繁瑣的預(yù)處理結(jié)果對(duì)齊過程，提高了整體流程的效率。

CV-CUDA進(jìn)行 Resize 的 C++接口

實(shí)戰(zhàn)，CV-CUDA怎么用

如果我們?cè)谟?xùn)練過程中使用CV-CUDA的 Python 接口，那其實(shí)使用起來就會(huì)很簡單，只需要簡單幾步就能將原本在 CPU 上的預(yù)處理操作都遷移到 GPU 上。
以圖片分類為例，基本上我們?cè)陬A(yù)處理階段需要將圖片解碼為張量，并進(jìn)行裁切以符合模型輸入大小，裁切完后還要將像素值轉(zhuǎn)化為浮點(diǎn)數(shù)據(jù)類型并做歸一化，之后傳到深度學(xué)習(xí)模型就能進(jìn)行前向傳播了。下面我們將從一些簡單的代碼塊，體驗(yàn)一下CV-CUDA 是如何對(duì)圖片進(jìn)行預(yù)處理，如何與Pytorch進(jìn)行交互。

常規(guī)圖像識(shí)別的預(yù)處理流程，使用CV-CUDA將會(huì)把預(yù)處理過程與模型計(jì)算都統(tǒng)一放在GPU 上運(yùn)行。

如下在使用 torchvision 的 API 加載圖片到 GPU之后，Torch Tensor 類型能直接通過 as_tensor 轉(zhuǎn)化為CV-CUDA 對(duì)象 nvcvInputTensor，這樣就能直接調(diào)用CV-CUDA 預(yù)處理操作的 API，在 GPU 中完成對(duì)圖像的各種變換。

如下幾行代碼將借助 CV-CUDA 在 GPU 中完成圖像識(shí)別的預(yù)處理過程：裁剪圖像并對(duì)像素進(jìn)行歸一化。其中resize() 將圖像張量轉(zhuǎn)化為模型的輸入張量尺寸；convertto()將像素值轉(zhuǎn)化為單精度浮點(diǎn)值；normalize()將歸一化像素值，以令取值范圍更適合模型進(jìn)行訓(xùn)練。
CV-CUDA 各種預(yù)處理操作的使用與 OpenCV 或 Torchvision中的不會(huì)有太大區(qū)別，只不過簡單調(diào)個(gè)方法，其背后就已經(jīng)在 GPU 上完成運(yùn)算了。

現(xiàn)在借助借助 CV-CUDA 的各種 API，圖像分類任務(wù)的預(yù)處理已經(jīng)都做完了，其能高效地在GPU 上完成并行計(jì)算，并很方便地融合到PyTorch 這類主流深度學(xué)習(xí)框架的建模流程中。剩下的，只需要將CV-CUDA對(duì)象nvcvPreprocessedTensor 轉(zhuǎn)化為Torch Tensor 類型就能饋送到模型了，這一步同樣很簡單，轉(zhuǎn)換只需一行代碼：

通過這個(gè)簡單的例子，很容易發(fā)現(xiàn)CV-CUDA 確實(shí)很容易就嵌入到正常的模型訓(xùn)練邏輯中。如果讀者希望了解更多的使用細(xì)節(jié)，還是可以查閱前文CV-CUDA的開源地址。

CV-CUDA對(duì)實(shí)際業(yè)務(wù)的提升

CV-CUDA實(shí)際上已經(jīng)經(jīng)過了實(shí)際業(yè)務(wù)上的檢驗(yàn)。在視覺任務(wù)，尤其是圖像有比較復(fù)雜的預(yù)處理過程的任務(wù)，利用 GPU 龐大的算力進(jìn)行預(yù)處理，能有效提神模型訓(xùn)練與推理的效率。CV-CUDA 目前在抖音集團(tuán)內(nèi)部的多個(gè)線上線下場景得到了應(yīng)用，比如搜索多模態(tài)，圖片分類等。
字節(jié)跳動(dòng)機(jī)器學(xué)習(xí)團(tuán)隊(duì)表示，CV-CUDA 在內(nèi)部的使用能顯著提升訓(xùn)練與推理的性能。例如在訓(xùn)練方面，字節(jié)跳動(dòng)一個(gè)視頻相關(guān)的多模態(tài)任務(wù)，其預(yù)處理部分既有多幀視頻的解碼，也有很多的數(shù)據(jù)增強(qiáng)，導(dǎo)致這部分邏輯很復(fù)雜。復(fù)雜的預(yù)處理邏輯導(dǎo)致 CPU 多核性能在訓(xùn)練時(shí)仍然跟不上，因此采用CV-CUDA將所有 CPU 上的預(yù)處理邏輯遷移到 GPU，整體訓(xùn)練速度上獲得了 90%的加速。注意這可是整體訓(xùn)練速度上的提升，而不只是預(yù)處理部分的提速。

在字節(jié)跳動(dòng) OCR 與視頻多模態(tài)任務(wù)上，通過使用CV-CUDA，整體訓(xùn)練速度能提升 1 到 2 倍（注意：是模型整體訓(xùn)練速度的提升）

在推理過程也一樣，字節(jié)跳動(dòng)機(jī)器學(xué)習(xí)團(tuán)隊(duì)表示，在一個(gè)搜索多模態(tài)任務(wù)中使用 CV-CUDA 后，整體的上線吞吐量相比于用 CPU 做預(yù)處理時(shí)有了 2 倍多的提升。值得注意的是，這里的 CPU基線結(jié)果本來就經(jīng)過多核高度優(yōu)化，并且該任務(wù)涉及到的預(yù)處理邏輯較簡單，但使用 CV-CUDA 之后加速效果依然非常明顯。
速度上足夠高效以打破視覺任務(wù)中的預(yù)處理瓶頸，再加上使用也簡單靈活，CV-CUDA 已經(jīng)證明了在實(shí)際應(yīng)用場景中能很大程度地提升模型推理與訓(xùn)練效果，所以要是讀者們的視覺任務(wù)同樣受限于預(yù)處理效率，那就試試最新開源的CV-CUDA吧。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營