OpenHarmony啃論文俱樂(lè)部—數(shù)據(jù)高通量無(wú)損壓縮方案

作者：ELT_ZIP 2022-06-08 16:29:45

分布式計(jì)算以及高性能計(jì)算在機(jī)器學(xué)習(xí)、大數(shù)據(jù)學(xué)習(xí)與高級(jí)建模與模擬等新興技術(shù)上都有使用。在航天航空、制造業(yè)、金融、醫(yī)療等多個(gè)領(lǐng)域也有著非常重要的作用。

??51CTO 開(kāi)源基礎(chǔ)軟件社區(qū)??

??https://ost.51cto.com??

【本期看點(diǎn)】

ndzip應(yīng)用場(chǎng)景
ndzip相關(guān)算法
殘差編碼復(fù)現(xiàn)
SIMD

【技術(shù)DNA】

【智慧場(chǎng)景】

**********	********************	********************	********************	********************	********************	********************	********************	********************	********************	********************	********************	********************	********************	********************	*****************
場(chǎng)景	自動(dòng)駕駛 / AR	語(yǔ)音信號(hào)	流視頻	GPU 渲染	科學(xué)、云計(jì)算	內(nèi)存縮減	科學(xué)應(yīng)用	醫(yī)學(xué)圖像	數(shù)據(jù)庫(kù)服務(wù)器	人工智能圖像	文本傳輸	GAN媒體壓縮	圖像壓縮	文件同步	數(shù)據(jù)庫(kù)系統(tǒng)
技術(shù)	點(diǎn)云壓縮	?稀疏快速傅里葉變換?	有損視頻壓縮	網(wǎng)格壓縮	動(dòng)態(tài)選擇壓縮算法框架	無(wú)損壓縮	分層數(shù)據(jù)壓縮	醫(yī)學(xué)圖像壓縮	無(wú)損通用壓縮	人工智能圖像壓縮	短字符串壓縮	GAN 壓縮的在線多粒度蒸餾	圖像壓縮	文件傳輸壓縮	快速隨機(jī)訪問(wèn)字符串壓縮
開(kāi)源項(xiàng)目	??Draco??? / 基于深度學(xué)習(xí)算法/??PCL???/??OctNet??	??SFFT??	??AV1??? / ??H.266編碼??? / ??H.266解碼???/??VP9??	??MeshOpt??? / ??Draco??	??Ares??	??LZ4??	??HCompress??	??DICOM??	??Brotli??	??RAISR??	??AIMCS??	??OMGD??	??OpenJPEG??	??rsync??	??FSST??

NDZIP — 一個(gè)用于科學(xué)數(shù)據(jù)的高通量并行無(wú)損壓縮器

概述

場(chǎng)景應(yīng)用

分布式計(jì)算以及高性能計(jì)算在機(jī)器學(xué)習(xí)、大數(shù)據(jù)學(xué)習(xí)與高級(jí)建模與模擬等新興技術(shù)上都有使用。在航天航空、制造業(yè)、金融、醫(yī)療等多個(gè)領(lǐng)域也有著非常重要的作用。
ndzip，是一種新的高吞吐量無(wú)損壓縮算法，專(zhuān)門(mén)為浮點(diǎn)數(shù)據(jù)的n維網(wǎng)格而設(shè)計(jì)，為HPC互連帶寬的的限制因素提供了一種有效的解決方案。

本文貢獻(xiàn)

本文提出了一種新的壓縮算法-ndzip，它基于一個(gè)快速，且并行整數(shù)近似的的知名預(yù)測(cè)器，并結(jié)合了對(duì)硬件友好的塊細(xì)分方案；
ndzip 的高性能多級(jí)并行實(shí)現(xiàn)，利用SIMD? 和線程級(jí)并行；
對(duì)大量具有代表性的HPC 數(shù)據(jù)進(jìn)行深入的性能評(píng)估，并與最新水平的專(zhuān)業(yè)浮點(diǎn)壓縮器和通用壓縮方案進(jìn)行比較。

技術(shù)背景

殘差編碼

關(guān)于殘差編碼，ndzip使用了與 MPC 相同的殘差編碼方案，使其可以在現(xiàn)在的CPU上高效的實(shí)現(xiàn)。大致流程如下：

殘差使用了二進(jìn)制補(bǔ)碼進(jìn)行表示，根據(jù)殘差的符號(hào)，確定了補(bǔ)碼第一位是1還是0。之后通過(guò)0消去對(duì)兩者進(jìn)行編碼。

殘差首先被轉(zhuǎn)換成符號(hào)-數(shù)值（sign-magnitude）表示，只要?dú)埐顬樨?fù)，就對(duì)除了第一個(gè)比特外的所有比特進(jìn)行翻轉(zhuǎn)。

然后將殘差流分成32個(gè)單精度或者64個(gè)雙精度的值，對(duì)每個(gè)塊進(jìn)行 32x32（64x64）的位矩陣變換

將來(lái)自相同位置的比特分組成單詞，從輸出中消去可以消去的0詞

【ELT.ZIP】OpenHarmony啃論文俱樂(lè)部——數(shù)據(jù)高通量無(wú)損壓縮方案-開(kāi)源基礎(chǔ)軟件社區(qū)

在每個(gè)塊前面加上一個(gè)32位（64位）的頭，將非0字的位置編碼為位圖。

【ELT.ZIP】OpenHarmony啃論文俱樂(lè)部——數(shù)據(jù)高通量無(wú)損壓縮方案-開(kāi)源基礎(chǔ)軟件社區(qū)

使用教程

上面的原理看的有點(diǎn)頭禿，下面講解如何快速上手ndzip。
點(diǎn)擊進(jìn)入 ndzip 的地址，git 下項(xiàng)目到本地。

環(huán)境搭建

環(huán)境需求

運(yùn)行 ndzip 需要以下環(huán)境，Catch2 可根據(jù)自己是否需要來(lái)選擇是否安裝。

CMake >= 3.15
Clang >= 10.0.0
Linux (我這里用的Ubuntu20)
Boost >= 1.66
Catch2 >= 2.13.3 (可選，用于單元測(cè)試和微基準(zhǔn)測(cè)試)

CMake安裝

CMake? 在Ubuntu軟件源中，安裝非常簡(jiǎn)單，執(zhí)行以下命令即可：

sudo apt install cmake

版本檢查（CMake >= 3.1.5）：

cmake --version

看到 CMake 版本大于3.1.5?即可。

Clang 安裝

Clang 也存在 Ubuntu軟件源中，步驟和CMake差不多，命令如下：

sudo apt install clang

版本檢查（Clang >= 10.0.0）：

clang --version

可以看到 Clang 版本為10.0.0?,符合要求

Boost 安裝

Boostr 也存在 Ubuntu軟件源中，命令如下：

```undefi`ned
sudo apt-get install libboost-all-dev

- 版本檢查（Boost >= 1.66）：
```undefined
dpkg -S /usr/include/boost/version.hpp

【ELT.ZIP】OpenHarmony啃論文俱樂(lè)部——數(shù)據(jù)高通量無(wú)損壓縮方案-開(kāi)源基礎(chǔ)軟件社區(qū)

Catch2 添加

Catch2需要去github上下載編譯，命令如下：

git clone https://github.com/catchorg/Catch2.git
cd Catch2
cmake -Bbuild -H. -DBUILD_TESTING=OFF
sudo cmake --build build/ --target install

等待編譯添加完即可。

構(gòu)建

使用 CUDA + NVCC 構(gòu)建 ndzip

使用 cuda，安裝CUDA Toolkit：

sudo apt-key del 7fa2af80 # 刪除舊的GPG密鑰，之前裝過(guò)的要?jiǎng)h掉
wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin
sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda-repo-wsl-ubuntu-11-7-local_11.7.0-1_amd64.deb
sudo dpkg -i cuda-repo-wsl-ubuntu-11-7-local_11.7.0-1_amd64.deb
sudo apt-get update
sudo apt-get -y install cuda

使用CUDA + NVCC 構(gòu)建 ndzip（自己使用SYCL構(gòu)建ndzip沒(méi)跑出來(lái)。。。）

cmake -B build -DCMAKE_CUDA_ARCHITECTURES=75 -DCMAKE_BUILD_TYPE=Release -DCMAKE_CXX_FLAGS="-march=native"
cmake --build build -j

完成構(gòu)建

測(cè)試

測(cè)試命令

測(cè)試ndzip壓縮

評(píng)價(jià)

解耦多維數(shù)據(jù)

ndzip-gpu 通過(guò)變換在解耦多維數(shù)據(jù)時(shí)實(shí)現(xiàn)了高資源利用率。提出了一種用于垂直位打包的新穎、高效的曲速協(xié)同原語(yǔ)，提供了高吞吐量的數(shù)據(jù)縮減和擴(kuò)展步驟, 為檢查的數(shù)據(jù)提供了最佳的平均壓縮比, 同時(shí)在雙精度情況下的數(shù)據(jù)減少和吞吐量之間保持了有利的權(quán)衡。將數(shù)據(jù)集的壓縮比定義為壓縮大小除以未壓縮大小(以字節(jié)為單位)，比率越低表示壓縮越強(qiáng)。在需要匯總比率的情況下，返回?cái)?shù)據(jù)集上壓縮比率的未加權(quán)算術(shù)平均值。

SIMD

SIMD(Single Instruction Multiple Data），單指令多數(shù)據(jù)流，能夠復(fù)制多個(gè)操作數(shù) ，并把它們打包在大型寄存器的一組指令集。
ndzip專(zhuān)為在支持 SIMD 的現(xiàn)代多核處理器上高效實(shí)施而量身定制，能夠以接近主內(nèi)存帶寬的速度壓縮和解壓縮數(shù)據(jù)，顯著優(yōu)于現(xiàn)有方案。通過(guò)測(cè)量從系統(tǒng)內(nèi)存壓縮和解壓縮到系統(tǒng)內(nèi)存的時(shí)鐘時(shí)間來(lái)評(píng)估性能。第三方實(shí)現(xiàn)允許在必要時(shí)進(jìn)行內(nèi)存操作。返回每秒未壓縮字節(jié)的吞吐量，它轉(zhuǎn)換為壓縮輸入和解壓輸出帶寬。重復(fù)測(cè)量每個(gè)算法和數(shù)據(jù)集對(duì)，直到總運(yùn)行時(shí)間超過(guò)一秒。在每次迭代之前，從 CPU 緩存中刪除輸入數(shù)據(jù)。

利用多維度的好處可以通過(guò)使用等效的一維變換來(lái)轉(zhuǎn)換高維數(shù)據(jù)集來(lái)衡量。

實(shí)驗(yàn)

新型整數(shù)洛倫佐變換(ILT)的有效性

為了估計(jì)新型整數(shù)洛倫佐變換(ILT)的有效性，我們用其他預(yù)測(cè)方法代替了實(shí)現(xiàn)中的變換步驟，并比較了得到的壓縮比，通過(guò)使用等效的一維變換來(lái)轉(zhuǎn)換高維數(shù)據(jù)集來(lái)衡量。
如圖顯示了具有相同維度的所有數(shù)據(jù)集的平均壓縮比，相對(duì)于在各自維度中觀察到的最差壓縮比進(jìn)行了縮放。

因?yàn)樵摼S度相對(duì)最差的壓縮比(越小越好)，對(duì)于一維數(shù)據(jù)集，所有方案大致相同。總體上看，F(xiàn)LP最好，最差的選擇是兩個(gè)一維預(yù)測(cè)器，這表明基于洛倫佐的組件顯著受益于更高的維度,選擇余數(shù)運(yùn)算對(duì)于逼近 FLP 的相關(guān)特征至關(guān)重要。
算術(shù)平均未壓縮吞吐量
在測(cè)試數(shù)據(jù)上比較通過(guò)檢查的壓縮器實(shí)現(xiàn)，實(shí)現(xiàn)的吞吐量和壓縮比。根據(jù)設(shè)計(jì)，同時(shí)并非所有算法都能同時(shí)處理單精度值和雙精度值。有些算法有一個(gè)或多個(gè)可調(diào)參數(shù)體現(xiàn)為連續(xù)的線，而ndzip，沒(méi)有可調(diào)的行為。

通用算法可以在浮點(diǎn)數(shù)據(jù)上實(shí)現(xiàn)高壓縮比，但只能以犧牲大量計(jì)算資源為代價(jià)。比如，LZMA 在雙精度值上實(shí)現(xiàn)了最高的壓縮比，與最強(qiáng)的單精度壓縮器 fpzip 不相上下，同時(shí)花費(fèi)更多壓縮我們最大的數(shù)據(jù)集。LZ4 實(shí)現(xiàn)了比任何其他審查過(guò)的單線程算法更高的壓縮和解壓縮吞吐量，同時(shí)還提供了最差的數(shù)據(jù)縮減。Zstandard 提供了一個(gè)非常好的權(quán)衡，在單精度數(shù)據(jù)上主導(dǎo) Deflate 和專(zhuān)門(mén)的 SPDP。大多數(shù)專(zhuān)業(yè)算法能夠在至少一個(gè)維度上勝過(guò)通用方案。而Fpzip 是最強(qiáng)大的單精度壓縮器，而且僅以中等吞吐量為代價(jià)，但在解壓縮方面失去了吞吐量比較.
所以ndzip 是最快的專(zhuān)用壓縮器和解壓縮器，具有顯著優(yōu)勢(shì)（“st”）。對(duì)于雙精度數(shù)據(jù)集，稍差一些。與一些速度較慢的算法相比，我們的壓縮器提供了更低的壓縮比，但在吞吐量方面明顯優(yōu)于它唯一的競(jìng)爭(zhēng)對(duì)手 LZ4。

結(jié)論

通過(guò)設(shè)計(jì)一種考慮到目標(biāo)架構(gòu)特性的專(zhuān)用壓縮算法，可以實(shí)現(xiàn)出色的資源使用以及壓縮率和吞吐量之間極具競(jìng)爭(zhēng)力的折中。基于我們新穎的小超立方體數(shù)據(jù)，利用了行整數(shù)洛倫佐變換(Integer Lorenzo Transform)和硬件友好的殘差編碼方案，ndzip 壓縮器利用 SIMD 和線程并行性在消費(fèi)類(lèi)硬件上實(shí)現(xiàn)超過(guò) 10 GB/s 的壓縮和解壓縮速度，顯著地減少數(shù)據(jù)量。

??51CTO 開(kāi)源基礎(chǔ)軟件社區(qū)??

??https://ost.51cto.com??。

責(zé)任編輯：jianghua 來(lái)源：鴻蒙社區(qū)