自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

你知道 Python 如何解壓縮數(shù)據(jù)嗎

作者：古明地覺 2024-02-22 12:16:55

開發(fā) 前端

當(dāng)數(shù)據(jù)量大的時候，自然而然想到的就是對數(shù)據(jù)進(jìn)行壓縮，下面來看看 Python 如何壓縮數(shù)據(jù)。這里主要介紹三個模塊，分別是 zlib、bz2、gzip，它們都是內(nèi)置的，直接導(dǎo)入即可，不需要額外安裝。

楔子

當(dāng)數(shù)據(jù)量大的時候，自然而然想到的就是對數(shù)據(jù)進(jìn)行壓縮，下面來看看 Python 如何壓縮數(shù)據(jù)。這里主要介紹三個模塊，分別是 zlib、bz2、gzip，它們都是內(nèi)置的，直接導(dǎo)入即可，不需要額外安裝。

那么下面就開始吧。

zlib 模塊

看一下 zlib 模塊的用法。

import zlib

original_data = b"komeiji satori is a cute girl"
print(len(original_data))
"""
29
"""

# 對數(shù)據(jù)進(jìn)行壓縮
compressed_data = zlib.compress(original_data)
print(len(compressed_data))
"""
37
"""
# 我們看到當(dāng)數(shù)據(jù)量很小的時候，壓縮之后反而會增大


# 對數(shù)據(jù)進(jìn)行解壓
print(
    zlib.decompress(compressed_data) == original_data
)
"""
True
"""

在壓縮的時候還可以指定壓縮級別：

import zlib

original_data = b"komeiji satori is a cute girl" * 1024

# 壓縮級別 0 ~ 9，值越大，壓縮級別越高，默認(rèn)壓縮級別為 6
for i in range(0, 10):
    compressed_data = zlib.compress(original_data, i)
    print(f"壓縮前數(shù)據(jù)長度: {len(original_data)}, "
          f"壓縮后數(shù)據(jù)長度: {len(compressed_data)}")
"""
壓縮前數(shù)據(jù)長度: 29696, 壓縮后數(shù)據(jù)長度: 29707
壓縮前數(shù)據(jù)長度: 29696, 壓縮后數(shù)據(jù)長度: 245
壓縮前數(shù)據(jù)長度: 29696, 壓縮后數(shù)據(jù)長度: 245
壓縮前數(shù)據(jù)長度: 29696, 壓縮后數(shù)據(jù)長度: 245
壓縮前數(shù)據(jù)長度: 29696, 壓縮后數(shù)據(jù)長度: 122
壓縮前數(shù)據(jù)長度: 29696, 壓縮后數(shù)據(jù)長度: 122
壓縮前數(shù)據(jù)長度: 29696, 壓縮后數(shù)據(jù)長度: 122
壓縮前數(shù)據(jù)長度: 29696, 壓縮后數(shù)據(jù)長度: 122
壓縮前數(shù)據(jù)長度: 29696, 壓縮后數(shù)據(jù)長度: 122
壓縮前數(shù)據(jù)長度: 29696, 壓縮后數(shù)據(jù)長度: 122
"""

壓縮級別越高，速度越慢，但壓縮之后的數(shù)據(jù)體積也越小。

如果你要壓縮的數(shù)據(jù)過大，那么還可以采用增量壓縮。

from io import BytesIO
import zlib

# 用 buffer 模擬大文件
original_data = b"komeiji satori is a cute girl" * 1024
buffer = BytesIO()
buffer.write(original_data)
buffer.seek(0)

# 創(chuàng)建壓縮器，壓縮等級為 5
compressor = zlib.compressobj(5)
# 每次讀取 1024 字節(jié)，進(jìn)行壓縮
while (data := buffer.read(1024)) != b"":
    compressor.compress(data)
# 循環(huán)結(jié)束之后，壓縮結(jié)束，調(diào)用 flush 方法拿到壓縮數(shù)據(jù)
compressed_data = compressor.flush()

# 這里我們進(jìn)行解壓，然后對比一下，看看和原始數(shù)據(jù)是否相等
# 注意：zlib 壓縮之后是有一個頭部信息的，否則會認(rèn)為數(shù)據(jù)不是 zlib 壓縮格式
# 但是增量壓縮會將頭部信息給去掉，所以解壓的時候還要手動加上
# 這個頭部信息是 b"x\x9c"，轉(zhuǎn)成十六進(jìn)制就是 "789c"
decompressed_data = zlib.decompress(b"x\x9c" + compressed_data)
print(original_data == decompressed_data) 
"""
True
"""

壓縮數(shù)據(jù)還可以和原始數(shù)據(jù)混在一起，舉個例子：

import zlib

original_data = b"komeiji satori is a cute girl" * 1024
compressed_data = zlib.compress(original_data)
combined_data = compressed_data + original_data
# 創(chuàng)建一個解壓縮器
decompressor = zlib.decompressobj()
# 對 combined_data 進(jìn)行解壓，只會得到對 compressed_data 解壓之后的數(shù)據(jù)
# 由于 zlib 會在壓縮數(shù)據(jù)前面加上一個頭部信息，所以 combined_data 要求必須是壓縮數(shù)據(jù)在前
decompressed_data = decompressor.decompress(combined_data)
# 和原始數(shù)據(jù)是相等的
print(decompressed_data == original_data)
"""
True
"""
# 還可以拿到未解壓的數(shù)據(jù)，顯然也是原始數(shù)據(jù)
print(decompressor.unused_data == original_data)
"""
True
"""

當(dāng)然，zlib 還支持驗證數(shù)據(jù)完整性。

import zlib

original_data = b"komeiji satori is a cute girl" * 1024
# 計算 Adler-32 校驗和
print(zlib.adler32(original_data))
"""
4170046071
"""
# 計算 CRC-32 校驗和
print(zlib.crc32(original_data))
"""
2627291461
"""

以上就是 zlib 模塊的用法。

bz2 模塊

bz2 模塊和 zlib 的用法非常類似：

import bz2

original_data = b"komeiji satori is a cute girl" * 1024
# 也可以指定壓縮等級，范圍 1 ~ 9，注意：zlib 是 0 ~ 9
compressed_data = bz2.compress(original_data, 5)
print(len(original_data))
"""
29696
"""
print(len(compressed_data))
"""
103
"""
print(bz2.decompress(compressed_data) == original_data)
"""
True
"""

也可以增量壓縮：

from io import BytesIO
import bz2

original_data = b"komeiji satori is a cute girl" * 1024
buffer = BytesIO()
buffer.write(original_data)
buffer.seek(0)

# 創(chuàng)建壓縮器，壓縮等級為 5
compressor = bz2.BZ2Compressor(5)
while (data := buffer.read(1024)) != b"":
    compressor.compress(data)
compressed_data = compressor.flush()
# 這里不需要額外補(bǔ)充頭部信息
decompressed_data = bz2.decompress(compressed_data)
print(original_data == decompressed_data)
"""
True
"""

也可以同時包含壓縮數(shù)據(jù)和未壓縮數(shù)據(jù)：

import bz2

original_data = b"komeiji satori is a cute girl" * 1024
compressed_data = bz2.compress(original_data)
combined_data = compressed_data + original_data
# 創(chuàng)建一個解壓縮器
decompressor = bz2.BZ2Decompressor()
decompressed_data = decompressor.decompress(combined_data)
# 和原始數(shù)據(jù)是相等的
print(decompressed_data == original_data)  # True
# 還可以拿到未解壓的數(shù)據(jù)，顯然也是原始數(shù)據(jù)
print(decompressor.unused_data == original_data)  # True
# 同樣要求壓縮數(shù)據(jù)在前

相比 zlib，bz2 還可以讀寫文件：

import os
import bz2

original_data = b"komeiji satori is a cute girl" * 1024
# 寫入文件
with bz2.open("1.bz2", "wb", compresslevel=9) as f:
    f.write(original_data)
# 讀取文件，判斷兩者是否相等
with bz2.open("1.bz2", "rb", compresslevel=9) as f:
    print(f.read() == original_data)  # True

os.unlink("1.bz2")

當(dāng)然我們使用內(nèi)置函數(shù) open 打開文件，然后手動寫入壓縮數(shù)據(jù)或者讀取數(shù)據(jù)再手動解壓，也是可以的。

gzip 模塊

首先 gzip 只有全量壓縮，沒有增量壓縮。

import gzip

original_data = b"komeiji satori is a cute girl" * 1024
# 也可以指定壓縮等級，范圍 0 ~ 9
compressed_data = gzip.compress(original_data, 5)
print(len(original_data)) 
"""
29696
"""
print(len(compressed_data)) 
"""
134
"""
print(gzip.decompress(compressed_data) == original_data)  
"""
True
"""

還可以調(diào)用 gzip.open 函數(shù)：

import os
import gzip

original_data = b"komeiji satori is a cute girl" * 1024
# 寫入文件
with gzip.open("1.gz", "wb", compresslevel=9) as f:
    f.write(original_data)
# 讀取文件，判斷兩者是否相等
with gzip.open("1.gz", "rb", compresslevel=9) as f:
    print(f.read() == original_data)  #
    """
    True
    """

os.unlink("1.gz")

小結(jié)

以上就是 Python 壓縮數(shù)據(jù)所使用的三個模塊，之間是比較相似的。另外再補(bǔ)充一點，一般將數(shù)據(jù)壓縮之后，會轉(zhuǎn)成 16 進(jìn)制進(jìn)行傳輸，舉個例子：

import binascii
import gzip

original_data = b"komeiji satori"
compressed_data = gzip.compress(original_data, 5)
# 轉(zhuǎn)成 16 進(jìn)制
hex_data = binascii.hexlify(compressed_data)
print(
    binascii.unhexlify(hex_data) == compressed_data
)  # True

還是比較簡單的。

責(zé)任編輯：武曉燕來源：古明地覺的編程教室

Python 壓縮數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="n6a4i"></style>

<style id="n6a4i"></style>