讓Python在后臺自動解壓各種壓縮文件!
一、需求描述
編寫一個(gè)Python程序,每次下載壓縮包形式的文件后,自動將內(nèi)部文件解壓到當(dāng)前文件夾后將壓縮包刪除,通過本案例可以學(xué)到的知識點(diǎn):
- os 模塊綜合應(yīng)用
- glob 模塊綜合應(yīng)用
- 利用 gzip zipfile rarfile tarfile 模塊解壓文件
二、步驟分析和前置知識
碼代碼之前需要將復(fù)雜問題解釋成多個(gè)明確的要求,即這個(gè)程序?qū)崿F(xiàn)的邏輯為:
- 定時(shí)檢測某個(gè)文件夾(如 download 文件夾)是否存在壓縮文件
- 如果有新出現(xiàn)的壓縮文件則將其解壓到當(dāng)前文件夾內(nèi)的新文件夾中 刪除壓縮文件
提到壓縮文件就要分不同壓縮格式進(jìn)行討論,主要有以下4種:
- gz: 即gzip,通常只能壓縮一個(gè)文件
- tar: 本質(zhì)上不是壓縮工具而是打包工具,可以跟.gz配合形成.tar.gz的打包壓縮格式
- zip: 和.tar.gz很類似但可以打包壓縮多個(gè)文件
- rar: 打包壓縮文件,最初用于DOS
因此,文件是否為壓縮文件的判斷邏輯可以如下:
- 建立一個(gè)含壓縮包后綴的列表 compressed_lst = ['gz', 'tar', 'zip', 'rar']
- 目標(biāo)文件夾下的所有文件名運(yùn)行filename.split(.)[-1]獲取后綴名
- 判斷后綴名是否在compressed_lst中,如果存在則運(yùn)行后續(xù)的解壓代碼
- 如果是以gz結(jié)尾的文件,解壓后需要再次判斷是否是以.tar結(jié)尾,并進(jìn)行相應(yīng)處理
不同壓縮文件的解壓代碼各不相同,在后續(xù)代碼操作中具體展開。
三、代碼實(shí)現(xiàn)
首先是獲取 download 文件夾下所有文件的文件名
- import glob
- import os
- path = r'C:\xxxx\download'
- file_lst = glob.glob(path + '/*')
- # 列表推導(dǎo)式
- filename_lst = [os.path.basename(i) for i in file_lst]
- print(filename_lst)
接下來根據(jù)文件的后綴名判斷是否需要壓縮,先看一下代碼框架
- for i in filename_lst:
- if '.' in i:
- # 獲取后綴名
- suffix = i.split('.')[-1]
- # 逐個(gè)將后綴名和各格式的壓縮后綴匹配
- if suffix == 'gz':
- pass
- if ...: # 再次判斷新產(chǎn)生的文件名是否以 .tar 結(jié)尾
- pass
- if suffix == 'tar':
- pass
- if suffix == 'zip':
- pass
- if suffix == 'rar':
- pass
這里有2個(gè)注意點(diǎn):
- 有些文件沒有后綴名,因此可能不存在 .,這時(shí)用 filename.split('.')[-1]會報(bào)錯(cuò),因此需要先判斷
- 以.gz 結(jié)尾的文件,解壓后需要再次判斷是否是以 .tar 結(jié)尾,然后我們就可以分別將四種壓縮文件的解壓代碼寫成函數(shù),符合時(shí)候單獨(dú)調(diào)用即可
1. 處理.gz 文件
- import gzip
- def ungz(filename):
- filenamefilename = filename[:-3] # gz文件的單文件解壓就是去掉 filename 后面的 .gz
- gz_file = gzip.GzipFile(filename)
- with open(filename, "w+") as file:
- file.write(gz_file.read())
- return filename # 這個(gè)gzip的函數(shù)需要返回值以進(jìn)一步配合untar函數(shù)
前面反復(fù)提及的gz文件有可能跟tar文件配合,因此解壓gz文件后需要再判斷是否有必要解開tar文件
這里就可以先把tar文件的函數(shù)寫出來👇
2. 處理.tar文件
- import tarfile
- def untar(filename):
- tar = tarfile.open(filename)
- names = tar.getnames()
- # tar本身是將文件打包,解除打包會產(chǎn)生很多文件,因此需要建立文件夾存放
- if not os.path.isdir(filename + "_dir"):
- os.mkdir(filename + "_dir")
- for name in names:
- tar.extract(name, filename + "_dir/")
- tar.close()
3. 處理.zip文件
- import zipfile
- def unzip(filename):
- zip_file = zipfile.ZipFile(filename)
- # 類似tar解除打包,建立文件夾存放解壓的多個(gè)文件
- if not os.path.isdir(filename + "_dir"):
- os.mkdir(filename + "_dir")
- for names in zip_file.namelist():
- zip_file.extract(names, filename + "_dir/")
- zip_file.close()
4. 處理.rar文件
- import rarfile
- def unrar(filename):
- rar = rarfile.RarFile(filename)
- if not os.path.isdir(filename + "_dir"):
- os.mkdir(filename + "_dir")
- os.chdir(filename + "_dir")
- rar.extractall()
- rar.close()
可以看到,四種解壓代碼略有不同,推薦大家實(shí)際演示中自己體會一下差別,解壓后配合 os.remove() 就可以刪除壓縮包,現(xiàn)在看看邏輯框架補(bǔ)上解壓函數(shù)后的內(nèi)容:
- for filename in filename_lst:
- if '.' in filename:
- suffix = filename.split('.')[-1]
- if suffix == 'gz':
- new_filename = ungz(filename)
- os.remove(filename)
- if new_filename.split('.')[-1] == 'tar':
- untar(new_filename)
- os.remove(new_filename)
- if suffix == 'tar':
- untar(filename)
- os.remove(filename)
- if suffix == 'zip':
- unzip(filename)
- os.remove(filename)
- if suffix == 'rar':
- unrar(filename)
- os.remove(filename)
5. 實(shí)現(xiàn)實(shí)時(shí)檢測
比較簡單的方法就是建立 while True 死循環(huán)配合 time.sleep()睡眠,框架如下:
- import time
- while True:
- func()
- time.sleep(5) # 睡眠秒數(shù)可以設(shè)置大一點(diǎn)避免過度占用資源
最后將第二步的實(shí)現(xiàn)代碼改為函數(shù)并放在循環(huán)框架中就可以完成本次需求,完整代碼如下:
- import glob
- import os
- import gzip
- import tarfile
- import zipfile
- import rarfile
- import time
- path = r'C:\xxxx\download'
- file_lst = glob.glob(path + '/*')
- filename_lst = [os.path.basename(i) for i in file_lst]
- def ungz(filename):
- filenamefilename = filename[:-3]
- gz_file = gzip.GzipFile(filename)
- with open(filename, "w+") as file:
- file.write(gz_file.read())
- return filename
- def untar(filename):
- tar = tarfile.open(filename)
- names = tar.getnames()
- if not os.path.isdir(filename + "_dir"):
- os.mkdir(filename + "_dir")
- for name in names:
- tar.extract(name, filename + "_dir/")
- tar.close()
- def unzip(filename):
- zip_file = zipfile.ZipFile(filename)
- if not os.path.isdir(filename + "_dir"):
- os.mkdir(filename + "_dir")
- for names in zip_file.namelist():
- zip_file.extract(names, filename + "_dir/")
- zip_file.close()
- def unrar(filename):
- rar = rarfile.RarFile(filename)
- if not os.path.isdir(filename + "_dir"):
- os.mkdir(filename + "_dir")
- os.chdir(filename + "_dir")
- rar.extractall()
- rar.close()
- def unzip_files():
- for filename in filename_lst:
- if '.' in filename:
- suffix = filename.split('.')[-1]
- if suffix == 'gz':
- new_filename = ungz(filename)
- os.remove(filename)
- if new_filename.split('.')[-1] == 'tar':
- untar(new_filename)
- os.remove(new_filename)
- if suffix == 'tar':
- untar(filename)
- os.remove(filename)
- if suffix == 'zip':
- unzip(filename)
- os.remove(filename)
- if suffix == 'rar':
- unrar(filename)
- os.remove(filename)
- while True:
- unzip_files()
- time.sleep(5)