一日一技:如果你非要把HTML到數(shù)據(jù)庫,那么你應該…
在粉絲群里面,我多次強調爬蟲不要把網(wǎng)頁源代碼存入數(shù)據(jù)庫,但還是有很多同學這樣做。源代碼動輒幾十 KB 甚至幾 MB,存放到數(shù)據(jù)庫里面會嚴重拖慢性能。
如果你非要儲存源代碼,那么你可以使用 Hive 或者對象儲存來存放。
如果你被逼無奈,必須用數(shù)據(jù)庫來存放,那么你至少應該對HTML 進行壓縮。平時我們常常聽說使用 winrar/7zip/tar 這些壓縮工具來壓縮文件或者文件夾,那么我們?nèi)绾螇嚎s字符串呢?
Python 自帶了兩種壓縮方式:zlib和gzip。
我們先來看看我的博客首頁有多大:
- import requests
- html = requests.get('https://www.kingname.info').text
- with open('kingname.html', 'w') as f:
- f.write(html)
生成的kingname.html文件,有82KB,如下圖所示:
現(xiàn)在,我們使用zlib來對 HTML 進行壓縮,然后把壓縮后的內(nèi)容寫到文件,我們來看看數(shù)據(jù)有多大:
- import zlib
- import requests
- html = requests.get('https://www.kingname.info').text
- html_compressed = zlib.compress(html.encode())
- with open('kingname_zlib', 'wb') as f:
- f.write(html_compressed)
生成的文件大小只有16KB,如下圖所示:
壓縮以后體積變成了原來的五分之一,節(jié)約了大量的磁盤空間。需要注意的是,zlib.compress的輸入?yún)?shù)是bytes型的數(shù)據(jù),輸出也是bytes型的數(shù)據(jù)。并且,輸出的數(shù)據(jù)是不能解碼成字符串的,所以在寫文件的時候,必須使用wb方式寫入。如果你用的 MySQL 的話,需要把字段的類型設置成blob。
要解壓縮也非常簡單,使用zlib.decompress就可以了:
- import zlib
- with open('kingname_zlib', 'rb') as f:
- html_compressed = f.read()
- html = zlib.decompress(html_compressed).decode()
除了zlib外,我們還可以使用gzip這個自帶的模塊來壓縮字符串。用法幾乎一模一樣:
- import gzip
- import requests
- html = requests.get('https://www.kingname.info').text
- html_compressed = gzip.compress(html.encode())
- with open('kingname_gzip', 'wb') as f:
- f.write(html_compressed)
壓縮以后,文件大小也是16KB:
在生產(chǎn)項目中,除了Python自帶的這兩個壓縮模塊,還有可能會使用Snappy進行壓縮。他的壓縮速度非???,比zlib和gzip都快。壓縮率也很高。但安裝起來比較麻煩,首先需要安裝Snappy程序,然后再安裝python-snappy庫才能使用。有興趣的同學可以搜索了解一下。
總結:強烈不建議使用數(shù)據(jù)庫來存放網(wǎng)頁整個源代碼。如果非要使用,要壓縮以后再存。