自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="ayn0q"><track id="ayn0q"></track></cite>

<cite id="ayn0q"><track id="ayn0q"><dfn id="ayn0q"></dfn></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

一日一技：如果你非要把HTML到數(shù)據(jù)庫，那么你應該…

作者： kingname 2021-11-20 05:00:12

運維數(shù)據(jù)庫運維

在粉絲群里面，我多次強調爬蟲不要把網(wǎng)頁源代碼存入數(shù)據(jù)庫，但還是有很多同學這樣做。源代碼動輒幾十 KB 甚至幾 MB，存放到數(shù)據(jù)庫里面會嚴重拖慢性能。

在粉絲群里面，我多次強調爬蟲不要把網(wǎng)頁源代碼存入數(shù)據(jù)庫，但還是有很多同學這樣做。源代碼動輒幾十 KB 甚至幾 MB，存放到數(shù)據(jù)庫里面會嚴重拖慢性能。

如果你非要儲存源代碼，那么你可以使用 Hive 或者對象儲存來存放。

如果你被逼無奈，必須用數(shù)據(jù)庫來存放，那么你至少應該對HTML 進行壓縮。平時我們常常聽說使用 winrar/7zip/tar 這些壓縮工具來壓縮文件或者文件夾，那么我們?nèi)绾螇嚎s字符串呢?

Python 自帶了兩種壓縮方式：zlib和gzip。

我們先來看看我的博客首頁有多大：

import requests 
 
html = requests.get('https://www.kingname.info').text 
 
with open('kingname.html', 'w') as f: 
 
f.write(html)

生成的kingname.html文件，有82KB，如下圖所示：

現(xiàn)在，我們使用zlib來對 HTML 進行壓縮，然后把壓縮后的內(nèi)容寫到文件，我們來看看數(shù)據(jù)有多大：

import zlib 
import requests 
 
html = requests.get('https://www.kingname.info').text 
html_compressed = zlib.compress(html.encode()) 
with open('kingname_zlib', 'wb') as f: 
    f.write(html_compressed)

生成的文件大小只有16KB，如下圖所示：

壓縮以后體積變成了原來的五分之一，節(jié)約了大量的磁盤空間。需要注意的是，zlib.compress的輸入?yún)?shù)是bytes型的數(shù)據(jù)，輸出也是bytes型的數(shù)據(jù)。并且，輸出的數(shù)據(jù)是不能解碼成字符串的，所以在寫文件的時候，必須使用wb方式寫入。如果你用的 MySQL 的話，需要把字段的類型設置成blob。

要解壓縮也非常簡單，使用zlib.decompress就可以了：

import zlib 
with open('kingname_zlib', 'rb') as f: 
    html_compressed = f.read() 
html = zlib.decompress(html_compressed).decode()

除了zlib外，我們還可以使用gzip這個自帶的模塊來壓縮字符串。用法幾乎一模一樣：

import gzip 
 
import requests 
 
html = requests.get('https://www.kingname.info').text 
 
html_compressed = gzip.compress(html.encode()) 
 
with open('kingname_gzip', 'wb') as f: 
 
f.write(html_compressed)

壓縮以后，文件大小也是16KB：

在生產(chǎn)項目中，除了Python自帶的這兩個壓縮模塊，還有可能會使用Snappy進行壓縮。他的壓縮速度非?？?，比zlib和gzip都快。壓縮率也很高。但安裝起來比較麻煩，首先需要安裝Snappy程序，然后再安裝python-snappy庫才能使用。有興趣的同學可以搜索了解一下。

總結：強烈不建議使用數(shù)據(jù)庫來存放網(wǎng)頁整個源代碼。如果非要使用，要壓縮以后再存。

責任編輯：武曉燕來源：未聞Code

數(shù)據(jù)庫

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

^{<blockquote id="nqmag"></blockquote>}

<cite id="nqmag"><rp id="nqmag"></rp></cite><sub id="nqmag"></sub>

<big id="nqmag"><code id="nqmag"><option id="nqmag"></option></code></big>

<cite id="nqmag"><rp id="nqmag"><form id="nqmag"></form></rp></cite>