自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一日一技:如果你非要把HTML到數(shù)據(jù)庫,那么你應該…

運維 數(shù)據(jù)庫運維
在粉絲群里面,我多次強調爬蟲不要把網(wǎng)頁源代碼存入數(shù)據(jù)庫,但還是有很多同學這樣做。源代碼動輒幾十 KB 甚至幾 MB,存放到數(shù)據(jù)庫里面會嚴重拖慢性能。

[[436012]]

在粉絲群里面,我多次強調爬蟲不要把網(wǎng)頁源代碼存入數(shù)據(jù)庫,但還是有很多同學這樣做。源代碼動輒幾十 KB 甚至幾 MB,存放到數(shù)據(jù)庫里面會嚴重拖慢性能。

如果你非要儲存源代碼,那么你可以使用 Hive 或者對象儲存來存放。

如果你被逼無奈,必須用數(shù)據(jù)庫來存放,那么你至少應該對HTML 進行壓縮。平時我們常常聽說使用 winrar/7zip/tar 這些壓縮工具來壓縮文件或者文件夾,那么我們?nèi)绾螇嚎s字符串呢?

Python 自帶了兩種壓縮方式:zlib和gzip。

我們先來看看我的博客首頁有多大:

  1. import requests 
  2.  
  3. html = requests.get('https://www.kingname.info').text 
  4.  
  5. with open('kingname.html''w'as f: 
  6.  
  7. f.write(html) 

生成的kingname.html文件,有82KB,如下圖所示:

現(xiàn)在,我們使用zlib來對 HTML 進行壓縮,然后把壓縮后的內(nèi)容寫到文件,我們來看看數(shù)據(jù)有多大:

  1. import zlib 
  2. import requests 
  3.  
  4. html = requests.get('https://www.kingname.info').text 
  5. html_compressed = zlib.compress(html.encode()) 
  6. with open('kingname_zlib''wb'as f: 
  7.     f.write(html_compressed) 

生成的文件大小只有16KB,如下圖所示:

壓縮以后體積變成了原來的五分之一,節(jié)約了大量的磁盤空間。需要注意的是,zlib.compress的輸入?yún)?shù)是bytes型的數(shù)據(jù),輸出也是bytes型的數(shù)據(jù)。并且,輸出的數(shù)據(jù)是不能解碼成字符串的,所以在寫文件的時候,必須使用wb方式寫入。如果你用的 MySQL 的話,需要把字段的類型設置成blob。

要解壓縮也非常簡單,使用zlib.decompress就可以了:

  1. import zlib 
  2. with open('kingname_zlib''rb'as f: 
  3.     html_compressed = f.read() 
  4. html = zlib.decompress(html_compressed).decode() 

除了zlib外,我們還可以使用gzip這個自帶的模塊來壓縮字符串。用法幾乎一模一樣:

  1. import gzip 
  2.  
  3. import requests 
  4.  
  5. html = requests.get('https://www.kingname.info').text 
  6.  
  7. html_compressed = gzip.compress(html.encode()) 
  8.  
  9. with open('kingname_gzip''wb'as f: 
  10.  
  11. f.write(html_compressed) 

壓縮以后,文件大小也是16KB:

在生產(chǎn)項目中,除了Python自帶的這兩個壓縮模塊,還有可能會使用Snappy進行壓縮。他的壓縮速度非???,比zlib和gzip都快。壓縮率也很高。但安裝起來比較麻煩,首先需要安裝Snappy程序,然后再安裝python-snappy庫才能使用。有興趣的同學可以搜索了解一下。 

總結:強烈不建議使用數(shù)據(jù)庫來存放網(wǎng)頁整個源代碼。如果非要使用,要壓縮以后再存。

責任編輯:武曉燕 來源: 未聞Code
相關推薦

2021-03-18 23:28:45

Python反斜杠字符串

2021-05-10 19:07:18

冗余代碼Python

2022-01-08 21:27:02

URL爬蟲地址

2022-05-02 16:27:01

JavaScriptHTMLPython

2021-10-15 21:08:31

PandasExcel對象

2021-04-27 22:15:02

Selenium瀏覽器爬蟲

2021-10-20 20:02:47

字符變量函數(shù)

2021-04-12 21:19:01

PythonMakefile項目

2021-10-11 20:02:49

Python父類方法

2023-10-28 12:14:35

爬蟲JavaScriptObject

2021-03-12 21:19:15

Python鏈式調用

2022-06-28 09:31:44

LinuxmacOS系統(tǒng)

2021-09-13 20:38:47

Python鏈式調用

2021-04-05 14:47:55

Python多線程事件監(jiān)控

2024-11-13 09:18:09

2022-03-12 20:38:14

網(wǎng)頁Python測試

2021-04-19 23:29:44

MakefilemacOSLinux

2024-07-30 08:11:16

2024-07-30 08:16:18

Python代碼工具

2024-07-19 18:23:17

點贊
收藏

51CTO技術棧公眾號