一日一技：如果你非要把HTML到数据库，那么你应该…

king 运维技术 2022-11-18 526浏览 0

在粉丝群里面，我多次强调爬虫不要把网页源代码存入数据库，但还是有很多同学这样做。源代码动辄几十 KB 甚至几 MB，存放到数据库里面会严重拖慢性能。

如果你非要储存源代码，那么你可以使用 Hive 或者对象储存来存放。

如果你被逼无奈，必须用数据库来存放，那么你至少应该对HTML 进行压缩。平时我们常常听说使用 winrar/7zip/tar 这些压缩工具来压缩文件或者文件夹，那么我们如何压缩字符串呢?

Python 自带了两种压缩方式：zlib和gzip。

我们先来看看我的博客首页有多大：

importrequests

html=requests.get('https://www.kingname.info').text

withopen('kingname.html','w')asf:

f.write(html)

生成的kingname.html文件，有82KB，如下图所示：

一日一技：如果你非要把HTML到数据库，那么你应该…

现在，我们使用zlib来对 HTML 进行压缩，然后把压缩后的内容写到文件，我们来看看数据有多大：

importzlib
importrequests

html=requests.get('https://www.kingname.info').text
html_compressed=zlib.compress(html.encode())
withopen('kingname_zlib','wb')asf:
f.write(html_compressed)

生成的文件大小只有16KB，如下图所示：

一日一技：如果你非要把HTML到数据库，那么你应该…

压缩以后体积变成了原来的五分之一，节约了大量的磁盘空间。需要注意的是，zlib.compress的输入参数是bytes型的数据，输出也是bytes型的数据。并且，输出的数据是不能解码成字符串的，所以在写文件的时候，必须使用wb方式写入。如果你用的 MySQL 的话，需要把字段的类型设置成blob。

要解压缩也非常简单，使用zlib.decompress就可以了：

importzlib
withopen('kingname_zlib','rb')asf:
html_compressed=f.read()
html=zlib.decompress(html_compressed).decode()

除了zlib外，我们还可以使用gzip这个自带的模块来压缩字符串。用法几乎一模一样：

importgzip

importrequests

html=requests.get('https://www.kingname.info').text

html_compressed=gzip.compress(html.encode())

withopen('kingname_gzip','wb')asf:

f.write(html_compressed)

压缩以后，文件大小也是16KB：

一日一技：如果你非要把HTML到数据库，那么你应该…