2021
06-05
06-05
Python爬虫之必备chardet库
一、chardet库的安装与介绍玩儿过爬虫的朋友应该知道,在爬取不同的网页时,返回结果会出现乱码的情况。比如,在爬取某个中文网页的时候,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要的。虽然HTML页面有charset标签,但是有些时候是不对的,那么chardet就能帮我们大忙了。使用chardet可以很方便的实现字符串/文件的编码检测。如果你安装过Anaconda,那么可以直接使用chardet库。如果你只...
继续阅读 >