2021
05-02
05-02
python 用递归实现通用爬虫解析器
我们在写爬虫的过程中,除了研究反爬之外,几乎全部的时间都在写解析逻辑。那么,生命苦短,为什么我们不写一个通用解析器呢?对啊!为什么不呢?开整!需求分析爬虫要解析的网页类型无外乎html、json以及一些二进制文件(video、excel文件等)。既然要做成通用解析器,我们有两种实现方式,一种是将网页内容转换成统一的形式,然后用对应的解析规则去解析,比如全部将网页内容转换成html形式,然后用xpath去提取。另外一种...
继续阅读 >