
分类:BeautifulSoup

2021
02-21
02-21
使用Python爬取小姐姐图片(beautifulsoup法)

2020
12-17
12-17
python BeautifulSoup库的安装与使用
1.BeautifulSoup简介BeautifulSoup4和lxml一样,BeautifulSoup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则Python会使用Python默认的解析器,lxml解析器更加强大,速度更快,推荐使用lxml解析器。BeautifulSoup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方...
继续阅读 >
2020
12-07
12-07
详解BeautifulSoup获取特定标签下内容的方法
以下是个人在学习beautifulSoup过程中的一些总结,目前我在使用爬虫数据时使用的方法的是:先用find_all()找出需要内容所在的标签,如果所需内容一个find_all()不能满足,那就用两个或者多个。接下来遍历find_all的结果,用get_txt()、get(‘href')、得到文本或者链接,然后放入各自的列表中。这样做有一个缺点就是txt的数据是一个单独的列表,链接的数据也是一个单独的列表,一方面不能体现这些数据之间的结构性,另一方面当想...
继续阅读 >
Selenium爬虫遇到数据是以JSON字符串的形式包裹在Script标签中,假设Script标签下代码如下:<scriptid="DATA_INFO"type="application/json">{"user":{"isLogin":true,"userInfo":{"id":123456,"nickname":"LiMing","intro":"人生苦短,我用python"}}}</script>此时drive.find_elements_by_xpath('//*[@id="DATA_INFO"]只能定位到元素,但是无法通过.text方法,获取Script标签下...
继续阅读 >
2020
12-07
12-07
Python中BeautifulSoup通过查找Id获取元素信息

2020
12-07
12-07
BeautifulSoup中find和find_all的使用详解

2020
10-01
10-01
Python基于BeautifulSoup爬取京东商品信息
今天小编利用美丽的汤来为大家演示一下如何实现京东商品信息的精准匹配~~HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树;因此可以说BeautifulSoup库是解析、遍历、维护“标签树”的功能库。如何利用BeautifulSoup抓取京东网商品信息首先进入京东网,输入自己想要查询的商品,向服务器发送网页请求。在这里小编仍以关键词“狗粮”作为搜索对象,之后得到后面这...
继续阅读 >