202011-19 基于Python爬取搜狐证券股票过程解析 数据的爬取我们以上证50的股票为例,首先需要找到一个网站包含这五十只股票的股票代码,例如这里我们使用搜狐证券提供的列表。https://q.stock.sohu.com/cn/bk_4272.shtml可以看到,在这个网站中有上证50的所有股票代码,我们希望爬取的就是这个包含股票代码的表,并获取这个表的第一列。爬取网站的数据我们使用BeautifulSoup这个工具包,需要注意的是,一般只能爬取到静态网页中的信息。简单来说,BeautifulSoup是Python的一个... 继续阅读 >
202011-08 基于python爬取梨视频实现过程解析 目标网址:梨视频然后我们找到科技这一页:https://www.pearvideo.com/category_8。其实你要哪一页都行,你喜欢就行。嘿嘿…这是动态网站,所以咱们直奔network然后去到XHR:找规律,这个应该不难,我就直接贴网址上来咯,想要锻炼的可以找找看哈:https://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=8&start=0这个就是我们要找的目标网址啦,后面的0就代表页数,让打开这个网页发现是静态网页,这最好搞啦... 继续阅读 >
202011-03 如何基于Python爬虫爬取美团酒店信息 一、分析网页网站的页面是JavaScript渲染而成的,我们所看到的内容都是网页加载后又执行了JavaScript代码之后才呈现出来的,因此这些数据并不存在于原始HTML代码中,而requests仅仅抓取的是原始HTML代码。抓取这种类型网站的页面数据,解决方案如下:分析Ajax,很多数据可能是经过Ajax请求时候获取的,所以可以分析其接口。在XHR里可以找到,RequestURL有几个关键参数,uuid和cityId是城市标识,offset偏移量可以控制... 继续阅读 >
202010-30 Python爬取豆瓣数据实现过程解析 代码如下frombs4importBeautifulSoup#网页解析,获取数据importsys#正则表达式,进行文字匹配importreimporturllib.request,urllib.error#指定url,获取网页数据importxlwt#使用表格importsqlite3importlxml以上是引用的库,引用库的方法很简单,直接上图:上面第一步算有了,下面分模块来,步骤算第二步来:这个放在开头defmain():baseurl="https://movie.douban.com/top250?start="datalist=getData(ba... 继续阅读 >
202010-24 基于Python爬取京东双十一商品价格曲线 一年一度的双十一就快到了,各种砍价、盖楼、挖现金的口令将在未来一个月内充斥朋友圈、微信群中。玩过多次双十一活动的小编表示一顿操作猛如虎,一看结果2毛5。浪费时间不说而且未必得到真正的优惠,双十一电商的“明降暗升”已经是默认的潜规则了。打破这种规则很简单,可以用Python写一个定时监控商品价格的小工具。思路第一步抓取商品的价格存入Python自带的SQLite数据库每天定时抓取商品价格使用pyecharts模块绘制价... 继续阅读 >
202010-24 Python实现JS解密并爬取某音漫客网站 首先打开网站https://www.zymk.cn/1/37988.html打开开发者工具选择XHR标签页,没有找到什么再查看一下这些图片的URL值http://mhpic.xiaomingtaiji.net/comic/D%2F%E6%96%97%E7%A0%B4%E8%8B%8D%E7%A9%B9%E6%8B%86%E5%88%86%E7%89%88%2F20%E8%AF%9D%2F1.jpg-zymk.middle.webp尝试搜索图片元素发现有一个js文件,打开搜索发现这里有一个疑点,这不是html里面的字段吗,那么“i.getPicUrl(e)”不就是那个图片的URL的值了吗在这里下一... 继续阅读 >
202010-23 基于Python爬取股票数据过程详解 基本环境配置python3.6pycharmrequestscsvtime相关模块pip安装即可目标网页分析网页一切的一切都在图里找到数据了,直接请求网页,解析数据,保存数据请求网页importrequestsurl='https://xueqiu.com/service/v5/stock/screener/quote/list'response=requests.get(url=url,params=params,headers=headers,cookies=cookies)html_data=response.json()解析数据data_list=html_data['data']['list']foriind... 继续阅读 >
202010-23 基于python爬取链家二手房信息代码示例 基本环境配置python3.6pycharmrequestsparseltime相关模块pip安装即可确定目标网页数据哦豁,这个价格..................看到都觉得脑阔疼通过开发者工具,可以直接找到网页返回的数据~每一个二手房的数据,都在网页的li标签里面,咱们可以获取网页返回的数据,然后通过解析,就可以获取到自己想要的数据了~获取网页数据importrequestsheaders={'User-Agent':'Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKi... 继续阅读 >
202010-21 基于Python爬取素材网站音频文件 基本环境配置python3.6pycharmrequestsparsel相关模块pip安装即可目标网页请求网页importrequestsurl='https://www.tukuppt.com/peiyue/zonghe_0_0_0_0_0_0_1.html'headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/81.0.4044.138Safari/537.36',}response=requests.get(url=url,headers=headers)解析网页,提取数据importparselselector... 继续阅读 >
202010-10 Python爬取微信小程序通用方法代码实例详解 背景介绍最近遇到一个需求,大致就是要获取某个小程序上的数据。心想小程序本质上就是移动端加壳的浏览器,所以想到用Python去获取数据。在网上学习了一下如何实现后,记录一下我的实现过程以及所踩过的小坑。本文关键词:Python,小程序,Charles抓包目标小程序:公众号“同城商圈网”左下角“找商家”->汽车维修->小车维修->所有的商家信息,如下图所示:环境PC端:Windows10移动端:iPhone软件:CharlesCharles抓包虽说网上大... 继续阅读 >
202010-10 Python爬取微信小程序Charles实现过程图解 一、前言最近需要获取微信小程序上的数据进行分析处理,第一时间想到的方式就是采用python爬虫爬取数据,尝试后发现诸多问题,比如无法获取目标网址、解析网址中存在指定参数的不确定性、加密问题等等,经过一番尝试,终于使用Charles抓取到指定微信小程序中的数据,本文进行记录并总结。环境配置:电脑:Windows10,连接有线网手机:iPhoneXr,连接无线网注:有线网与无线网最好位于同一网段下。本文有线网网址:192.168.131.2... 继续阅读 >
202010-10 Scrapy项目实战之爬取某社区用户详情 本文介绍了Scrapy项目实战之爬取某社区用户详情,分享给大家,具有如下:get_cookies.pyfromseleniumimportwebdriverfrompymongoimportMongoClientfromscrapy.crawlerimportoverridden_settings#fromsegmentfaultimportsettingsimporttimeimportsettingsclassGetCookies(object):def__init__(self):#初始化组件#设定webdriver选项self.opt=webdriver.ChromeOptions()#self.opt.add_argument("--hea... 继续阅读 >
202010-09 基于Python爬取51cto博客页面信息过程解析 介绍提到爬虫,互联网的朋友应该都不陌生,现在使用Python爬取网站数据是非常常见的手段,好多朋友都是爬取豆瓣信息为案例,我不想重复,就使用了爬取51cto博客网站信息为案例,这里以我的博客页面为教程,编写的Python代码!实验环境1.安装Python3.72.安装requests,bs4模块实验步骤1.安装Python3.7环境2.安装requests,bs4模块打开cmd,输入:pipinstallrequests-ihttps://pypi.tuna.tsinghua.edu.cn/simple/再安装bs4,输入... 继续阅读 >
202010-09 Python爬取12306车次信息代码详解 详情查看下面的代码:如果被识别就要添加一个cookie如果没有被识别的话就要一个user—agent就好了。如果出现乱码就设置编码格式为utf-8#静态的数据一般在elements中(复制文字到sources按ctrl+f搜索。找到的为静态),而动态去network中去寻找相关的信息importrequestsimportredefsend_request():headers={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/74.0.37... 继续阅读 >
202010-09 Python selenium爬取微信公众号文章代码详解 参照资料:seleniumwebdriver添加cookie:https://www.jb51.net/article/193102.html需求:想阅读微信公众号历史文章,但是每次找回看得地方不方便。思路:1、使用selenium打开微信公众号历史文章,并滚动刷新到最底部,获取到所有历史文章urls。2、对urls进行遍历访问,并进行下载到本地。实现1、打开微信客户端,点击某个微信公众号->进入公众号->打开历史文章链接(使用浏览器打开),并通过开发者工具获取到cookies,保存为ex... 继续阅读 >
202010-09 基于python requests selenium爬取excel vba过程解析 目的:基于办公与互联网隔离,自带的office软件没有带本地帮助工具,因此在写vba程序时比较不方便(后来发现07有自带,心中吐血,瞎折腾些什么)。所以想到通过爬虫在官方摘录下来作为参考。目标网站:https://docs.microsoft.com/zh-cn/office/vba/api/overview/所使工具:python3.7,requests、selenium库前端方面:使用了jquery、jstree(用于方便的制作无限层级菜单设计思路:1、分析目标页面,可分出两部分,左边时导航,右边是内... 继续阅读 >