202010-08 Python scrapy爬取小说代码案例详解 scrapy是目前python使用的最广泛的爬虫框架架构图如下解释:ScrapyEngine(引擎):负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。Scheduler(调度器):它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。Downloader(下载器):负责下载ScrapyEngine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给ScrapyEngine(引擎)... 继续阅读 >
202010-08 Scrapy模拟登录赶集网的实现代码 1.打开赶集网登录界面,先模拟登录并抓包,获得post请求的request参数2.我们只需构造出上面的参数传入formdata即可参数分析:setcookie:为自动登录所传的值,不勾选时默认为0。__hash__值的分析:只需要查看response网页源代码即可,然后用正则表达式提取。3.代码实现1.workon到自己的虚拟环境cmd切换到项目目录,输入scrapystartprojectganjiwangdenglu,然后就可以用pycharm打开该目录啦。2.在pycharmterminal中输... 继续阅读 >
202010-08 Scrapy框架介绍之Puppeteer渲染的使用 1、Scrapy框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy使用了Twisted'twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。ScrapyEngine(引擎):负... 继续阅读 >
202010-08 Python Scrapy图片爬取原理及代码实例 1.在爬虫文件中只需要解析提取出图片地址,然后将地址提交给管道在管道文件对图片进行下载和持久化存储classImgSpider(scrapy.Spider):name='img'#allowed_domains=['www.xxx.com']start_urls=['http://www.521609.com/daxuemeinv/']url='http://www.521609.com/daxuemeinv/list8%d.html'pageNum=1defparse(self,response):li_list=response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')... 继续阅读 >
202010-08 Python Scrapy多页数据爬取实现过程解析 1.先指定通用模板url='https://www.qiushibaike.com/text/page/%d/'#通用的url模板pageNum=12.对parse方法递归处理parse第一次调用表示的是用来解析第一页对应页面中的数据对后面的页码的数据要进行手动发送ifself.pageNum<=5:self.pageNum+=1new_url=format(self.url%self.pageNum)#手动请求(get)的发送yieldscrapy.Request(new_url,callback=self.parse)完整示例classQiubaiSpider(scrapy.Spider):name=... 继续阅读 >
202009-28 pycharm无法安装第三方库的问题及解决方法以scrapy为例(图解) 很多次遇到在pycharm中无法安装第三方库的情况,今天我就遇到了,找了很多办法都没用但是在pycharm中配置anaconda环境之后再从anaconda下载安装你所需要的库就可以diy完决你的问题了第一步安装anaconda,这个我就不说了,网上很多方法,自己找第二步配置anaconda环境到pycharm,这我来给你们说说打开pychram,file->settings 然后选择projectInterpreter把projectInterpreter复选... 继续阅读 >
202009-28 scrapy爬虫:scrapy.FormRequest中formdata参数详解 1.背景在网页爬取的时候,有时候会使用scrapy.FormRequest向目标网站提交数据(表单提交)。参照scrapy官方文档的标准写法是:#header信息unicornHeader={'Host':'www.example.com','Referer':'http://www.example.com/',}#表单需要提交的数据myFormData={'name':'JohnDoe','age':'27'}#自定义信息,向下层响应(response)传递下去customerData={'key1':'value1','key2':'value2'}yieldscrapy.FormRequest(... 继续阅读 >
202009-27 如何在django中运行scrapy框架 1.新建一个django项目,2.前端展示一个按钮<formaction="/start/"method="POST">{%csrf_token%}<inputtype="submit"value="启动爬虫"></form>3.在django项目的根目录创建scrapy项目4.cmd命令行运行:scrapyd启动服务5.将scrapy项目部署到当前工程:scrapyd-deploy爬虫名称-p项目名称6.views.py#首页defindex(request):returnrender(request,'index.html',locals())defstart(request):ifrequest.method... 继续阅读 >
201411-11 大数据基础技术——爬虫的工具选择 大数据是神马?怎么样才算拥有一只善良又可爱的大数据?一种传统的方法是爬取相关的网页,所以咱们今天讲讲爬虫的一些简单知识和可以选择的工具。爬虫的原理就不必多说了,可以自行Google首先,应该认真考虑你需要什么样的大数据,也就是你的需求是什么。爬取普通网页、博客、新闻、社交网络还是图片?貌似咋一看都是爬虫去爬好了,其实不然,细节上的需求可能导致你需要的工具属性不一样。其次,讲讲笔者用过的一些爬虫工具... 继续阅读 >