Scrapy入门
一.安装教程
1.安装Python
根据自己的情况下载相应版本的Python包,建议使用Python3版本的。
下载地址:https://www.python.org/downloads/
2.安装pywin32
下载地址:https://sourceforge.net/projects/pywin32/files/pywin32/Build%20217/
3.安装lxml
下载地址:https://pypi.org/project/lxml/3.6.0/#downloads
4.安装pyOpenSSL
可以直接使用pip进行安装,输入命令"pip install pyOpenSSL"
5.安装scapy
可以直接使用pip进行安装,输入命令"pip install scapy"
二.基本使用
1.初始化scrapy项目
scrapy startproject 项目名称
2.scrapy的处理流程
3.整体框架
- ①引擎(Scrapy Engine),用来处理整个系统的数据流处理,触发事务。
- ①调度器(Scheduler),用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。
- ①下载器(Downloader),用于下载网页内容,并将网页内容返回给蜘蛛。
- ①蜘蛛(Spiders),蜘蛛是主要干活的,用它来制订特定域名或网页的解析规则。编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每个spider负责处理一个特定(或一些)网站。
- ①项目管道(Item Pipeline),负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。
- ①下载器中间件(Downloader Middlewares),位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
- ①蜘蛛中间件(Spider Middlewares),介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。
- ①调度中间件(Scheduler Middlewares),介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。
推荐:详细资料请参考此链接 https://www.jianshu.com/p/a8aad3bf4dc4