特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

当前位置 : 主页 > 编程语言 > python >

精通Scrapy网络爬虫【二】框架结构及工作原理

来源：互联网收集：自由互联发布时间：2022-06-18

Scrapy框架结构及工作原理组件描述类型 ENGINE 引擎，框架的核心，其他所有组件在其控制下协同工作内部组件 SCHEDULER 调度器，负责对SPIDER提交的下载请求进行调度内部组件 DOWNLOAD

Scrapy框架结构及工作原理

精通Scrapy网络爬虫【二】框架结构及工作原理_css

组件

描述

类型

ENGINE

引擎，框架的核心，其他所有组件在其控制下协同工作

内部组件

SCHEDULER

调度器，负责对SPIDER提交的下载请求进行调度

内部组件

DOWNLOADER

下载器，负责下载页面（发送HTTP请求/接收HTTP响应）

内部组件

SPIDER

爬虫，负责提取页面中的数据，并产生对新页面的下载请求

用户实现

MIDDLEWARE

中间件，负责对Request对象和Response对象进行处理

可选组件

ITEM PIPELINE

数据管道，负责对爬取到的数据进行处理

可选组件

数据流

对象

描述

REQUEST

Scrapy中的HTTP请求对象

RESPONSE

Scrapy中的HTTP响应对象

ITEM

从页面中爬取的一项数据

Request和Response是HTTP协议中的术语，即HTTP请求和HTTP响应，Scrapy框架中定义了相应的Request和Response类，这里的Item代表Spider从页面中爬取的一项数据。最后，我们来说明以上几种对象在框架中的流动过程。

● 当SPIDER要爬取某URL地址的页面时，需使用该URL构造一个Request对象，提交给ENGINE（图中的1）。

● Request对象随后进入SCHEDULER按某种算法进行排队，之后的某个时刻SCHEDULER将其出队，送往DOWNLOADER（图中的2、3、4）。

● DOWNLOADER根据Request对象中的URL地址发送一次HTTP请求到网站服务器，之后用服务器返回的HTTP响应构造出一个Response对象，其中包含页面的HTML文本（图中的5）。

● Response对象最终会被递送给SPIDER的页面解析函数（构造Request对象时指定）进行处理，页面解析函数从页面中提取数据，封装成Item后提交给ENGINE, Item之后被送往ITEM PIPELINES进行处理，最终可能由EXPORTER（图中没有显示）以某种数据格式写入文件（csv, json）；另一方面，页面解析函数还从页面中提取链接（URL），构造出新的Request对象提交给ENGINE（图中的6、7、8）。

理解了框架中的数据流，也就理解了Scrapy爬虫的工作原理。如果把框架中的组件比作人体的各个器官，Request和Response对象便是血液，Item则是代谢产物。

Request和Response对象

Request对象

Request对象用来描述一个HTTP请求

Request(url[,callback,method='GET',headers,body,cookies,meta,
encoding='utf-8',priority=0,dont_filter=False,errback])

参数

描述

url (必选)

请求页面的url地址，bytes或str类型，如’http://www.python.org/doc’。

callback

页面解析函数，Callable类型，Request对象请求的页面下载完成后，由该参数指定的页面解析函数被调用。如果未传递该参数，默认调用Spider的parse方法。

method

HTTP请求的方法，默认为’GET’。

headers

HTTP请求的头部字典，dict类型，例如{‘Accept’:‘text/html’, ‘User-Agent’:Mozilla/5.0’}。如果其中某项的值为None，就表示不发送该项HTTP头部，例如{‘Cookie’: None}，禁止发送Cookie。

body

HTTP请求的正文，bytes或str类型。

cookies

Cookie信息字典，dict类型，例如{‘currency’:‘USD’, ‘country’: ‘UY’}。

Spider开发流程

import scrapy

class BookSpiderSpider(scrapy.Spider):
name = 'book_spider'
# allowed_domains = ['http://books.toscrape.com/']
start_urls = ['http://books.toscrape.com//']

def parse(self, response):
for book in response.css('article.product_pod'):
name=book.xpath('./h3/a/@title').extract_first()
price=book.css('p.price_color::text').extract_first()
yield {
'name':name,
'price':price,
}
next_url=response.css('ul.pager li.next a::attr(href)').extract_first()
if next_url:
next_url=response.urljoin(next_url)
yield scrapy.Request(next_url,callback=self.parse)

实现一个Spider只需要完成下面4个步骤：

01 继承scrapy.Spider

02 为Spider取名

03 设定起始爬取点

04 实现页面解析函数

继承scrapy.Spider

import scrapy
class BookSpiderSpider(scrapy.Spider):

为Spider命名

class BookSpiderSpider(scrapy.Spider):
name = 'book_spider'

设定起始爬取点

class BookSpiderSpider(scrapy.Spider):
name = 'book_spider'
start_urls = ['http://books.toscrape.com//']

start_urls通常被实现成一个列表，其中放入所有起始爬取点的url（例子中只有一个起始点）。

实现页面解析函数

页面解析函数也就是构造Request对象时通过callback参数指定的回调函数（或默认的parse方法）。页面解析函数是实现Spider中最核心的部分，它需要完成以下两项工作：

● 使用选择器提取页面中的数据，将数据封装后（Item或字典）提交给Scrapy引擎。

● 使用选择器或LinkExtractor提取页面中的链接，用其构造新的Request对象并提交给Scrapy引擎（下载链接页面）。

一个页面中可能包含多项数据以及多个链接，因此页面解析函数被要求返回一个可迭代对象（通常被实现成一个生成器函数），每次迭代返回一项数据（Item或字典）或一个Request对象。

参考资料：《精通Scrapy网络爬虫》刘硕清华大学出版社

上一篇：精通Scrapy网络爬虫【六】LinkExtractor提取链接
下一篇：没有了

精通Scrapy网络爬虫【二】框架结构及工作原理

Scrapy框架结构及工作原理

Request和Response对象

Spider开发流程

相关文章