Python语言的应用场景可谓是十分全面,比如后端开发、网络爬虫、人工智能、数据分析,之所以应用场景这么广泛,其原因在于丰富的第三方库,那么适用于网络爬虫的第三方库有哪些
Python语言的应用场景可谓是十分全面,比如后端开发、网络爬虫、人工智能、数据分析,之所以应用场景这么广泛,其原因在于丰富的第三方库,那么适用于网络爬虫的第三方库有哪些呢?以下是详细的内容:
网络:
通用:
urllib:网络库(stdlib)
requests:网络库
grab:网络库(基于pycurl)
pycurl:网络库(绑定libcurl)
urllib3:Python HTTP库,安全连接池、支持文件post、可用性高
httplib2:网络库
RoboBrowser:一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页
MechanicalSoup:一个与网站自动交互Python库
mechanize:有状态、可编程的Web浏览库
socket:底层网络接口(stdlib)
异步:
treq:类似于requests的API(基于twisted)
aiohttp:asyncio的HTTP客户端/服务器(PEP-3156)
网络爬虫框架:
功能齐全的爬虫:
grab:网络爬虫框架(基于pycurl/multicur)
scrapy:网络爬虫框架(基于twisted),不支持Python3
pyspider:一个强大的爬虫系统
其他:
portia:基于Scrapy的可视化爬虫
restkit:Python的HTTP资源工具包,可以让你轻松地访问HTTP资源,并围绕它建立的对象