当前位置 : 主页 > 编程语言 > python >

【分享篇】Python爬虫方向的第三方库合集!

来源:互联网 收集:自由互联 发布时间:2022-08-10
提到Python爬虫,相信大家一定不陌生,Python可应用的领域不止爬虫,还包括人工智能、后端开发、机器学习等,今天借本篇文章给大家介绍下Python爬虫的三方库都有哪些,请看下文:

  提到Python爬虫,相信大家一定不陌生,Python可应用的领域不止爬虫,还包括人工智能、后端开发、机器学习等,今天借本篇文章给大家介绍下Python爬虫的三方库都有哪些,请看下文:

  网络(通用)

  urllib-网络库(stdlib)

  requests-网络库

  grab-网络库(基于pycurl)

  pycurl-网络库(绑定libcurl)

  urllib3-Python HTTP库,安全连接池、支持文件post、可用性高

  httplib2-网络库

  RoboBrowser-一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。

  MechanicalSoup-一个与网站自动交互Python库。

  mechanize-有状态、可编程的web浏览库

  socker-底层网络接口(stdlib)

  Unirest for Python-Unirest是一套可用于多种语言的轻量级的HTTP库

  hyper-Python的HTTP/2客户端

  PySocks-SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征。作为socket模块的直接替换。

  异步:

  treq-类似于requests的API(基于twisted)

  aiohttp-asyncio的HTTP客户端/服务器(PEP-3156)

  网络爬虫框架

  功能齐全的爬虫

  grab-网络爬虫框架(基于pycurl/multicur)

  scrapy-网络爬虫框架(基于twisted),不支持Python3

  pyspider-一个强大的爬虫系统

  cola-一个分布式爬虫框架

  其他

  portia-基于Scrapy的可视化爬虫

  restkit-Python的HTTP资源工具包。它可以让你轻松地访问HTTP资源,并围绕它建立的对象

  demiurge-基于PyQuery的爬虫微框架

【文章原创作者:武汉网站优化公司 http://www.5h5q.com/wzyh/ 复制请保留原URL】
上一篇:使用supervisor实现后台管理进程
下一篇:没有了
网友评论