浅析 python 爬虫（上）

来源：互联网收集：自由互联发布时间：2022-09-29

学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。各位小伙伴，如果您：想系统/深入学习某技术知识点…一个人摸索学习很难坚持，想组团高效

学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。各位小伙伴，如果您：想系统/深入学习某技术知识点…一个人摸索学习很难坚持，想组团高效学习…想写博客但无从下手，急需写作干货注入能量…热爱写作，愿意让自己成为更好的人…

在日常刷一些视频的时候，总能看见一些标题为《震惊，python 查找 1000 张美女图片》、《重磅消息：以后这些资料都不用再付钱了》......等等 UC 震惊部的标题

虽然夸张，但这些视频无一不是使用了 python爬虫，这也从侧面衬托出爬虫功能的强大。

有的刚接触爬虫的小白会很激动，因为这意味着他们可以去“随心所欲”地去爬取任意资料，同时还为此暗自害怕与窃喜。

事实上，借用某大佬的比喻来说：爬虫就像是一把菜刀，拿这把菜刀做菜抑或是伤人，取决于使用者。

由此，爬虫中也有了分类，分别是善意爬虫与恶意爬虫。

善意爬虫是在不破坏网站的前提下，合法合规地搜集信息。

恶意爬虫则是影响网站的正常运营，模拟大量浏览量达到目的（例如抢票），但每个网站对于访问量的数量都不是无限的，这种恶意爬虫很容易使网站宕机。

请求头中最常见的一些重要内容（爬虫需要）：

1、User-Agent:请求载体的身份标识（用啥发送的请求）

2、Referer：防盗链（这次请求是从哪个页面来的？反爬会用到）

3、cookie：本地字符串数据信息（用户登录信息，反爬的 token）

响应头中一些重要内容：

1、cookie：本地字符串数据信息（用户登录信息，反爬的 token）

2、各种神奇的莫名其妙的字符串（这个需要经验了，一般是 token 字样，防止各种track和反爬）

未完待续

相关文章