目录 编辑 目标网站: 前置环境需求 爬取需求:前五页的以下内容 文件保存需求: 如果有异常链接:内容为空的try:except:跳过
目录
编辑
目标网站:
前置环境需求
爬取需求:前五页的以下内容
文件保存需求:
如果有异常链接:内容为空的try:except:跳过
页码逻辑:page_index=[0-4]
HTML-CSS拆解:
示例编码:
目标网站:
https://www.51moot.net/main/course?search_id=0&is_free=-1&page_index=0前置环境需求
pip3 config set global.index-url https://repo.huaweicloud.com/repository/pypi/simplepip3 config list
pip3 install --upgrade pip
pip3 install requests
pip3 install scrapy
爬取需求:前五页的以下内容
1、课程标题
2、主讲人
3、章节数
4、学习时长
5、学习人数
6、课程简介
文件保存需求:
将5页内容的所有课程以每门课程一个【课程名称.txt】文件的方式进行保存。
如果有异常链接:内容为空的try:except:跳过
页码逻辑:page_index=[0-4]
https://www.51moot.net/main/course?search_id=0&is_free=-1&page_index=0https://www.51moot.net/main/course?search_id=0&is_free=-1&page_index=1
https://www.51moot.net/main/course?search_id=0&is_free=-1&page_index=2
https://www.51moot.net/main/course?search_id=0&is_free=-1&page_index=3
https://www.51moot.net/main/course?search_id=0&is_free=-1&page_index=4
所以一个循环搞定。
HTML-CSS拆解:
第一层CSS拆解
第二层CSS拆解
示例编码:
可以看到有一个多添加了uuid这样简单一些,我没做set去重。
提交需求:
1、项目压缩包
2、截图,截图要求如下: