当前位置 : 主页 > 编程语言 > java >

Python考核内容

来源:互联网 收集:自由互联 发布时间:2022-09-02
目录 ​​编辑​​ ​​目标网站:​​ ​​前置环境需求​​ ​​爬取需求:前五页的以下内容​​ ​​文件保存需求:​​ ​​如果有异常链接:内容为空的try:except:跳过​​ ​​


Python考核内容_css

目录

​​编辑​​

​​目标网站:​​

​​前置环境需求​​

​​爬取需求:前五页的以下内容​​

​​文件保存需求:​​

​​如果有异常链接:内容为空的try:except:跳过​​

​​页码逻辑:page_index=[0-4]​​

​​HTML-CSS拆解:​​

​​示例编码:​​


目标网站:

https://www.51moot.net/main/course?search_id=0&is_free=-1&page_index=0

前置环境需求

pip3 config set global.index-url https://repo.huaweicloud.com/repository/pypi/simple
pip3 config list
pip3 install --upgrade pip
pip3 install requests
pip3 install scrapy

爬取需求:前五页的以下内容

1、课程标题

2、主讲人

3、章节数

4、学习时长

5、学习人数

6、课程简介

文件保存需求:

将5页内容的所有课程以每门课程一个【课程名称.txt】文件的方式进行保存。

Python考核内容_python_02

如果有异常链接:内容为空的try:except:跳过

Python考核内容_爬虫_03

页码逻辑:page_index=[0-4]

https://www.51moot.net/main/course?search_id=0&is_free=-1&page_index=0
https://www.51moot.net/main/course?search_id=0&is_free=-1&page_index=1
https://www.51moot.net/main/course?search_id=0&is_free=-1&page_index=2
https://www.51moot.net/main/course?search_id=0&is_free=-1&page_index=3
https://www.51moot.net/main/course?search_id=0&is_free=-1&page_index=4

所以一个循环搞定。

HTML-CSS拆解:

第一层CSS拆解

Python考核内容_.net_04

第二层CSS拆解

Python考核内容_css_05

Python考核内容_.net_06

示例编码:

Python考核内容_python_07

Python考核内容_开发语言_08

Python考核内容_.net_09

可以看到有一个多添加了uuid这样简单一些,我没做set去重。

Python考核内容_css_10

提交需求:

1、项目压缩包

2、截图,截图要求如下:

Python考核内容_爬虫_11

上一篇:基础算法练习200题16、打印质数
下一篇:没有了
网友评论