一、[知识点]: 动态数据抓包 requests发送请求 结构化+非结构化数据解析 二、[开发环境]: python 3.8 运行代码 pycharm 2021.2 辅助敲代码 requests 第三方模块 pip install 模块名 四、配置pycharm里面
一、[知识点]:
动态数据抓包
requests发送请求
结构化+非结构化数据解析
二、[开发环境]:
python 3.8 运行代码
pycharm 2021.2 辅助敲代码
requests 第三方模块 pip install 模块名
四、配置pycharm里面的python解释器
2. 点击齿轮, 选择add
3. 添加python安装路径
五、pycharm如何安装插件
©著作权归作者所有:来自51CTO博客作者lanxiaofang的原创作品,请联系作者获取转载授权,否则将追究法律责任 Python 爬虫 爬取A站视频 https://blog.51cto.com/lanxf/5583564
三、分析数据来源
https://tianqi.2345.com/Pc/GetHistory?areaInfo%5BareaId%5D=54511&areaInfo%5BareaType%5D=2&date%5Byear%5D=2022&date%5Bmonth%5D=7
四、代码实现
1. 发送请求
2. 获取数据
3. 解析数据
4. 保存数据
import requests # 发送请求 第三方模块import parsel # 解析网页源代码的 第三方模块
import csv
with open('天气数据.csv', encoding='utf-8', mode='a', newline='') as f:
csv_writer = csv.writer(f)
csv_writer.writerow(['日期', '最高温度', '最低温度', '天气', '风向', '城市'])
city_list = [54511, 58362, 59287, 59493]
for city in city_list:
for year in range(2013, 2022):
for month in range(1, 13):
url = f'https://tianqi.2345.com/Pc/GetHistory?areaInfo%5BareaId%5D=54511&areaInfo%5BareaType%5D=2&date%5Byear%5D={year}&date%5Bmonth%5D={month}'
# 1. 发送请求
response = requests.get(url)
# <Response [200]>
# 2. 获取数据 .json(): 字典类型的数据 键值对方式取值
json_data = response.json()
# 3. 解析数据
# 字典取值 json(): {"":"", "":""}
html_data = json_data['data']
# 结构化数据 字典键值对取值
# 非结构化数据 网页源代码 css/xpath/re
select = parsel.Selector(html_data)
trs = select.css('table tr') # 32个tr 每个tr都有六个td
# [1, 2, 3, 4, 5] [1]
for tr in trs[1:]:
# 取标签里面的文本内容
# ::text
tds = tr.css('td::text').getall()
print(tds)
if city == 54511:
tds.append('北京')
elif city == 58362:
tds.append('上海')
elif city == 59287:
tds.append('广州')
elif city == 59493:
tds.append('深圳')
# 4. 保存数据
with open('天气数据.csv', encoding='utf-8', mode='a', newline='') as f:
csv_writer = csv.writer(f)
csv_writer.writerow(tds)