糗图-图片爬取 主要思路 1.来到首页,查看主页有用图片存在html的规律 2.编写re提取图片路径 3.右键图片查看请求图片的具体路径 4.拼接图片请求路径 5.查看下一页界面的路径,找到界
糗图-图片爬取
主要思路
1.来到首页,查看主页有用图片存在html的规律
2.编写re提取图片路径
3.右键图片查看请求图片的具体路径
4.拼接图片请求路径
5.查看下一页界面的路径,找到界面请求路径规律
6.work,多界面爬取指定图片爬虫
import requests import re import os headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36" } def get_page(page_size): for i in range(1,page_size+1): url = f"https://www.qiushibaike.com/pic/page/{i}/?s=5222080" res=requests.get(url=url,headers=headers) #解析图片路径 pic_list=re.findall('<div class="thumb">[\s\S]*?<img src="(.*?)" alt',res.text,re.S) for i in pic_list: i='https:'+i pic_res=requests.get(url=i,headers=headers).content file_name=i.split("/")[-1] #图片数据写入本地文件夹 with open(f'pic/{file_name}',"wb")as fw: fw.write(pic_res) print(file_name+"写入成功") if __name__ == '__main__': if not os.path.exists("./pic"): os.mkdir("./pic") #自定义爬取界面页数 get_page(3)