当前位置 : 主页 > 网页制作 > html >

糗图-图片爬取

来源:互联网 收集:自由互联 发布时间:2021-06-12
糗图-图片爬取 主要思路 1.来到首页,查看主页有用图片存在html的规律 2.编写re提取图片路径 3.右键图片查看请求图片的具体路径 4.拼接图片请求路径 5.查看下一页界面的路径,找到界

糗图-图片爬取

主要思路

1.来到首页,查看主页有用图片存在html的规律

2.编写re提取图片路径

3.右键图片查看请求图片的具体路径

4.拼接图片请求路径

5.查看下一页界面的路径,找到界面请求路径规律

6.work,多界面爬取指定图片爬虫

import requests
import re
import os
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}

def get_page(page_size):
     for i in range(1,page_size+1):
         url = f"https://www.qiushibaike.com/pic/page/{i}/?s=5222080"
         res=requests.get(url=url,headers=headers)
         #解析图片路径
         pic_list=re.findall('<div class="thumb">[\s\S]*?<img src="(.*?)" alt',res.text,re.S)
         for i in pic_list:
             i='https:'+i
             pic_res=requests.get(url=i,headers=headers).content
             file_name=i.split("/")[-1]
             #图片数据写入本地文件夹
             with open(f'pic/{file_name}',"wb")as fw:
                 fw.write(pic_res)
                 print(file_name+"写入成功")

if __name__ == '__main__':
    if not os.path.exists("./pic"):
        os.mkdir("./pic")
    #自定义爬取界面页数
    get_page(3)
网友评论