当前位置 : 主页 > 网页制作 > HTTP/TCP >

urllib模块

来源:互联网 收集:自由互联 发布时间:2021-06-16
urllib.request模块 使用换头及代理打开网页 # 需自行更改, 不用代理可以直接改成urllib.request.ProxyHandler({}) opener = urllib.request.build_opener(urllib.request.ProxyHandler({ ‘ 代理类型 ‘ : ‘ 代理IP:端
urllib.request模块
    使用换头及代理打开网页
        # 需自行更改, 不用代理可以直接改成urllib.request.ProxyHandler({})
        opener = urllib.request.build_opener(urllib.request.ProxyHandler({代理类型: 代理IP:端口号})) 
        opener.addheaders = [(User-Agent, Mozilla......)]
        
        opener.open(url)



urllib.urlretrieve模块
    直接将远程数据下载到本地。

    urllib.urlretrieve(url[, filename[, reporthook[, data]]])
    参数说明:
    url:外部或者本地url
    filename:指定了保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件来保存数据);
    reporthook:是一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函数来显示当前的下载进度。
    data:指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers),filename表示保存到本地的路径,header表示服务器的响应头。

    例子:
        import urllib
        
        def cbk(a,b,c):
        
            ‘‘‘回调函数
            @a: 已经下载的数据块
            @b: 数据块的大小
            @c: 远程文件的大小
            ‘‘‘
            
            per = 100.0 * a * b / c
            if per > 100:
                per = 100
            print(%.2f%% % per)
            print(下载完成)
        
        addrs_url = get_pictrue(url)
        urllib.request.urlretrieve(addrs_url,filename,cbk)
        
        
from urllib.parse import urlparse
    
    解析URL的内容    
        (1)rel =urlparse(http://www.baidu.com/index.html;user?id=5#comment)
        返回一个对象有6个属性
                            {
                            scheme = http                 协议
                            netloc = www.baidu.com         域名
                            path= index.html                 路径
                            params = user                 参数
                            query = id=5                     查询条件
                            fragment = comment            锚点
                            }            
        得出,标准链接格式:scheme://netloc/path;params?query#fragment
2)rel = urlsplit(http://www.baidu.com/index.html;user?id=5#comment)#将path和params合为一个参数path
        返回一个元组,也可以通过属性来获取值:
                (scheme = http,netloc = www.baidu.com,path= index.html;user,query = id=5,fragment = comment)
                
                print(rel[0])        #打印http
                print(rel.netloc)    #打印www.baidu.com
    
    构造URL的内容    
        (1)urlunparse([http,www.baidu.com,index.html,user,id=5,comment])
        返回一个字符串
                http://www.baidu.com/index.html;user?id=5#comment
2)urlunsplit([http,www.baidu.com,index.html;user,id=5,comment]) #将path和params合为一个参数path
        返回一个字符串
              http://www.baidu.com/index.html;user?id=5#comment
        
    
        
        
上一篇:民科大赏
下一篇:http和https的区别
网友评论