urllib.request模块 使用换头及代理打开网页 # 需自行更改, 不用代理可以直接改成urllib.request.ProxyHandler({}) opener = urllib.request.build_opener(urllib.request.ProxyHandler({ ‘ 代理类型 ‘ : ‘ 代理IP:端
urllib.request模块 使用换头及代理打开网页 # 需自行更改, 不用代理可以直接改成urllib.request.ProxyHandler({}) opener = urllib.request.build_opener(urllib.request.ProxyHandler({‘代理类型‘: ‘代理IP:端口号‘})) opener.addheaders = [(‘User-Agent‘, ‘Mozilla......‘)] opener.open(url) urllib.urlretrieve模块 直接将远程数据下载到本地。 urllib.urlretrieve(url[, filename[, reporthook[, data]]]) 参数说明: url:外部或者本地url filename:指定了保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件来保存数据); reporthook:是一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函数来显示当前的下载进度。 data:指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers),filename表示保存到本地的路径,header表示服务器的响应头。 例子: import urllib def cbk(a,b,c): ‘‘‘回调函数 @a: 已经下载的数据块 @b: 数据块的大小 @c: 远程文件的大小 ‘‘‘ per = 100.0 * a * b / c if per > 100: per = 100 print(‘%.2f%%‘ % per) print(‘下载完成‘) addrs_url = get_pictrue(url) urllib.request.urlretrieve(addrs_url,filename,cbk) from urllib.parse import urlparse 解析URL的内容 (1)rel =urlparse(‘http://www.baidu.com/index.html;user?id=5#comment‘) 返回一个对象有6个属性 { scheme = ‘http‘ 协议 netloc = ‘www.baidu.com‘ 域名 path= ‘index.html‘ 路径 params = ‘user‘ 参数 query = ‘id=5‘ 查询条件 fragment = ‘comment‘ 锚点 } 得出,标准链接格式:scheme://netloc/path;params?query#fragment (2)rel = urlsplit(‘http://www.baidu.com/index.html;user?id=5#comment‘)#将path和params合为一个参数path 返回一个元组,也可以通过属性来获取值: (scheme = ‘http‘,netloc = ‘www.baidu.com‘,path= ‘index.html;user‘,query = ‘id=5‘,fragment = ‘comment‘) print(rel[0]) #打印http print(rel.netloc) #打印www.baidu.com 构造URL的内容 (1)urlunparse([‘http‘,‘www.baidu.com‘,‘index.html‘,‘user‘,‘id=5‘,‘comment‘]) 返回一个字符串 http://www.baidu.com/index.html;user?id=5#comment (2)urlunsplit([‘http‘,‘www.baidu.com‘,‘index.html;user‘,‘id=5‘,‘comment‘]) #将path和params合为一个参数path 返回一个字符串 http://www.baidu.com/index.html;user?id=5#comment