大家好,我是皮皮。 一、前言 前几天在Python钻石交流群【海南菜同学】问了一个Python网络爬虫的问题,后来【瑜亮老师】在解答过程中给了一个代码,代码如下: url = "http:
大家好,我是皮皮。
一、前言
前几天在Python钻石交流群【海南菜同学】问了一个Python网络爬虫的问题,后来【瑜亮老师】在解答过程中给了一个代码,代码如下:
url = "http://zw.hainan.gov.cn/wssc/ec/jlyhnkj.html"resp = requests.get(url)
text = resp.text
parse = etree.HTML(text)
price = parse.xpath("//div[@class='productlist']/ul/li/div[4]/text()")
# 直接使用列表推导式,去掉冗余数据
price = [i.strip() for i in price if i.strip()]
print(price)
# 为了方便统计,再去掉¥符号,再转换成数字
# price = [int(float(i.replace('¥', '').replace(',', ''))) for i in price]
# 或者用re.sub去掉多余符号,再转换成数字,上下两种方法,选一个就行
# 需要import re
# price = [int(float(re.sub(r'[¥,]', '', i))) for i in price]
print(price)
大家针对这个代码,提出了一个正则表达式处理的问题,这里给大家一起分享下。
二、实现过程
这里【瑜亮老师】写了一个例子,比如“身高180.3cm”这种,取180.3?如下所示:
这里【