特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

# yyds干货盘点 #网易云音乐热门作品名字和链接抓取(html5lib篇)

来源：互联网收集：自由互联发布时间：2022-06-15

大家好，我是皮皮。一、前言前几天在Python白银交流群有个叫【O|】的粉丝问了一道关于网易云音乐热门作品名字和链接抓取的问题，获取源码之后，发现使用xpath匹配拿不到

大家好，我是皮皮。

一、前言

前几天在Python白银交流群有个叫【O|】的粉丝问了一道关于网易云音乐热门作品名字和链接抓取的问题，获取源码之后，发现使用xpath匹配拿不到东西，从响应来看，确实是可以看得到源码的。

# yyds干货盘点 #网易云音乐热门作品名字和链接抓取(html5lib篇)_html5 之前的文章，已经使用了正则表达式和xpath、bs4和pyquery四个方法进行了相关实现，网易云音乐热门作品名字和链接抓取(正则表达式篇)，网易云音乐热门作品名字和链接抓取(xpath篇)，网易云音乐热门作品名字和链接抓取(bs4篇)，网易云音乐热门作品名字和链接抓取(pyquery篇)，这篇文章我们使用html5lib来实现。

二、实现过程

这里【甯同学】给了一个使用html5lib方法来实现的代码，简单来说就是用html5lib修复html就可以了，代码如下。

# coding:utf-8

# @Time : 2022/5/10 10:46
# @Author: 皮皮
# @公众号: Python共享之家
# @website : http://pdcfighting.com/
# @File : 网易云音乐热门作品名字和链接(html5lib).py
# @Software: PyCharm

#
# _ooOoo_
# o8888888o
# 88" . "88
# (| -_- |)
# O\ = /O
# ____/`---'\____
# .' \\| |// `.
# / \\||| : |||// \
# / _||||| -:- |||||- \
# | | \\\ - /// | |
# | \_| ''\---/'' | |
# \ .-\__ `-` ___/-. /
# ___`. .' /--.--\ `. . __
# ."" '< `.___\_<|>_/___.' >'"".
# | | : `- \`.;`\ _ /`;.`/ - ` : | |
# \ \ `-. \_ __\ /__ _/ .-` / /
# ======`-.____`-.___\_____/___.-`____.-'======
# `=---='
# ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
# ☀佛祖保佑☀ 卍 ☀永无BUG☀
import requests, re
from lxml import etree
from fake_useragent import UserAgent
import html5lib

class Wangyiyun(object):
def __init__(self):
self.base_url = 'https://music.163.com/discover/artist'
self.headers = {
'user-agent': UserAgent().random,
'referer': 'https://music.163.com/',
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9'
}

def get_xpath(self, url):
res = requests.get(url, headers=self.headers)
# print(res.text)
return etree.HTML(etree.tostring(html5lib.parse(res.text, treebuilder='lxml')))

def singers_parse(self, url, items):
html = self.get_xpath(url)
song_dict = {}
a_lis = html.xpath('//div[@id="song-list-pre-cache"]/ul/li/a') # "song-list-pre-cache"
for a in a_lis:
song_name = a.xpath('.//text()')[0]
print(song_name)
song_url = 'https://music.163.com' + a.xpath('./@href')[0]
print(song_url)
# song_dict[song_name] = song_url
items['所有歌曲：'] = song_dict
# print(items)
# name = items['歌手名：']
# print(f'歌手：{name} 的歌曲已经获取完毕！即将写入文件！')
# time.sleep(1)
# self.writer_data(items)
# print(f'歌手：{name} 的歌曲已经写入完毕！')

Wangyiyun().singers_parse(url='https://music.163.com/artist?id=50653542', items={})

这个代码亲测好使，运行之后结果如下。

# yyds干货盘点 #网易云音乐热门作品名字和链接抓取(html5lib篇)_html_02

难点在于掌握pyquery选择器的使用，获取值等等。

如果遇到下图这个报错，一般是编码问题导致的。

# yyds干货盘点 #网易云音乐热门作品名字和链接抓取(html5lib篇)_html5_03

只需要将86行的代码加个编码就行，如下图所示：

return etree.HTML(etree.tostring(html5lib.parse(res.text, treebuilder='lxml'), encoding='iso8859-1'))

# yyds干货盘点 #网易云音乐热门作品名字和链接抓取(html5lib篇)_网易云音乐_04 之后就可以正常跑起来了：

# yyds干货盘点 #网易云音乐热门作品名字和链接抓取(html5lib篇)_html5_05

三、总结

大家好，我是皮皮。网易云音乐热门作品名字和链接抓取(pyquery篇)，行之有效，难点在于构造pyquery选择器。也欢迎大家积极尝试，一起学习。目前我们已经实现了使用正则表达式、xpath和bs4和pyquery四种方法来进行操作，接下来的一篇文章，我们html5lib库来进行实现，帮助大家巩固下Python选择器基础。

最后感谢粉丝【O|】提问，感谢【dcpeng】、【月神】、【甯同学】、【凡人不烦人】等人参与学习交流。

小伙伴们，快快用实践一下吧！如果在学习过程中，有遇到任何问题，欢迎加我好友，我拉你进Python学习交流群共同探讨学习。

【文章出处:香港站群多ip服务器 http://www.558idc.com/hkzq.html提供，感恩】

上一篇：【信号隐藏】基于混沌sine序列实现信号加密解密附matlab代码
下一篇：没有了

# yyds干货盘点 #网易云音乐热门作品名字和链接抓取(html5lib篇)

一、前言

二、实现过程

三、总结

相关文章