python爬虫(一)爬取豆瓣电影排名前50名电影的信息 在Python爬虫中,我们可以使用beautifulsoup对网页进行解析。 我们可以使用它来爬取豆瓣电影排名前50名的电影的详细信息,例如排名,
python爬虫(一)爬取豆瓣电影排名前50名电影的信息
在Python爬虫中,我们可以使用beautifulsoup对网页进行解析。
我们可以使用它来爬取豆瓣电影排名前50名的电影的详细信息,例如排名,电影名,导演,上映年份,电影分类,评分等等。。
这里面的就还需要正则表达式来进行进一步解析,因为有的信息通过beautifulsoup解析出来的是一串字符串,我们还需要使用正则表达式进行进一步的解析。
主要功能为:获取豆瓣TOP250电影的中英文名、港台名、导演、上映年份、电影分类以及评分,将数据存入文档。
代码如下:
import requests
from bs4 import BeautifulSoup
for i in range(0,2):
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
'Host': 'movie.douban.com'
}
link = 'https://movie.douban.com/top250?start='+str(25*i)
r = requests.get(link, headers=headers, timeout=10)
soup = BeautifulSoup(r.text, "lxml")
div_list = soup.find_all('div', class_='item')
# print(div_list)
movies = []
for each in div_list:
movie = {}
moviename = each.find('div', class_='hd').a.span.text.strip()
movie['title'] = moviename
rank = each.find('div', class_='pic').em.text.strip()
movie['rank'] = rank
info = each.find('div', class_='bd').p.text.strip()
info = info.replace('\n', "")
info = info.replace(" ", "")
info = info.replace("\xa0", "")
director = re.findall(r'[导演:].+[主演:]', info)[0]
director = director[3:len(director) - 6]
movie['director'] = director
release_date = re.findall(r'[0-9]{4}', info)[0]
movie['release_date'] = release_date
plot = re.findall(r'[0-9]*[/].+[/].+', info)[0]
plot = plot[1:]
plot = plot[plot.index('/') + 1:]
plot = plot[plot.index('/') + 1:]
movie['plot'] = plot
star = each.find('div', class_='star')
star = star.find('span', class_='rating_num').text.strip()
movie['star'] = star
movies.append(movie)
print(movie)
如果我们想将输出保存进文件中,我们可以再代码中加入
mylog = open('/Users/qiguan/douban.txt',mode='a',encoding='utf-8')再将最后一行的print变为
print(movie,file=mylog)写入文件的代码为:
import reimport requests
from bs4 import BeautifulSoup
# 文件路径
mylog = open('/Users/qiguan/douban.txt',mode='a',encoding='utf-8')
for i in range(0,2):
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
'Host': 'movie.douban.com'
}
link = 'https://movie.douban.com/top250?start='+str(25*i)
r = requests.get(link, headers=headers, timeout=10)
soup = BeautifulSoup(r.text, "lxml")
div_list = soup.find_all('div', class_='item')
# print(div_list)
movies = []
for each in div_list:
movie = {}
moviename = each.find('div', class_='hd').a.span.text.strip()
movie['title'] = moviename
rank = each.find('div', class_='pic').em.text.strip()
movie['rank'] = rank
info = each.find('div', class_='bd').p.text.strip()
info = info.replace('\n', "")
info = info.replace(" ", "")
info = info.replace("\xa0", "")
director = re.findall(r'[导演:].+[主演:]', info)[0]
director = director[3:len(director) - 6]
movie['director'] = director
release_date = re.findall(r'[0-9]{4}', info)[0]
movie['release_date'] = release_date
plot = re.findall(r'[0-9]*[/].+[/].+', info)[0]
plot = plot[1:]
plot = plot[plot.index('/') + 1:]
plot = plot[plot.index('/') + 1:]
movie['plot'] = plot
star = each.find('div', class_='star')
star = star.find('span', class_='rating_num').text.strip()
movie['star'] = star
movies.append(movie)
print(movie,file=mylog) 大家好,我是亓官劼(qí guān jié ),在【亓官劼】公众号、GitHub、B站、华为开发者论坛等平台分享一些技术博文,主要包括前端开发、python后端开发、小程序开发、数据结构与算法、docker、Linux常用运维、NLP等相关技术博文,时光荏苒,未来可期,加油~ 如果喜欢博主的文章可以关注博主的个人公众号【亓官劼】(qí guān jié),里面的文章更全更新更快。如果有需要找博主的话可以在公众号后台留言,我会尽快回复消息,其他平台私信回复较慢。
由于学习工作的需要,算法刷题将会逐渐由C++向Python3过度,正在过度中,如实现的不太优美,请见谅。
本文原创为【亓官劼】(qí guān jié ),请大家支持原创,部分平台一直在恶意盗取博主的文章!!! 全部文章请关注微信公众号【亓官劼】。