day005 1.文本处理+词云 01.什么是文件;文件是操作系统提供的一个虚拟概念,用来储存信息 02.文本文件;.txt/.word/.md/.py/.xml/.ini 储存的是文字 03.通过文本编辑器去控制txt文件 1.找到文件
day005
1.文本处理+词云
01.什么是文件;文件是操作系统提供的一个虚拟概念,用来储存信息
02.文本文件;.txt/.word/.md/.py/.xml/.ini 储存的是文字
03.通过文本编辑器去控制txt文件
1.找到文件路径 # file_path=‘/Users/luocongyu/Downloads/百度网盘/上课数据/day 05/huijiadeyouhuo.txt‘ ? 2.打开文件 # f=open(file_path)(只是把文件读入内存没有将文件可视化) ? 打开文件的3种方式 ? 3.读取/修改操作 # data=f.read() # 读取文件让文件可视化 ? 4.保存 # f.flush() # 保存文件 ? 5.关闭文件 # f.close() # 关闭文件
import jieba
import imageio
import wordcloud
?
# 1. 读取文件内容
with open(r‘/Users/luocongyu/Downloads/百度网盘/上课数据/day 05/huijiadeyouhuo.txt‘,‘r+‘,encoding=‘utf8‘) as fr:
# for i in range(1000):
# fr.write(‘回家的诱惑,‘)
# fr.flush() # 相当于保存
?
data = fr.read()
?
?
# 2. 使用结巴模块对文件内容切割
jieba.add_word(‘回家的诱惑‘) # 让"回家的诱惑"成为一个单词
jieba.del_word(‘女士‘)
jieba.del_word(‘先生‘)
jieba.del_word(‘小马‘)
data_list = jieba.lcut(data)
data = ‘ ‘.join(data_list)
?
# 3. 找到一张洪世贤的图片
img = imageio.imread(r‘hongshixian.jpg‘)
?
# 4. 使用词云模块生成词云
w = wordcloud.WordCloud(background_color=‘white‘,mask=img,font_path=r‘C:\Windows\Fonts\simsun.ttc‘,max_words=150)
w.generate(data)
w.to_file(‘nihaosaoa.png‘)
2.爬取图片
import requests
response = requests.get(
url=‘http://gss0.baidu.com/-4o3dSag_xI4khGko9WTAnF6hhy/zhidao/pic/item/5243fbf2b21193136cdd4aab6c380cd791238d0b.jpg‘
)
?
with open(‘蕾姆.jpg‘,‘wb‘) as f:
f.write(response.content)
print(‘图片下载成功‘)
3.爬取视频
import requests
response = requests.get(url=‘https://video.pearvideo.com/mp4/third/20190827/cont-1595605-10024340-172750-hd.mp4‘)
with open(‘肉沫虹豆。mp4‘,‘wb‘) as f:
f.write(response.content)
print(‘视频下载成功‘)
4.爬取文本
import requests
import re
response=requests.get(url=‘https://movie.douban.com/chart‘)
response.encoding = ‘utf-8‘
print(response.text)
Weekly=re.findall(‘<td width="100" valign="top">.*?<a class="nbg" href="(.*?)".*?title="(.*?)">‘, response.text, re.S)
num = 1
with open(‘renren11.txt‘, ‘w‘, encoding=‘utf-8‘)as f:
for line in Weekly:
movie_url = line[0]
movie_name = line[1]
f.write(movie_url + ‘---‘ + movie_name + ‘\n‘)
print(‘写入数据成功,程序结束‘)