特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

利用Python网络爬虫爬取学校官网十条标题

来源：互联网收集：自由互联发布时间：2022-06-30

利用Python网络爬虫爬取学校官网十条标题案例代码： # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urllib.request import re import pymysql # 创建一个类用于获取学校官网的十条标题

利用Python网络爬虫爬取学校官网十条标题_mysql

案例代码：

# __author : "J"
# date : 2018-03-06

# 导入需要用到的库文件
import urllib.request
import re
import pymysql

# 创建一个类用于获取学校官网的十条标题
class GetNewsTitle:

# 构造函数初始化
def __init__(self):
self.request = urllib.request.Request("http://www.sict.edu.cn/") # 需要爬取的网址
# 利用正则表达式筛选数据
self.my_re = re.compile(
r'学校要闻.*?' +
r'"a2" >(.*?)</a>.*?' +
r'"a2" >(.*?)</a>.*?' +
r'"a2" >(.*?)</a>.*?' +
r'"a2" >(.*?)</a>.*?' +
r'"a2" >(.*?)</a>.*?' +
r'"a2" >(.*?)</a>.*?' +
r'"a2" >(.*?)</a>.*?' +
r'"a2" >(.*?)</a>.*?' +
r'"a2" >(.*?)</a>.*?' +
r'"a2" >(.*?)</a>.*?' +
r'院部简讯')

# 创建一个方法
def get_html(self):
try:
response = urllib.request.urlopen(self.request)
# 获取目标网页源码
my_html = response.read().decode('GB2312').replace("\r\n", "")
return my_html
except urllib.request.HTTPError as e:
print(e.code)
print(e.reason)
return

# 创建一个函数，利用正则获取指定标题
def get_titles(self, my_html):
news_titles = re.findall(self.my_re, my_html)
return news_titles

# 创建一个方法，把获取到的标题存入mysql数据库
def into_mysql(self, titles):
for num in range(10):
connection = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='******', db='school',
charset='utf8')
cursor = connection.cursor()
sql = "INSERT INTO `newsTitles` (`title`) VALUES ('" + titles[0][num] + "')"
cursor.execute(sql)
connection.commit()
cursor.close()
connection.close()

# 执行函数的入口
def start(self):
self.into_mysql(self.get_titles(self.get_html()))
print("存储成功！")

# 实例化类
s = GetNewsTitle()
# 调用方法开始执行
s.start()

效果：

利用Python网络爬虫爬取学校官网十条标题_mysql_02

【重要说明】本文为本人的学习记录，论点和观点仅代表个人而不代表当时技术的真理，目的是自我学习和有幸成为可以向他人分享的经验，因此有错误会虚心接受改正，但不代表此刻博文无误！

【Gitee地址】秦浩铖：https://gitee.com/wjw1014

上一篇：简单的Django实现图片上传，并存储进MySQL数据库案例——小白
下一篇：没有了

利用Python网络爬虫爬取学校官网十条标题

相关文章