自动化爬取拉钩网的职位信息: 爬取30页的数据代码: import requestsimport json#主URL ---浏览器url地址栏里面的地址url1=‘https://www.lagou.com/jobs/list_python?city=%E6%88%90%E9%83%BDcl=falsefromSearch=truel
自动化爬取拉钩网的职位信息:
爬取30页的数据代码:
import requests
import json
#主URL ---浏览器url地址栏里面的地址
url1=‘https://www.lagou.com/jobs/list_python?city=%E6%88%90%E9%83%BD&cl=false&fromSearch=true&labelWords=&suginput=‘
#json数据的url地址
url=‘https://www.lagou.com/jobs/positionAjax.json?city=%E6%88%90%E9%83%BD&needAddtionalResult=false‘
headers={
‘Accept‘: ‘application/json, text/javascript, */*; q=0.01‘,
‘Referer‘:‘https://www.lagou.com/jobs/list_python?city=%E6%88%90%E9%83%BD&cl=false&fromSearch=true&labelWords=&suginput=‘,
‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36‘
}
for j in range(1,30):
data={
‘first‘:‘ true‘,
‘pn‘: j,
‘kd‘:‘ python‘
}
#因为拉钩网是需要登陆后才能查看到招聘信息,所以需要保持用户的登陆状态
s=requests.Session()
s.get(url=url1,headers=headers)
#通过登陆状态取到用户的登陆信息
user_cookie=s.cookies
#请求数据
response_data=s.post(url=url,headers=headers,data=data,cookies=user_cookie).json()
result=response_data[‘content‘][‘positionResult‘][‘result‘]
for i in result:
dict_json={}
dict_json[‘公司名称‘]=i[‘companyFullName‘],
dict_json[‘职位名字‘]=i[‘positionName‘],
dict_json[‘类型‘]=i[‘secondType‘],
dict_json[‘技能要求‘]=i[‘skillLables‘]
print(dict_json)
如下代码是爬去一页数据中的职位部分信息:
import requests
import json
#主URL ---浏览器url地址栏里面的地址
url1=‘https://www.lagou.com/jobs/list_python?city=%E6%88%90%E9%83%BD&cl=false&fromSearch=true&labelWords=&suginput=‘
#json数据的url地址--F12后,在network-->XHR-->Preview中查找是否是我们需要的内容来确定
url=‘https://www.lagou.com/jobs/positionAjax.json?city=%E6%88%90%E9%83%BD&needAddtionalResult=false‘
headers={
‘Accept‘: ‘application/json, text/javascript, */*; q=0.01‘,
‘Referer‘:‘https://www.lagou.com/jobs/list_python?city=%E6%88%90%E9%83%BD&cl=false&fromSearch=true&labelWords=&suginput=‘,
‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36‘
}
data={
‘first‘:‘ true‘,
‘pn‘: ‘1‘,
‘kd‘:‘ python‘
}
#因为拉钩网是需要登陆后才能查看到招聘信息,所以需要保持用户的登陆状态
s=requests.Session()
s.get(url=url1,headers=headers)
#通过登陆状态取到用户的登陆信息
user_cookie=s.cookies
#请求数据
response_data=s.post(url=url,headers=headers,data=data,cookies=user_cookie).json()
result=response_data[‘content‘][‘positionResult‘][‘result‘]
for i in result:
dict_json={}
dict_json[‘公司名称‘]=i[‘companyFullName‘],
dict_json[‘职位名字‘]=i[‘positionName‘],
dict_json[‘类型‘]=i[‘secondType‘],
dict_json[‘技能要求‘]=i[‘skillLables‘]
print(dict_json)
