特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

小红书数据采集分析国庆去哪玩

来源：互联网收集：自由互联发布时间：2022-06-18

距离国庆假期还有3天，作为一年里难得的长假，你肯定不想白白浪费，得给自己安排一次愉快的远行。但是去哪里玩成了头大的事情，瞬间想到小红书（https://www.xiaohongshu.com/），号称

距离国庆假期还有3天，作为一年里难得的长假，你肯定不想白白浪费，得给自己安排一次愉快的远行。但是去哪里玩成了头大的事情，瞬间想到小红书（https://www.xiaohongshu.com/），号称拥有超过一亿用户的生活方式分享社区，其用户笔记内容涵盖吃穿玩乐买，涉及时尚、护肤、彩妆、美食、旅行、影视、读书、健身等各个生活方式领域，再加上社区每天产生数十亿次的笔记曝光，正如客户所言，其平台是集social和commerce于一体的，其数据价值可想而知。

-----难度指数 ✩✩

-----阅读本文大概需20分钟

爬虫案例100篇栏目的第二篇

小红书数据采集分析国庆去哪玩_爬虫

开始抓包

由于小红书web版关闭了，我们只好从微信小程序入手。

打开小程序搜索“国庆旅游”关键词小红书数据采集分析国庆去哪玩_ner_02

打开charles开始抓包，搜索“国庆节旅游”，也就是小红书搜索结果的第一条标题。

小红书数据采集分析国庆去哪玩_python_03

找到了！就是这个请求；看了一下是一个get请求，复制链接输入到浏览器中提示登陆已过期。嗯～，打开pycharm，写了一个简单带headers的requests请求发现数据获取到了。

小红书数据采集分析国庆去哪玩_python_04

大致调试了一下请求头，是authorization在控制是否登陆过期。所以请求的时候记得带上它哦

小红书数据采集分析国庆去哪玩_爬虫_05

获取列表也的代码(由于小红书比较谨慎，所以只能看到50页数据)：

def get_list(url, page):
'''
获取列表页
'''
# 1:按热度排序 2:按时间排序 3:综合排序
sort = {"1": "popularity_descending", "2": "time_descending", "3": "general"}
for page in range(25, 51):
url = 'https://www.xiaohongshu.com/wx_mp_api/sns/v1/search/notes?keyword={}&sort={}&page={}&per_page=30&sid=session.1567474343950544022616'.format(
keyword, sort["1"], page)

authorization = 'you authorization'
head = {"accept": "*/*",
"content-type": "application/json",
"device-fingerprint": "WC39ZUyXRgdFrJLIl36pz6dYNcrGscYZZWqJlPTC2v9Zkrt3jCwWKSyDu9wYQhprJgZD8KTs1jiM0/jeT0GYQI+Xx06PQ2kgctL/WmrP2Tauiuo9Z2Nzm4Q==1487577677129",
"authorization": authorization,
"referer": "https://servicewechat.com/wxffc08ac7df482a27/270/page-frame.html",
"accept-language": "zh-cn",
"user-agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 12_3_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148 MicroMessenger/7.0.5(0x17000523) NetType/WIFI Language/zh_CN",
"accept-encoding": "br, gzip, deflate"
}

return requests.get(url, headers=head).json()

列表页json中没有带每条笔记的content，只有一个ID。通过分析发现了另一个API接口。

小红书数据采集分析国庆去哪玩_python_06

将这个ID换掉你想获取的笔记的ID就大功告成了，记得带上headers哦

获取content代码：

def get_content(info):
'''
:param info:列表页的单条数据
:return: 加入content后的item
'''
head = {"accept": "*/*",
"content-type": "application/json",
"device-fingerprint": "WC39ZUyXRgdFrJLIl36pz6dYNcrGscYZZWqJlPTC2v9Zkrt3jCwWKSyDu9wYQhprJgZD8KTs1jiM0/jeT0GYQI+Xx06PQ2kgctL/WmrP2Tauiuo9Z2Nzm4Q==1487577677129",
"authorization": authorization,
"referer": "https://servicewechat.com/wxffc08ac7df482a27/270/page-frame.html",
"accept-language": "zh-cn",
"user-agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 12_3_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148 MicroMessenger/7.0.5(0x17000523) NetType/WIFI Language/zh_CN",
"accept-encoding": "br, gzip, deflate"
}
info_url = 'https://www.xiaohongshu.com/wx_mp_api/sns/v1/note/{}/single_feed?sid=session.1567474343950544022616'.format(info['id'])
return requests.get(info_url, headers=head).json()

抓取处理完的数据

小红书数据采集分析国庆去哪玩_数据统计_07

源代码：

import requests
import pymongo
from multiprocessing.dummy import Pool as mp
import datetime
db = pymongo.MongoClient()['ceis_nlp']['xiaohongshu']

def get_list(url, page):
'''
获取列表页
'''
return requests.get(url, headers=head).json()

def save_mongo(item):
'''
:param item:需要保存的item
:return: 保存数据
'''
try:
res = db.save(item)
print(res)
except:
print('重复!')
def get_content(info):
'''
:param info:列表页的单条数据
:return: 加入content后的item
'''

info_url = 'https://www.xiaohongshu.com/wx_mp_api/sns/v1/note/{}/single_feed?sid=session.1567474343950544022616'.format(info['id'])
content_data = requests.get(info_url, headers=head).json()
info['desc'] = repr(content_data['data'][0]['note_list'][0]['desc'])
info['time'] = datetime.datetime.fromtimestamp(content_data['data'][0]['note_list'][0]['time'])
info["_id"] = info["id"]
save_mongo(info)

def read_data(listpage_json):
'''
:param listpage_json:列表页的json数据
:return: 单条详情数据
'''
info_data = listpage_json['data']['notes']
for info in info_data:
get_content(info)

def main(url, page):
print(page)
read_data(get_list(url, page))

if __name__ == '__main__':
authorization = '19bc4862-d820-481e-b83d-******'
head = {"accept": "*/*",
"content-type": "application/json",
"device-fingerprint": "WC39ZUyXRgdFrJLIl36pz6dYNcrGscYZZWqJlPTC2v9Zkrt3jCwWKSyDu9wYQhprJgZD8KTs1jiM0/jeT0GYQI+Xx06PQ2kgctL/WmrP2Tauiuo9Z2Nzm4Q==1487577677129",
"authorization": authorization,
"referer": "https://servicewechat.com/wxffc08ac7df482a27/270/page-frame.html",
"accept-language": "zh-cn",
"user-agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 12_3_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148 MicroMessenger/7.0.5(0x17000523) NetType/WIFI Language/zh_CN",
"accept-encoding": "br, gzip, deflate"
}

pools = mp(16)
keyword = '国庆旅游'
# 1:按热度排序 2:按时间排序 3:综合排序
sort = {"1": "popularity_descending", "2": "time_descending", "3": "general"}
for page in range(25, 51):
url = 'https://www.xiaohongshu.com/wx_mp_api/sns/v1/search/notes?keyword={}&sort={}&page={}&per_page=30&sid=session.1567474343950544022616'.format(keyword, sort["1"], page)
pools.apply_async(main, args=(url, page,))
# main(url, page)
pools.close()
pools.join()