使用javascript实现的爬取糗事百科上的文章的爬虫 1. [代码] [JavaScript]代码 // 使用javascript编写的爬虫源码,用于爬取糗事百科的文章。代码可以直接粘贴到神箭手云爬虫平台上// 运行,不
1. [代码][JavaScript]代码
// 使用javascript编写的爬虫源码,用于爬取糗事百科的文章。代码可以直接粘贴到神箭手云爬虫平台上
// 运行,不需要安装编译环境。要爬取其他网站,可以更改源码即可。
// 代码执行步骤:
// 1、打开浏览器,输入并打开神箭手官网:http://www.shenjianshou.cn/。
// 2、登录进入后台。
// 3、点击后台的“爬虫模板编写”->“新建爬虫模板”。
// 4、将代码拷贝到模板脚本里,点击“保存”。
// 5、点击“我的任务”->“创建爬虫任务”。
// 6、选择刚编写的模板后保存,跳转到任务页面后点击启动,等一段时间后爬取的结果就会显示在任务页面。
var configs = {
domains: ["www.qiushibaike.com"],
scanUrls: ["http://www.qiushibaike.com/"],
contentUrlRegexes: ["http://www\\.qiushibaike\\.com/article/\\d+"],
fields: [
{
name: "content",
selector: "//*[@id='single-next-link']",
required: true
},
{
name: "author",
selector: "//div[contains(@class,'author')]//h2"
}
]
};
var crawler = new Crawler(configs);
crawler.start();
