使用javascript实现的爬取糗事百科上的文章的爬虫 1. [代码] [JavaScript]代码 // 使用javascript编写的爬虫源码,用于爬取糗事百科的文章。代码可以直接粘贴到神箭手云爬虫平台上// 运行,不
1. [代码][JavaScript]代码
// 使用javascript编写的爬虫源码,用于爬取糗事百科的文章。代码可以直接粘贴到神箭手云爬虫平台上 // 运行,不需要安装编译环境。要爬取其他网站,可以更改源码即可。 // 代码执行步骤: // 1、打开浏览器,输入并打开神箭手官网:http://www.shenjianshou.cn/。 // 2、登录进入后台。 // 3、点击后台的“爬虫模板编写”->“新建爬虫模板”。 // 4、将代码拷贝到模板脚本里,点击“保存”。 // 5、点击“我的任务”->“创建爬虫任务”。 // 6、选择刚编写的模板后保存,跳转到任务页面后点击启动,等一段时间后爬取的结果就会显示在任务页面。 var configs = { domains: ["www.qiushibaike.com"], scanUrls: ["http://www.qiushibaike.com/"], contentUrlRegexes: ["http://www\\.qiushibaike\\.com/article/\\d+"], fields: [ { name: "content", selector: "//*[@id='single-next-link']", required: true }, { name: "author", selector: "//div[contains(@class,'author')]//h2" } ] }; var crawler = new Crawler(configs); crawler.start();