当前位置 : 主页 > 网络编程 > JavaScript >

爬取糗事百科的爬虫

来源:互联网 收集:自由互联 发布时间:2021-07-03
使用javascript实现的爬取糗事百科上的文章的爬虫 1. [代码] [JavaScript]代码 // 使用javascript编写的爬虫源码,用于爬取糗事百科的文章。代码可以直接粘贴到神箭手云爬虫平台上// 运行,不
使用javascript实现的爬取糗事百科上的文章的爬虫

1. [代码][JavaScript]代码    

// 使用javascript编写的爬虫源码,用于爬取糗事百科的文章。代码可以直接粘贴到神箭手云爬虫平台上
// 运行,不需要安装编译环境。要爬取其他网站,可以更改源码即可。
// 代码执行步骤:
// 1、打开浏览器,输入并打开神箭手官网:http://www.shenjianshou.cn/。
// 2、登录进入后台。
// 3、点击后台的“爬虫模板编写”->“新建爬虫模板”。
// 4、将代码拷贝到模板脚本里,点击“保存”。
// 5、点击“我的任务”->“创建爬虫任务”。
// 6、选择刚编写的模板后保存,跳转到任务页面后点击启动,等一段时间后爬取的结果就会显示在任务页面。
var configs = {
    domains: ["www.qiushibaike.com"],
    scanUrls: ["http://www.qiushibaike.com/"],
    contentUrlRegexes: ["http://www\\.qiushibaike\\.com/article/\\d+"],
    fields: [
        {
            name: "content",
            selector: "//*[@id='single-next-link']",
            required: true
        },
        {
            name: "author",
            selector: "//div[contains(@class,'author')]//h2"
        }
    ]
};
var crawler = new Crawler(configs);
crawler.start();
网友评论