• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

wcrawler: 知乎爬虫(crawler/spider),结合elastic-job-lite和多线程

原作者: [db:作者] 来自: 网络 收藏 邀请

开源软件名称:

wcrawler

开源软件地址:

https://gitee.com/_Ngone/wcrawler

开源软件介绍:

wcrawler

  • wcrawler是一个知乎爬虫,内置ip代理池,结合elastic-job-lite和多线程,执行爬虫任务
  • 可抓取用户的关注关系
  • 可抓取用户的简介/关注数/粉丝数/赞成数/感谢数/回答数/提问数/文章数

Quick Start

配置elastic-job的作业

    # elastic-job:CrawlerJob    url.simple.id=CrawlerJob    url.simple.class=com.wuyi.wcrawler.job.CrawlerJob    url.simple.cron=0/20 * * * * ?    url.simple.shardingTotalCount=1    url.simple.monitorExecution=false    url.simple.monitorPort=19888    url.simple.failover=true    url.simple.disabled=false    url.simple.overwrite=true

url.simple.cron: 用cron表达式来控制作业的执行;url.simple.disabled:false,该作业可以执行;true,该作业不可执行;

    public class WcrawlerTest {        public static void main(String[] args ) throws InterruptedException {            Config config = Config.newInstance()                    .setTarAmount(3000)                    .setRunningTime(3600 * 1000)                    .setCheckInterval(500)                    .setProxyFlag(true)                    .setProxySelectPolicy(ProxySelectPolicy.RANDOM);            Wcrawler wcrawler = new Wcrawler(config);            wcrawler.start();        }    }

使用Config配置爬虫任务的参数:

  • tarMount:期望爬取的用户总数
  • runningTime:任务的执行时长
  • checkInterval:任务状态检查的时间间隔
  • proxyFlag:是否使用代理
  • proxySelectPolicy:代理的选择策略:SEQUENCE:顺序获取;RANDOM:随机获取;SUCCESS_PROBABILITY_PRIORITY:代理成功率优先获取;SUCCESS_TIMES_PRIORITY:代理成功次数优先获取;SUCCESS_TIME_CONSUME_LEAST_PRIORITY: 代理耗时最少优先获取;

第三方工具

  • elastic-job-lite
  • httpclient
  • 通用mapper
  • fastjson
  • druid
  • spring
  • mybatis

ip代理池框架

text

TODO

维护数据库中的代理ip


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
SpiderCxx: A simple Net Spider with C++, using "Google Gumbo" for HTML ...发布时间:2022-02-14
下一篇:
一笑倾城/网络爬虫发布时间:2022-02-14
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap