• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

MongooCrawler: 一款低入侵分布式爬虫框架,仅仅依赖少量第三方包,具有多进程多线程 ...

原作者: [db:作者] 来自: 网络 收藏 邀请

开源软件名称:

MongooCrawler

开源软件地址:

https://gitee.com/coliza/MongooCrawler

开源软件介绍:

MongooCrawler

一款开源分布式爬虫软件,如果喜欢这个项目记得加star哈。
MongooCrawler为了解决抓取速度和持久化速度不一致的问题引入了disruptor并发框架
抓取的数据分为两类,一类是文本,一类是url,url暂时使用MD5进行去重,再放入队列文本则会直接进入数据库。
如果想私下交流可以在我blog留言
欢迎访问我的blog:http://blog.csdn.net/flashflight

MongooCrawler的优势


1、分布式
参考[Spiderman](http://git.oschina.net/l-weiwei/Spiderman2)的实现正是基于redis的,但是这样redis就成为一个单点问题,那么如果网络出问题,或者redis服务器宕机会造成部分数据无法爬取这样降低用户体验,mongoocrawler参照redis cluster实现真集群部署,节点之间可以相互通讯,当部分节点无法访问时也不影响爬虫的可用性。
2、验证码
这些框架并没有提供验证码的解决方案,MongooCrawler会根据作者的亲身经历提供一些解决方案
3、cookie
cookie提供自动跟踪的开关,流行的部分开源爬虫框架并不能有效解决sso单点登录中跨域携带cookie的问题,MongooCrawler会提供解决方案。
4、反爬策略
流行的部分爬虫框架没有提供简单易用的访问频次的控制,必须依赖用户手动硬编码调用函数控制。user-agent等头信息也没提供简单易用的管理接口,完全依赖用户硬编码。
5、高性能
流行的部分爬虫框架并没有实现弹性控制,没有根据不同节点的性能差异有效利用不同节点的硬件资源,没有做熔断机制和监控,这些都是MongooCrawler会做的
### 更新说明

2017-07-02 增加对数据库连接池druid的支持,提高mysql数据库存储效率
2017-05-03 完成图书爬虫逻辑
2017-04-16 添加了电商图书类商品爬取逻辑
2017-01-12 添加了解析html的逻辑,依赖jsoup包
2017-04-12 添加了一个事例
2017-05-24 开发监控端

下一步计划


1、部署到服务器上试运行演示网站
2、集群支持(未开发)

鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap