pikachu: 去吧皮卡丘，为什么取个名字叫皮卡丘，大概是这样萌一些。小哥哥是很可爱的 ...

原作者: [db:作者] 来自: 网络收藏邀请

开源软件名称：

pikachu

开源软件地址：

https://gitee.com/ironzheng/pikachu

开源软件介绍：

pikachu

皮卡丘，就决定是你了

为什么取个名字叫皮卡丘，大概是这样萌一些。小哥哥是很可爱的。然后本项目是个爬虫项目，使用时候就像派出小精灵一样，派出皮卡丘，就会为你抓回对应的数据。

使用注解的方式，定义数据源。希望pikachu可以作为很好的底层，去支撑开发者的业务系统。

目前版本迭代中。文档也准备着手编写了，原谅我一直比较懒。示例的例子，后续会提交上来。

JDK 版本 1.8

API文档：https://apidoc.gitee.com/ironzheng/pikachu/

github：https://github.com/Steelzheng/pikachu

开源中国：https://gitee.com/ironzheng/pikachu

文档地址

https://www.yuque.com/zhenggangmin/pikachu

中央仓库Maven，此处版本号为最新（随时更新）

    <dependency>      <groupId>cn.luway</groupId>      <artifactId>pikachu</artifactId>      <version>1.1.7</version>    </dependency>

计划后续将要加入的功能：

动态地址池代理，防止单一IP被封禁。（完成）

分布式（考虑中，还未定)

其他

版本动态

1.2.0

增加了自定义worker，之前设定的worker过于死板，需要开发者编写worker类才能使用，于是增加自定义worker，直接new即可，更加快捷方便。

 Pikachu pikachu = new PikachuImpl("test")                .setCoreNum(10)                .setMaxThreadNum(20)                .init();        PikachuJobManage pikachuJobManage = new PikachuJobManage(pikachu);        CustomWorker customWorker = new CustomWorker("https://hz.lianjia.com/ershoufang/xihu/pg2/",MatchUrl.Method.GET)                .addAttr("title","body > div.content > div.leftContent > ul > li > div.info.clear > div.title > a")                .addPipeline(new BasePipeline() {                    @Override                    public void output(Map result, String url) {                        System.out.println(result);                    }                });        pikachu.regist(customWorker);

1.1.7

细小改动，升级默认模拟浏览器版本。防止部分网站对老旧浏览器不兼容。

1.1.6

加入了动态地址池代理，可以绕开某些针对IP的拦截。默认关闭，需要打开。

加入随机休眠开关，默认关闭，开启时每次访问站点会随机休眠，减少批量业务对站点的压力。

优化了一些逻辑，删除一些无用属性。

1.1.4~1.1.5

加入了预置Work，可以在需要启动的时候，直接调用pikachu.runWorkId("id")来运行Worker。灵活性加大。这个功能的maven版本号还没发布，应该和下个版本一起发布了。仓库代码已更新。

升级了jsoup版本号，发现新老版本的在流操作上接口不兼容，所以升级至最新。

移除了空闲停止爬虫的接口，改为主动停止。因为检测空闲时间会让cpu轮询空转，所以还是阻塞队列吧。

其他一些不大不小的优化。

1.1.2~1.1.3

补丁升级

修复定时管理只能注册常用worker，现支持两种模式。

1.1.1

1.1.1 版本功能介绍，相对预览版，修正了一些BUG，提升稳定性。

优化：修改批量任务处理方式，改为多线程任务调度模式。

1.1.1 预览版

重构了爬虫的核心处理逻辑，使得任务分配比之前版本更加合理，效率上也更高。由于重构了核心部分，所以对之前的版本是不兼容的。

主要优化的功能为：

1.增加cookies，可以对一些站点进行cookies参数验证，也就是模拟登陆。

2.增加一些通用接口。

3.增加定时任务。

4.增加批量处理，可以对分页地址池批量处理。

5.随机时间间隔，防止高并发对网站造成过大的压力。也防止被网站封杀。（这个还不能彻底解决被封杀的问题，只能说一定程度缓解了高并发可能触发网站的封杀。后续版本继续考虑新的方式。）

1.0.2 升级版来啦

升级版中做了对xpath和css select的注解支持。同时优化了核心处理逻辑。使得任务的安排更加有序。同时项目已经发布至中央仓库，可以直接添加依赖,即可快速开发。

正打算推出几个小例子，方便大家更好的使用pikachu。还有很多地方需要优化。

1.0.0 版本第一版

第一版其实没有太多东西，非常简单地封装了下爬虫引擎和抓取对象bean。存在很多的不足，需要改进。也欢迎大家给我多提点意见。

欢迎提交issues或者给我发邮件。

====================================================================================================

调试方式

安装Java环境，clone 代码

git clone https://gitee.com/ironzheng/pikachu.gitmvn clean install

使用方式参考test中的示例

先配置好抓取目标的bean。

注解说明

@MatchUrl 类注解，里面有两个参数，url是目标数据的url地址，请填写完善。method是请求方式。

@CssPath 方法注解，使用select语法。

@Xpath 方法注解，使用xpath语法。Xpath是一门在 XML 文档中查找信息的语言。

两种不同的注解可以一起使用。字段名自定义即可。

代码示例

先创建一个目标model

// 示例@MatchUrl(url = "https://www.dailyenglishquote.com/", method = MatchUrl.Method.GET)public class TestBean {    @CssPath(selector = "#content")    private String content;}

再创建一个输出pipeline

// 示例public class TestPipeline extends BasePipeline<UrlConfig> {    public EverydayPipeline(UrlConfig urlConfig) {        super(urlConfig);    }    @Override    public void output(Map<String, Elements> result, String url) {        System.out.println(result.get("content"));    }}

最后启动爬虫，这里展示不同的注册方式。

// 示例public class TestPikachu {    public static void main(String[] args) {       Pikachu pikachu = new Pikachu("test")                .init()                .regist(new Worker("test", TestBean.class)                        .addPipeline(new TestPipeline(new TestBean())));        // 注册批量url的Worker                     pikahcu.regist(getWorker());       pikachu.start();           // Worker       GeneralWorker generalWorker =  new GeneralWorker("1", TestBean.class)                    .addPipeline(new BasePipeline(TestBean.class) {                        @Override                        public void output(Map result, String url) {                            System.out.println(result);                        }                    });        // 创建一个定时任务中心    PikachuJobManage pikachuJobManage = new PikachuJobManage(pikachu);    pikachuJobManage.regiest(generalWorker,1L,5L,TimeUnit.SECONDS);     }        /**    * 分页批量Worker生成示例    * @return     */     public BathWorker getWorker() {            int i = 1;            while (i < 100) {                String url = "https://hz.lianjia.com/ershoufang/xihu/pg" + i + "/";                urlList.add(url);                i++;            }            attr.put("title", new Target("title", "List",                    "body > div.content > div.leftContent > ul > li > div.info.clear", null));            attr.put("price", new Target("price", "String",                    "body > div.content > div.leftContent > ul > li > div.info.clear > div.priceInfo > div > span", null));                worker = new BathWorker("lj")                    .method(MatchUrl.Method.GET)                    .urlList(urlList)                    .attr(attr)                    .addPipeline(new LianjiaPipeline(lianjiaRepository));            return worker;        }}

几个小例子

后续写一些小例子，给大家示范一下一些站点数据的抓取。数据抓取仅限学习，不可用于商业目的。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

JFinalShiroPlugin: 扩展玛雅牛的jfinalshiroplugin，支持jfinal template 的标签 ...发布时间：2022-03-23

tango: 微内核可扩展的Go语言Web框架发布时间：2022-03-23

剪的笔顺,诠释剪的笔画,认识剪的部首

florent37/ViewAnimator: A fluent Android

2022-08-15

florent37/Shrine-MaterialDesign2: implem

2022-08-17

CVE-2020-36276

2022-09-23

六六分期app的软件客服如何联系？(六六分期

2023-10-27

doraiso/Mastodon

2022-08-18

阅读排行榜

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：10124|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：6795|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：5708|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：6212|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：6059|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：6424|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：5997|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：5466|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：5854|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：5184|2022-11-06

客服电话

电子邮件

pikachu: 去吧皮卡丘，为什么取个名字叫皮卡丘，大概是这样萌一些。小哥哥是很可爱的 ...

开源软件名称：

开源软件地址：

开源软件介绍：

pikachu

文档地址

版本动态

1.2.0

1.1.7

1.1.6

1.1.4~1.1.5

1.1.2~1.1.3

1.1.1

1.1.1 预览版

1.0.2 升级版来啦

1.0.0 版本 第一版

调试方式

注解说明

代码示例

几个小例子

请发表评论

全部评论

上一篇：

下一篇：

delphi进度条

PacktPublishing/Python-Machine-Learning-

sussillo/hfopt-matlab: A parallel, cpu-b

鲁东大学一米网:Win7系统USB驱动器RAM的操

emersion/go-ostatus: An OStatus library

剪的笔顺,诠释剪的笔画,认识剪的部首

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

六六分期app的软件客服如何联系？(六六分期

doraiso/Mastodon

关于我们

产品与服务

解决方案

139-2527-9053

1.0.0 版本第一版