在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
开源软件名称:AndroidCrawler开源软件地址:https://gitee.com/chinagtech/zouchuqu_crawler_app开源软件介绍:Android Crawler 采集新闻框架Android Crawler, 一款采集软件, 采用Retrofit + OkHttp + Rxjava + Eventbus + Greendao + Jsoup + Meterial Design, 参考webmagic爬虫框架并用rxjava制作了自定义的采集框架。 采集网站Thanks to the open source project 使用框架feature
文档以下可以根据实际情况修改 注意更改 gradle/wrapper/gradle-wrapper.properties 中distributionUrl=file:///D:/android/gradle/gradle-2.14.1-all.zip为自己的本地gradle路径 数据库设计article表 public class Article { private String title; private String content; private Date time; //栏目 private String column; @Id private String url;} 采用url作为主键,标识是否采集过了 采集框架采集的思想是分schedule和processor。
│ ISpider.java ISpider 采集统筹管理类 IContentProcessor,IUrlProcessor 解析html内容 详情请参考Spider实现类未完待续。 提取栏目json字符串的js访问网站,在开发者工具控制台输入以下,运行 function getList(){var arr=[];$('dl.menu').find('dd').each(function(){var $this=$(this);var text=$this.text();var href=$this.find('a').attr('href');var node={};node.text=text;node.href=href;arr.push(node);})return JSON.stringify(arr);}getList(); 如下: [ { "text": "政策文件", "href": "/article/fwydyl/zcwj" }, { "text": "统计数据", "href": "/article/fwydyl/tjsj" }, { "text": "相关资讯", "href": "/article/fwydyl/zgzx" },...] license基于GPL,可参考基础框架代码。 参考资料Android Service
|
请发表评论