在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
开源软件名称:webmagicx开源软件地址:https://gitee.com/luosl/webmagicx开源软件介绍:webmagicxwebmagicx一款基于webmagic的可配置化的爬虫框架webmagicx是一款可配置爬虫框架,webmagicx中的webmagic表示该框架扩展于webmagic,x表示该框架是一个基于xml的配置型爬虫框架。得益于webmagic强大的可扩展能力,本框架实现了以下特性:
要求jdk1.8以上 快速开始安装 webmagicx webmagicx 提供了二进制安装包webmagicx 下载页面,你可以在这个页面下载 webmagicx 的最新版本。 下载完成后,将webmagicx-xx.zip解压,你会得到以下目录结构: webmagicx spiderConf → 这里存放了一些爬虫配置的模板文件 douban.spider.xml → 抓取豆瓣电影的示例 baike_yixue.spider.xml → 抓取百度百科疾病诊断信息的示例 template.spider.xml → 配置模板 bin → 存放命令脚本的文件夹 webmagicx-cli.bat → windos 客户端命令 webmagicx-cli.sh → linux 客户端命令 webmagicx-server.bat → windos 服务端命令 webmagicx-server.sh → linux 服务端命令 conf → 项目配置 log4j.properties → 项目日志配置文件 lib → 项目依赖 jar 包 .... 执行第一个爬虫程序 进入webmagicx的bin目录 在 windows 环境下,你可以按住Shift键+鼠标右键 选择 "在此处打开命令" 打开windows命令行。输入命令: webmagicx-server.bat -confPath ../spiderConf/douban.spider.xml 在linux 环境下 首先需要为 .sh 文件赋予执行权限: chmod a+x ./*.sh 然后执行命令: ./webmagicx-server.sh -confPath ../spiderConf/douban.spider.xml 待爬虫运行一段时间后,在bin目录中会生成 豆瓣电影.csv 文件和 img 文件夹,分别存放了电影信息和电影封面,如下图所示: 打开浏览器 输入网址 http://localhost:9000/spider/state/douban 便可查看爬虫的运行状态: 项目文档说明项目才刚刚开始,大家有什么建议和想法欢迎一起交流。同时也希望有兴趣和精力的盆友一起来完善这个项目 QQ群468248192 |
请发表评论