• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

webmagic-learn: 使用springboot、spring-data-jpa、webmagic等技术,定时爬取爱奇艺 ...

原作者: [db:作者] 来自: 网络 收藏 邀请

开源软件名称:

webmagic-learn

开源软件地址:

https://gitee.com/fengsam618/webmagic-learn

开源软件介绍:

一、webmagic-learn

1.介绍

  1. 使用webmagic、springboot爬取CSDN博客,爬取爱奇艺视频、360影视。使用定时器,每隔1天,清空爬虫数据,重新爬取数据,使数据尽可能使最新的。

2.后端技术

springBoot、mysql、springBoot Data JPA、webmagic、redis

3.运行效果

  1. 电影列表页面

    ​ 使用webmagic从爱奇艺官网上爬取电影标题、url等数据,并且将爬虫数据存放MySQL数据库中。电影列表页面渲染如下,借助第三方视频解析,点击解析播放可以播放该视频。

  1. 电影列表数据库数据

    使用webmagic从爱奇艺官网爬取数据,并且将数据存放mysql数据中。

    1. CSDN博客列表页面

      ​ 使用webmagic从CSDN网站爬取数据,并且将数据存放mysql数据中。博客列表页面渲染如下,点击博客标题可以查看博客内容。

    1. CSDN博客列表数据库中的爬虫数据

      使用webmagic从CSDN网站爬取数据,并且将数据存放mysql数据中。

    2. 从CSDN爬取博客数据,效果如下图。

4. 本地运行

  1. 软件安装。需要安装java、maven、mysql等软件。
  2. 下载项目代码。执行git clone [email protected]:fengsam618/webmagic-learn.git,将项目导入idea中
  3. 将sql文件夹下spider_film.sql在Navicat中执行。成功执行会创建两张表
  4. 修改resource目录下 application-dev.properties。重点修改连接数据库名称、登录用户名称、密码
  5. idea打开,启动成功后,浏览器访问http://localhost/
  6. 部署可以参考bin目录脚本

5.待完成

  1. 电影列表,支持多种搜索(根据电影名称、时间)

  2. 电影图片url错误,待解决

  3. 数据支持增量插入,定时插入

  4. 视频支持切换播放线路,vip视频解析url

6.备注

  1. 项目码云地址:https://gitee.com/fengsam618/webmagic-learn
  2. 项目github地址:https://github.com/fengsam6/webmagic-learn
  3. 感兴趣,可以给一个start
  4. .视频解析如果有侵权,请停止使用

鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap