• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

tangshi-analyze: 唐诗分析程序主要是通过抓取互联网上的唐诗,然后进行数据的清洗, ...

原作者: [db:作者] 来自: 网络 收藏 邀请

开源软件名称:

tangshi-analyze

开源软件地址:

https://gitee.com/secondriver/tangshi-analyze

开源软件介绍:

唐诗分析程序

1. 简介

唐诗分析程序主要是通过抓取互联网上的唐诗,然后进行数据的清洗,存储,数据分析,输出报告。

2. 背景

随着Java的发展,提供了流式处理(Stream)数据的能力,以及数据挖掘也是近年来比较热门的技术职业发展方向。通过初步学习,研究简单的数据采集,清洗,存储和分析,了解整个数据挖掘的基本流程。

3. 意义

  • 了解数据挖掘的基本流程
  • 熟悉数据分析方法
  • 锻炼应用技术解决问题的能力

3. 目标数据

数据采集主要来自:古诗文网

4. 功能

  • 数据采集,清洗,存储
  • 数据分析,可视化展示

5. 技术

  • Stream流式处理
  • 文本分词和解决(ansj
  • 多线程
  • 网络爬虫(htmlunit
  • 数据库和JDBC编程
  • 数据可视化(HTML/CSS/JavaScript, echarts,jQuery
  • SpringBoot快速构建web应用以及管理对象与配置信息

6. 实现

7. 分析结果

  • 唐诗创作数量排行

  • 唐诗用词云图

8. 部署运行

  • 打包mvn package -Dmaven.test.skip=true 输出可执行程序target/tangshi-analyze-1.0.0.jar
  • 配置application.properties
  • 运行-不启动爬虫java -jar tangshi-analyze-1.0.0.jar
  • 运行-启动爬虫java -jar tangshi-analyze-1.0.0.jar crawler-run

9. 参与开发

  • 下载源码
    • git clone https://gitee.com/secondriver/tangshi-analyze.git
    • cd tangshi-analyze
  • 导入数据库
    • mysql -u 数据库用户名 -p
    • source tangshi\tangshi.sql
  • 配置修改
    • src\main\resources\application.properties
    • spring.datasource.username=数据库用户名
    • spring.datasource.password=数据库密码
  • 开发功能
    • src\main\java\com.bittech.tangshianalyze.TangshiAnalyzeApplication程序入口
    • src\main\java\com.bittech.tangshianalyze.crawler爬虫部分
    • src\main\java\com.bittech.tangshianalyze.analyze数据分析
    • src\main\java\com.bittech.tangshianalyze.webWeb接口

鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap