document-ocr: 一个相对完整的文档分析和识别项目

原作者: [db:作者] 来自: 网络收藏邀请

开源软件名称：

document-ocr

开源软件地址：

https://gitee.com/rockyzheng/document-ocr

开源软件介绍：

document-ocr

Github

一个相对完整的文档分析和识别项目含以下五部分:

文档分析数据，
识别数据合成工具，
文档版面分析模型，
文本行识别模型，
单字识别模型

数据

数据从网络抓取的公开上市公司年报数据 PDF　文件解析生成，有图片和文本的位置信息

一份样例

网盘下载地提取码: nn1g

文本数据是标注到文本行的，部分数据会有些瑕疵，共34000样本

可以根据标注数据生成文本行识别数据

识别数据合成

单字和文本行数据合成工具能比较好的过滤字体中不支持的字符

相关算法实现

所有代码依赖 Tensorflow 1.14 和 opencv 3.x

注

代码还有很多需要完善的地方，不在此列举，欢迎各种 issue
代码中有很多参数没有提出到命令行比如 learning_rate 等，希望使用的时候多读下代码

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

TrWebOCR: 开源易用的中文离线OCR，识别率媲美大厂，并且提供了易用的web页面及web的 ...发布时间：2022-03-24

AIAS: AIAS (AI Acceleration Suite) - 人工智能加速器套件。提供: 包括SDK，平台引擎 ...发布时间：2022-03-24

139-2527-9053

在线客服（服务时间 9:00～18:00）

在线QQ客服

地址：深圳市南山区西丽大学城创智工业园

电邮：jeky_zhao#qq.com

移动电话：139-2527-9053

客服电话

电子邮件

document-ocr: 一个相对完整的文档分析和识别项目

开源软件名称：

开源软件地址：

开源软件介绍：

document-ocr

数据

识别数据合成

相关算法实现

注

请发表评论

全部评论

上一篇：

下一篇：

关于我们

产品与服务

解决方案

139-2527-9053