在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
开源软件名称:classifier4php开源软件地址:https://gitee.com/mz/classifier4php开源软件介绍:classifier4php基于 PHP 和 word2vec 的简单分类器,用于文章、新闻等内容自动分类,项目包含样本训练、识别代码, 分词组件用的是 PhpAnalysis,简单灵活。欢迎大家一起优化并完善。 项目地址: 码云: https://gitee.com/mz/classifier4php Github: https://github.com/djunny/classifier4php 背景每个搜索引擎其实都有一套完善的分类器,拿最简单的分类器举例,不管你是巨头门户还是垂直三、四级以下的网站,他都能识别你的站点类型。面向海量内容的今天,随随便便就能从互联网采集、抓取海量的数据,而数据又杂乱无章,如果用人工整理归类,太浪费资源了。 作者做过各类站群、垂直站点,深知分类器的重要性。 运行环境
如果您的操作系统是Linux、Centos等, 您需要自行下载 word2vec ( https://code.google.com/p/word2vec/ )编译。 然后修改 run.php 中 word2vec 执行路径: define('EXE_WORD2VEC', 'word2vec.exe'); 系统自带了基于 windows 的 word2vec 版本。 项目实例1: demo1/run.php项目中写了一个将小说自动训练并归类为:现代和古代的例子。 训练集结果文件已经存在于 source_data 目录中。 您可以直接将要识别的小说文件放至 source_target 中,即可自动识别。 运行方式配置 PHP 路径到系统环境变量 PATH 中,或者手工执行: /path/php run.php > run.log 即可在 run.log 中看到运行结果。 注:windows 下,设置好 PATH 后,也可以直接运行 run.bat 项目实例2: demo2/index.php请用浏览器访问,截图: 本实例是经过千万数据集训练出来的结果, 可以直接用于生产环境下的新闻分类,支持自动分类以下常见新闻类型: 财经-保险-产经-宏观-基金-理财-企业-新股-银行-证券房产-八卦-明星-政策-专家-资讯国际国内军事-港澳台-观察-国际-国内-科技-秘史-评论科技-IT-互联网-家电-酷玩-软件-数码-探索-通信历史-解密-人物-文史-野史-战史旅游-发现-攻略美食女人-彩妆-丰胸-护肤-香水-整形汽车-厂商-访谈-媒体-资讯社会-法律-奇闻-万象时尚-街拍-视觉-资讯体育养生-按摩-保健-减肥-美容-营养-中药游戏-攻略-海外-人物-周边-资讯育儿-宝宝健康-宝宝营养-备育-产后-明星育儿-母婴-曝光-幼儿园-游戏-育期-资讯娱乐政务-部委 可通过浏览器访问 demo2/index.php |
请发表评论