• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

Douban-Comments-Spider: 豆瓣短评的爬虫程序,并经过数据预处理和JieBa分词,统计词 ...

原作者: [db:作者] 来自: 网络 收藏 邀请

开源软件名称:

Douban-Comments-Spider

开源软件地址:

https://gitee.com/hanggg/Douban-Comments-Spider

开源软件介绍:

GetID_Douban.py

Get a Douban id according to the film name,music name,or book name that you provid.

Douban_id():

在main函数中调用,需要自己创造对象,并将参数传进来。

def init(self,name,sort='movie'):

param name:电影名,音乐名或书本名。param sort:分类,电影(movie),图书(book),音乐(music)。

def getID(self):

需要通过对象手动调用。根据用户提供的名字和分类查找,拿到对应的id并返回值。

主要用xml和正则表达式。

getComments.py

将Douban_id()获取的id和suburl拼凑出完整的短评url,拿到数据并保存在本地。返回值为文件保存的路径。

Keywords.py

将保存在文件中的评论信息,进行清洗。清洗出的关键词生成词云。用到文件夹下的ChineseStopWords.txt,将所有的中文虚词剔除,可以自己做或者从网上下载。simhei.ttf词云字体类型。

comments_infor

评论信息及词云存放位置。

screenshorts

数据存放

分类目录:

image

影片,电影,图书:

image

评论保存文件:

image

词云显示:

image


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap