在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
开源软件名称:efaqa-corpus-zh开源软件地址:https://gitee.com/chatopera/efaqa-corpus-zh开源软件介绍:Emotional First Aid Dataset心理咨询问答语料库,仅限研究用途。 https://github.com/chatopera/efaqa-corpus-zh
为什么发布这个语料库心理咨询中应用人工智能,是我们认为非常有意义的一个探索。我们愿意和更多人合作,把目前领先的人工智能技术,在心理咨询不同场景下落地。扣门的,就给他开门,愿每个人都有自己的心理咨询师。 -- 派特心理 数据集介绍心理咨询问答语料库(以下也称为“数据集”,“语料库”)是为应用人工智能技术于心理咨询领域制作的语料。据我们所知,这是心理咨询领域首个开放的 QA 语料库,包括 20,000 条心理咨询数据,也是公开的最大的中文心理咨询对话语料。数据集内容丰富,不但具备多轮对话内容,也有分类等信息,制作过程耗费大量时间和精力,比如标注过程是面向多轮对话,平均每条标记耗时 1 分钟。 数据集由斯坦福大学,UCLA 和台湾辅仁大学临床心理学等心理学专业人士参与建设,并由 Chatopera 和诸多志愿者合作完成。 数据文件位置efaqa-corpus-zh.utf8.gz,该文件为 Gzip 压缩,utf8 编码,每行一条数据,每条为 JSON 格式字符串,格式如下:
【注意:】sender 的值是 数据示例{ "md5": "2f63d374c071043d9e1968aefa62ffb7", "owner": "匿名", "title": "女 听过别人最多的议论就是干啥啥不行不长心眼没有脑子", "label": { "s1": "1.13", "s2": "2.7", "s3": "3.4" }, "chats": [ { "time": "11:02:45", "value": "这样的议论是针对谁呢?", "sender": "audience", "type": "textMessage", "label": { "question": true, "knowledge": false, "negative": false } }, { "time": "11:08:38", "sender": "audience", "type": "textMessage", "value": "欢迎你来找我玩❤", "label": { "question": false, "knowledge": false, "negative": false } }, { "time": "11:15:17", "sender": "owner", "type": "textMessage", "value": "好惨" } ]} 话题标签一条数据中, 在 S1 烦恼类型
S2 心理疾病心理问题已经影响工作,咨询者需要休息调整或就医。
【注意:】一些在临床上更为严重的心理疾病,比如多重人格等,因为其复杂性,更不容易判断,数据集暂时不涉及标注。 S3 SOS紧急情况,需要立刻有人工干预。
聊天标签
项目背景为了帮助更好应用该数据集,特别制作了一个视频帮助了解项目背景、标注设计和标注过程。 安装使用Python为了方便使用,数据集发布到 https://pypi.org/project/efaqa-corpus-zh/ 上,使用 pip install efaqa-corpus-zh 演示代码 import efaqa_corpus_zhl = list(efaqa_corpus_zh.load())print("size: %s" % len(l))print(l[0]["title"]) 初次执行 语料文件如果您使用其它编程语言,那么直接先下载数据文件efaqa-corpus-zh.utf8.gz,然后使用 Gzip 解压工具解压,得到文本文件,然后按行读取。 在线数据平台为帮助大家更好的使用数据集,我们也录入到不同在线数据平台。 心理问答 API作为心理咨询平台,心理健康服务开发者,如何获得智能问答服务呢?如果不想从零开始,有没有成熟的方案呢?我们称之为
标注志愿者本语料有相当一部分是网络招募志愿者完成,而且不乏心理学专业人士,或者对心理学有浓厚兴趣的爱心人士,出于对数据质量的严格要求,我们的招募过程是认真对待的,加入的志愿者也是非常积极的,在此特别感谢他们的贡献!他们不辞辛苦,愿意为人工智能技术应用于心理咨询行业日夜工作,终于有了这个数据集! 志愿者成员信息: https://github.com/chatopera/efaqa-corpus-zh/wiki/Volunteers,大家分布在中国大陆、法国、美国和加拿大,标注工作占据了大家很多闲暇时间和休息时间,对此表达特别敬意! 同时,现在我们依然在招募志愿者,招募介绍 https://github.com/chatopera/efaqa-corpus-zh/wiki。 媒体报导52NLP: Emotional First Aid Dataset, 心理咨询问答语料库 开源社:上线!Chatopera 首发开源心理咨询对话语料库 声明声明 1:本数据集使用在线心理咨询数据清洗、脱敏和标注制作,数据及代码发布使用 GPL 3.0 许可协议。数据仅限于研究用途,如果在发布的任何媒体、期刊、杂志或博客等内容时,必须注明引用和地址。无授权商业用途,追究版权。 @online{efaqa-corpus-zh:petpsychology, author = {Hai Liang Wang, Zhi Zhi Wu, Jia Yuan Lang}, title = {派特心理:心理咨询问答语料库}, year = 2020, url = {https://github.com/chatopera/efaqa-corpus-zh}, urldate = {2020-04-22}} 声明 2:语料库为主观标注,鉴于心理咨询的严肃性和重要性,语料制作时尽可能保证数据的准确性,但是无法保证 100%准确,对于因数据内容不当产生的后果,本团队不承担任何法律责任。 Emotional First Aid Dataset, Chatopera Inc., https://github.com/chatopera/efaqa-corpus-zh, Apr. 22th, 2020 GPL 3.0 许可协议Emotional First Aid Dataset, only for Research.Copyright (C) 2020 北京华夏春松科技有限公司 https://chatopera.com This program is free software: you can redistribute it and/or modifyit under the terms of the GNU General Public License as published bythe Free Software Foundation, either version 3 of the License, or(at your option) any later version. This program is distributed in the hope that it will be useful,but WITHOUT ANY WARRANTY; without even the implied warranty ofMERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See theGNU General Public License for more details. You should have received a copy of the GNU General Public Licensealong with this program. If not, see http://www.gnu.org/licenses/. 联系我们获得更多数据用于研究或商业产品等事项 |
请发表评论