建立允许人类与虚拟代理进行自然对话的对话系统在自然语言处理中是一项艰巨的任务,并且是进行大量研究的基础。
Ubuntu Dialogue Corpus由从Ubuntu聊天日志中提取的近一百万个两人对话组成,这些对话用于获得与Ubuntu相关的各种问题的技术支持。每次会话平均8轮,至少3轮。所有对话均以文本格式(非音频)完成。
完整的数据集包含930,000个会话和超过100,000,000个单词,可以在此处使用。该数据集包含分布在.csv文件中的该数据集的样本。该数据集包含超过2.96亿个单词的文本,分布了2600万次。
- 文件夹:这是对话出现的文件夹。每个文件在一个文件夹中包含对话。
- dialogID:特定对话的ID号。对话ID可在多个文件夹中重复使用。
- date:发送对话的时间戳。
- 来自:发送对话的用户
- 收件人:做出回应的用户。在对话的第一轮,此字段为空。
- 文字:对话文字,用双引号(“)分隔。换行符(\ n)已被删除。
在客户支持(CS)领域,聊天机器人得到了广泛的使用,并且近年来,人们进行了许多尝试,将自然的对话技术融入基于规则的有限对话之外。它不是朝鲜语,但我认为它有助于发展相关研究领域的技能。这是在Kaggle上发布的数据的链接: