Ubuntu对话框语料库| Smilegate.AI

建立允许人类与虚拟代理进行自然对话的对话系统在自然语言处理中是一项艰巨的任务，并且是进行大量研究的基础。

Ubuntu Dialogue Corpus由从Ubuntu聊天日志中提取的近一百万个两人对话组成，这些对话用于获得与Ubuntu相关的各种问题的技术支持。每次会话平均8轮，至少3轮。所有对话均以文本格式（非音频）完成。

完整的数据集包含930,000个会话和超过100,000,000个单词，可以在此处使用。该数据集包含分布在.csv文件中的该数据集的样本。该数据集包含超过2.96亿个单词的文本，分布了2600万次。

在客户支持（CS）领域，聊天机器人得到了广泛的使用，并且近年来，人们进行了许多尝试，将自然的对话技术融入基于规则的有限对话之外。它不是朝鲜语，但我认为它有助于发展相关研究领域的技能。这是在Kaggle上发布的数据的链接：

Ubuntu对话语料库

自然的两人对话产生2600万次转向

Ubuntu对话框语料库