我们分享了Joonhee Jo收集并标记的一组韩国亵渎数据。它是从多个社区收集的,似乎适合评估实际数据。以下是数据集的描述:
资料说明
这是韩文数据集,可对句子是否为亵渎进行分类。
在各种社区网站(例如Daily Best(Ilbe)和Today's Humor)上,共有5,825个句子被分类为评论。基于竖线符号(|),评论的内容记录在左侧,脏话是否为(0,1)记录在右侧。
资料资讯
- 简单的咒骂词,种族主义词,助长政治冲突的词,性和性别歧视词,贬低他人的词以及其他令人反感或被判定为辱骂的词
- 在伊尔贝(Ilbe)中,``否''的结尾是要讽刺已故总统卢武-的漫画,因此应将其视为侮辱,但由于很难将其与庆尚方言的``否''区别开来,因此仅带有``否''且没有其他亵渎性词语的句子是在滥用。未分类。
- 诸如``约翰·泰斯特''(John Taste)和``改德''(Gai-deuk)之类的单词具有亵渎性,因此可以将它们视为脏话,但近来它们通常被用作强调的意思,因此,如果被判断为简单的强调而没有恶意,则不会被归类为脏话。
- 根据情况,可能会或可能不会令人反感的评论将尽可能多地归类为不亵渎。
Joonhee Jo的github链接已共享:
另外,kocohub github存储库还公开了韩国亵渎数据。通过收集发布在娱乐新闻上的评论进行标记,数据详细信息如下:
资料说明
数据集包括三个部分:1)标记为2)未标记和3)news_title。
标记的
共有9,381条带有人工标签的评论。这些被分为7,896个训练集,471个验证集和974个测试集。 (为了公平地比较预测模型,尚未发布测试集标签。可以通过Kaggle提交的内容对模型进行评估,这将在本文档的后面进行讨论。)每个评论都针对存在社会偏见和仇恨表达的两个方面我评论了。仇恨言论与偏见密切相关。
对于社会偏见,我们会显示“性别”,“其他”和“没有偏见”标签。在韩国娱乐新闻的背景下,名人主要遇到性别刻板印象,因此我们更加重视普遍的偏见。此外,无论评论中是否包含性别偏见,我都添加了一个二进制标签。对于仇恨表达,我们引入了仇恨,侵略和无标签。
未贴标签
我们的标签数据有限,因此,我们还会为您提供2,033,893条未标签的评论。这些未标记的数据集可以通过多种方式使用,包括预学习语言模型,半监督学习等。
news_title
我们为每个评论发布新闻标题。您需要上下文来充分理解注释的含义。对于娱乐新闻,标题和内容都可以用作上下文。但是,由于法律问题,我们仅提供新闻文章标题。
这是指向kocohub上github仓库的链接: