Paperswithcode提供有关AI,链接的开源和SOTA领域的各种论文的信息,并提供了3,000多个有用数据集的链接。其中,有851个文本数据集,并且如果限制为韩文,则搜索以下数据集链接:
数据集名称 | 描述 |
普遍依赖 | 各种语言的语法和词法标记的数据集(总共104种语言) |
Open字幕 | 电影和电视内容的多语言字幕数据集(总共60种语言) |
PAWS-X | 多语言翻译数据集(总共6种语言) |
科尔卡 | 韩国问答数据集 |
维基百科 | 基于维基百科的多语言标签数据集(共295种语言) |
GeoCoV19 | 从Twitter收集的大规模文本数据集,具有地理位置或位置。 |
科尔尼 | 创建用于自然语言推理的韩文数据集 |
KorSTS | 创建韩文数据集以评估句子相似度 |
MKQA | 多语言知识问答数据库(共26种语言) |
ClovaCall | 包含电话咨询内容的大规模韩语音频数据集 |
维基百科标题 | 以韩文,中文和日文标记的维基百科标题数据集 |
维基百科 | 文章和摘要配对在一起的数据集(总共18种语言) |
JIT数据集 | 数据集包括济州岛方言和标准语言 |
JSS数据集 | 济州岛语音数据集(单个扬声器) |
韩国HateSpeech数据集 | 带有仇恨言论标签的娱乐新闻评论数据集 |
巨型COV | 在Twitter上大规模收集数据集以研究COVID-19 |
NSMC | 韩国电影评论数据集 |
这是PapersWithCode的韩国数据集列表的链接: