AI 분야의 다양한 논문들 및 연계된 오픈 소스, 그리고 SOTA에 대한 정보를 제공하는 paperswithcode에서는 3천개가 넘는 유용한 데이터셋 링크를 함께 제공하고 있습니다. 이 중 텍스트에 대한 데이터셋은 851종이며, 한국어로 한정할 경우 아래의 데이터셋 링크들이 검색됩니다:
Dataset Name | Description |
Universal Dependencies | 다양한 언어들의 문법과 모폴로지를 라벨링해 놓은 데이터셋 (총 104개 언어) |
OpenSubtitles | 영화와 TV 콘텐츠에 대한 다국어 자막 데이터셋 (총 60개 언어) |
PAWS-X | 다국어 번역 데이터셋 (총 6개 언어) |
KorQuAD | 한국어 질의 응답 데이터셋 |
WikiAnn | 위키피디아에 기반한 다국어 라벨링 데이터셋 (총 295개 언어) |
GeoCoV19 | 트위터에서 수집된 대규모 텍스트 데이터셋으로 지리적 위치나 장소를 포함하고 있는 것이 특징 |
KorNLI | 자연어 추론을 목적으로 만들어진 한국어 데이터셋 |
KorSTS | 문장 유사도 평가를 목적으로 만들어진 한국어 데이터셋 |
MKQA | 다국어 지식 질의 응답 데이터셋 (총 26개 언어) |
ClovaCall | 전화 상담 내용이 담겨 있는 대규모 한국어 음성 데이터셋 |
Wikipedia Title | 한국어, 중국어, 일본어로 라벨링된 위키피디아 제목 데이터셋 |
WikiLingua | 글과 이에 대한 요약문이 함께 페어링되어 있는 데이터셋 (총 18개 언어) |
JIT Dataset | 제주도 방언과 표준어를 포함한 데이터셋 |
JSS Dataset | 제주도 음성 데이터셋 (단일 화자) |
Korean HateSpeech Dataset | 혐오 표현 라벨링이 되어 있는 엔터테인먼트 뉴스 코멘트 데이터셋 |
Mega-COV | 코로나19를 연구하기 위해 트위터에서 대규모로 수집된 데이터셋 |
NSMC | 한국어 영화 리뷰 데이터셋 |
다음은 PapersWithCode의 한국어 데이터셋 리스트 링크입니다: