PapersWithCode의 한국어 데이터셋

AI 분야의 다양한 논문들 및 연계된 오픈 소스, 그리고 SOTA에 대한 정보를 제공하는 paperswithcode에서는 3천개가 넘는 유용한 데이터셋 링크를 함께 제공하고 있습니다. 이 중 텍스트에 대한 데이터셋은 851종이며, 한국어로 한정할 경우 아래의 데이터셋 링크들이 검색됩니다:

Dataset Name	Description
Universal Dependencies	다양한 언어들의 문법과 모폴로지를 라벨링해 놓은 데이터셋 (총 104개 언어)
OpenSubtitles	영화와 TV 콘텐츠에 대한 다국어 자막 데이터셋 (총 60개 언어)
PAWS-X	다국어 번역 데이터셋 (총 6개 언어)
KorQuAD	한국어 질의 응답 데이터셋
WikiAnn	위키피디아에 기반한 다국어 라벨링 데이터셋 (총 295개 언어)
GeoCoV19	트위터에서 수집된 대규모 텍스트 데이터셋으로 지리적 위치나 장소를 포함하고 있는 것이 특징
KorNLI	자연어 추론을 목적으로 만들어진 한국어 데이터셋
KorSTS	문장 유사도 평가를 목적으로 만들어진 한국어 데이터셋
MKQA	다국어 지식 질의 응답 데이터셋 (총 26개 언어)
ClovaCall	전화 상담 내용이 담겨 있는 대규모 한국어 음성 데이터셋
Wikipedia Title	한국어, 중국어, 일본어로 라벨링된 위키피디아 제목 데이터셋
WikiLingua	글과 이에 대한 요약문이 함께 페어링되어 있는 데이터셋 (총 18개 언어)
JIT Dataset	제주도 방언과 표준어를 포함한 데이터셋
JSS Dataset	제주도 음성 데이터셋 (단일 화자)
Korean HateSpeech Dataset	혐오 표현 라벨링이 되어 있는 엔터테인먼트 뉴스 코멘트 데이터셋
Mega-COV	코로나19를 연구하기 위해 트위터에서 대규모로 수집된 데이터셋
NSMC	한국어 영화 리뷰 데이터셋

다음은 PapersWithCode의 한국어 데이터셋 리스트 링크입니다:

Papers with Code – Machine Learning Datasets

18 datasets • 40905 papers with code.

PapersWithCode의 한국어 데이터셋

Related Posts