InteractionData HuggingFace Datasets 1.0

HuggingFace Datasets 1.0

NLP Dataset과 Evaluation metric을 쉽게 사용할 수 있게 해 주는 Huggingface Datasets 라이브러리의 첫 번째 stable version 1.0이 공개되었습니다. 현재 약 100개의 Dataset과 각 Dataset에 맞는 Evaluation metric(약 10개)을 지원합니다.…

Data HuggingFace Datasets 1.0

국립국어원의 AI 학습용 한국어 데이터

국립국어원이 인공지능 학습용 한국어 자료를 대규모(13종 18억 어절)로 공개했습니다. 저작권 문제를 해결하여 구축한 것이며 ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성, 승인을 받으면 누구나 파일을 내려받아 사용할 수 있다고 합니다. 이번에…

InteractionData HuggingFace Datasets 1.0

기계독해 (MRC) Task와 Dataset 정리

현재까지 제안된 많은 MRC 모델들이 다양한 Task와 Dataset에서 인간의 능력을 넘어선 평가값을 보여주고 있지만, 주어진 context에 대해서 인간보다 더 잘 이해하는 것인가?라는 질문을 받는다면 쉽게 YES라고 말하기 어렵다고 생각합니다. 우선,…