NLP Dataset과 Evaluation metric을 쉽게 사용할 수 있게 해 주는 Huggingface Datasets 라이브러리의 첫 번째 stable version 1.0이 공개되었습니다. 현재 약 100개의 Dataset과 각 Dataset에 맞는 Evaluation metric(약 10개)을 지원합니다.
유사한 목적으로 만들어진 Tensorflow Datasets를 fork하여 만들어져서 많은 부분 유사하지만 TFRecord 대신 Apache Arrow를 사용하여 cross-platform으로 사용 가능합니다. Numpy, Pandas, PyTorch, Tensorflow 2를 지원한다고 하네요.
Online data browser도 지원해서 각 Dataset의 내용을 간단하게 살펴볼 수도 있네요. 또한, 기존 Huggingface가 지원하는 다양한 모델들과의 조합으로 대단한 시너지를 낼 것 같습니다.
huggingface/datasets
🤗 Fast, efficient, open-access datasets and evaluation metrics for Natural Language Processing and more in PyTorch, TensorFlow, NumPy and Pandas – huggingface/datasets