Huggingface数据集库的第一个稳定版本1.0已发布,使使用NLP数据集和评估指标变得容易。当前,支持约100个数据集和每个数据集的评估指标(约10个)。
它是通过分叉出于类似目的而创建的Tensorflow数据集而制成的,因此它在许多部分都相似,但是可以使用Apache Arrow代替TFRecord用作跨平台。它支持Numpy,Pandas,PyTorch和Tensorflow 2。
还支持在线数据浏览器,因此您可以轻松查看每个数据集的内容。此外,与现有的Huggingface支持的各种模型的组合似乎可以产生巨大的协同作用。