NLP Dataset๊ณผ Evaluation metric์ ์ฝ๊ฒ ์ฌ์ฉํ ์ ์๊ฒ ํด ์ฃผ๋ Huggingface Datasets ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ฒซ ๋ฒ์งธ stable version 1.0์ด ๊ณต๊ฐ๋์์ต๋๋ค. ํ์ฌ ์ฝ 100๊ฐ์ Dataset๊ณผ ๊ฐ Dataset์ ๋ง๋ Evaluation metric(์ฝ 10๊ฐ)์ ์ง์ํฉ๋๋ค.
์ ์ฌํ ๋ชฉ์ ์ผ๋ก ๋ง๋ค์ด์ง Tensorflow Datasets๋ฅผ forkํ์ฌ ๋ง๋ค์ด์ ธ์ ๋ง์ ๋ถ๋ถ ์ ์ฌํ์ง๋ง TFRecord ๋์ Apache Arrow๋ฅผ ์ฌ์ฉํ์ฌ cross-platform์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค. Numpy, Pandas, PyTorch, Tensorflow 2๋ฅผ ์ง์ํ๋ค๊ณ ํ๋ค์.
Online data browser๋ ์ง์ํด์ ๊ฐ Dataset์ ๋ด์ฉ์ ๊ฐ๋จํ๊ฒ ์ดํด๋ณผ ์๋ ์๋ค์. ๋ํ, ๊ธฐ์กด Huggingface๊ฐ ์ง์ํ๋ ๋ค์ํ ๋ชจ๋ธ๋ค๊ณผ์ ์กฐํฉ์ผ๋ก ๋๋จํ ์๋์ง๋ฅผ ๋ผ ๊ฒ ๊ฐ์ต๋๋ค.