스마일게이트 AI 센터는 지난 28일 악플 및 혐오 발언 데이터셋 ‘UnSmile’ 데이터셋을 깃허브 페이지에 공개하였습니다.
최근 혐오 표현이 온라인 공간에서 광범위하게 증가하고 있고, 사회적 문제로 이어질 수 있다는 점을 고려해 혐오 표현을 선제적으로 감지하고 대응할 수 있도록 악플 및 혐오 발언 데이터 셋을 구축한 것입니다.
악플 및 혐오 발언 데이터는 지난 2019년 1월 1일부터 2021년 7월 1일까지 기간 동안 포털 사이트, 커뮤니티 등 다양한 웹사이트의 게시글을 대상으로 수집했으며, 수집 과정에서 혐오 관련 데이터의 시의성과 편향성을 띠고 있는 특성을 감안하여, 약 55만여 개의 데이터를 기반으로 1만 개의 데이터셋을 구축했습니다.
이 데이터는 국가인권위원회에서 2016년에 진행한 <혐오표현 실태조사 및 규제 방안 연구> 및 2019년 <혐오차별 국민인식조사>에서 분류한 집단을 참고하였고, 향후 지속적인 R&D를 실시하면서 확보된 기술력을 바탕으로 혐오 표현을 보다 높은 정확도로 정확하게 찾아낼 수 있는 기술을 고도화할 계획입니다.
향후 다양한 영역에서 활용될 수 있을 것으로 기대하며, 자세한 소식은 홍보 영상 및 깃허브 페이지를 통해 확인하실 수 있습니다.
UnSmile 데이터셋 홍보 영상 : https://www.youtube.com/watch?v=XmCnlcnzWtQ
데이터 공개 링크 : https://github.com/smilegate-ai/korean_unsmile_dataset