조준희님이 수집하여 라벨링한 한국어 욕설 데이터 세트를 공유합니다. 여러 커뮤니티에서 수집된 것으로서, 실세계 데이터에 대한 평가용으로 적합한 것 같습니다. 아래는 데이터 세트에 대한 설명입니다:
Data Description
문장의 욕설 여부를 분류한 한글 데이터셋입니다.
일간베스트(일베), 오늘의 유머와 같은 각종 커뮤니티 사이트의 댓글에 대해 총 5,825문장을 분류했습니다. 수직선 기호( | )를 기준으로 좌측에는 댓글 내용, 우측에는 욕설 여부(0,1)가 기록되어 있습니다.
Data Information
- 단순 욕설, 인종 차별적인 말, 정치적 갈등을 조장하는 말, 성적·성차별적인 말, 타인을 비하하는 말, 그 외에 불쾌감을 주거나 욕설로 판단되는 말
- 일베에서 흔히 말 끝에 ‘-노’를 붙이는 것은 고 노무현 대통령을 희화화하기 위한 의도이므로 욕설로 봐야 하지만 경상도 사투리 ‘-노’와 구분하기 어렵다는 점에서 다른 욕설 없이 ‘-노’만 붙인 문장들은 욕설로 분류하지 않았습니다.
- ‘존맛’, ‘개이득’ 등의 말은 비속어를 포함하고 있으므로 욕설이라 볼 수 있으나 최근에는 강조의 의미로 흔히 쓰이고 있으므로 악의가 없는 단순 강조의 의미로 쓰였다고 판단될 경우 욕설로 분류하지 않았습니다.
- 상황에 따라 욕일 수도 있고, 아닐 수도 있는 댓글은 최대한 비욕설로 구분했습니다
조준희님이 공개한 github 링크 공유합니다:
또한, kocohub github 저장소에서도 한국어 욕설 데이터를 공개하고 있습니다. 엔터테인먼트 뉴스에 달린 댓글들을 수집하여 라벨링된 것으로서, 데이터 상세는 다음과 같습니다:
Data Description
데이터 세트는 1) labeled 2) unlabeled 및 3) news_title의 세 부분으로 구성됩니다.
labeled
총 9,381개의 인간 라벨이 붙은 댓글이 있습니다. 이들은 7,896개의 훈련 세트, 471개의 검증 세트 및 974개의 테스트 세트로 나뉩니다. (예측 모델의 공정한 비교를 위해 테스트 세트 레이블을 공개하지 않았습니다. 모델은 이 문서의 뒷부분에서 설명할 Kaggle 제출을 통해 평가할 수 있습니다.) 각 의견은 사회적 편견의 존재와 증오심 표현의 두 가지 측면에 대해 주석을 달았습니다. 증오심 표현은 편견과 밀접한 관련이 있습니다.
사회적 편견의 경우 성별, 기타 및 편향 없음 레이블을 제시합니다. 유명 인사들이 주로 성별과 얽힌 고정 관념을 접하는 한국 연예 뉴스의 맥락을 고려할 때 우리는 널리 퍼진 편견에 더 비중을 둡니다. 또한 댓글에 성별 편견이 포함되어 있는지 여부에 관계없이 바이너리 라벨을 추가했습니다. 증오심 표현의 경우 증오, 공격적, 없음 레이블을 도입합니다.
unlabeled
라벨이 지정된 데이터가 제한되어 있으므로 라벨이 없는 댓글 2,033,893 개를 추가로 제공합니다. 라벨이 없는 이 데이터 세트는 사전 학습 언어 모델, 준지도 학습 등 다양한 방식으로 사용할 수 있습니다.
news_title
각 댓글에 대한 뉴스 제목을 공개합니다. 주석의 의미를 완전히 이해하려면 컨텍스트가 필요합니다. 엔터테인먼트 뉴스의 경우 제목과 내용을 모두 컨텍스트로 사용할 수 있습니다. 단, 법적 문제로 인해 뉴스 기사 제목만 제공합니다.
다음은 kocohub의 github 저장소 링크입니다: