대규모 언어 모델의 경우 한국어 모델이 없어 항상 어려운 점이 있었는데 SKT의 KoBERT에 이어 Naver에서 네이버 댓글 데이터, 신조어 등을 반영한 데이터로 바닥부터 학습한 KcBERT를 공개했습니다. 학습된 모델 뿐 아니라 학습에 사용된 정제된 데이터도 공개되었으며, HuggingFace를 통해 간편하게 사용해 볼 수 있습니다.
아래는 이준범님이 공개한 코드와 학습에 사용된 데이터 링크입니다. (이준범님 블로그 링크)
Beomi/KcBERT
🤗 Pretrained BERT model & WordPiece tokenizer trained on Korean Comments 한국어 댓글로 프리트레이닝한 BERT 모델 – Beomi/KcBERT
Release Train Data(v1) Release! · Beomi/KcBERT
Kaggle에 공개했던 데이터셋을 좀 더 다운로드 받기 쉽게 하기 위해 분할 압축(각각 2G/2G/0.6G)해 릴리즈합니다 🙂
( Pretrain Dataset 공개: https://www.kaggle.com/junbumlee/kcbert-pretraining-corpus-korean-news-comments )
아래 kcbert-train.tar….
( Pretrain Dataset 공개: https://www.kaggle.com/junbumlee/kcbert-pretraining-corpus-korean-news-comments )
아래 kcbert-train.tar….
코드 소개에 따르면, 기존에도 BERT에 기반한 한국어 언어 모델들은 많이 있었지만 대부분 한국어 위키, 뉴스 기사, 책 등 잘 정제된 데이터를 기반으로 한 반면, 실제 포털 댓글 등에서 나타나는 구어체 특징, 신조어, 오탈자 등을 반영한 모델은 없었습니다. KcBERT는 이러한 측면을 개선하기 위해서 네이버 댓글과 대댓글을 수집하여 토크나이저와 모델을 처음부터 학습한 모델입니다. 사실 오픈 소스로 공개된 내용들은 많지만 real-world와의 차이 때문에 실제 적용해 보면 제 성능이 나오지 않는 경우가 많은데, 이렇게 real-world 데이터를 반영하여 만들어진 모델은 실제 적용 측면에서 그 가치가 더 높다고 생각합니다.