在大规模语言模型的情况下,总是会遇到困难,因为没有朝鲜语模型,继SKT的KoBERT之后,Naver发行了KcBERT,该模型是从头开始学习的,其数据反映了Naver注释数据和新单词。除了训练的模型之外,还公开了用于训练的精确数据,并且可以通过HuggingFace轻松使用。
下面是Junbeom Lee发布的代码,以及指向培训中使用的数据的链接。 (李俊博的博客链接)
发布火车数据(v1)! ·Beomi / KcBERT
为了使下载到Kaggle的数据集更容易下载,我们在分割和压缩(每个2G / 2G / 0.6G)之后将其释放
(预训练数据集发布:https://www.kaggle.com/junbumlee/kcbert-pretraining-corpus-korean-news-comments)
下方的Kcbert-train.tar… 。
(预训练数据集发布:https://www.kaggle.com/junbumlee/kcbert-pretraining-corpus-korean-news-comments)
下方的Kcbert-train.tar… 。
根据代码介绍,存在许多基于BERT的朝鲜语模型,但大多数基于完善的数据,例如朝鲜语Wiki,新闻文章和书籍,而反映口语功能,新词,错别字等的模型出现在实际的门户评论中。不是。 KcBERT是一个模型,通过收集Naver注释和大注释来改进此方面,从而从头学习了标记器和模型。实际上,开放源代码的内容很多,但是由于与真实世界的差异,很多情况下我的表现无法发挥出来,我认为通过反映真实世界的数据创建的模型在实际应用中具有更高的价值。 。