국립국어원이 인공지능 학습용 한국어 자료를 대규모(13종 18억 어절)로 공개했습니다. 저작권 문제를 해결하여 구축한 것이며 ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성, 승인을 받으면 누구나 파일을 내려받아 사용할 수 있다고 합니다.
이번에 구축한 자료에서는 지난 ‘21세기 세종계획’에 비해 일상 대화, 메신저, 웹 문서 등 구어체 자료의 비중을 높였다고 합니다. 이는 최근 인공지능 스피커, 챗봇 등의 대화형 서비스가 늘어나면서 구어체 대화에 대한 관심과 요구가 높아지고 있는 추세를 반영한 것입니다.
특히 일상 대화 자료의 경우 표준어 위주의 수집에서 한 단계 더 나아가 지역별, 연령별로 다양한 대화 자료를 수집하여 인공지능 기술에서 지역별 방언도 처리할 수 있는 발판을 마련하였다고 하니 여러 분야에서 유용하게 사용되면 좋겠습니다. 아래 링크는 데이터를 다운 받을 수 있는 “모두의 말뭉치” 사이트와, 공개 관련 뉴스 기사입니다.
국립국어원, 인공지능 학습용 한국어 자료 대규모 공개… ’13종 18억 어절′
국립국어원(원장 소강춘)은 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 13종 18억 어절 분량을 25일(화) 국립국어원 홈페이지 ‘모두의 말뭉치’에서 공개했다.공개한 자료는 한국어 분야의 빅데이터라고 할 수 있는 말뭉치(corpus)로 챗봇이나 인공지능 비서가 한국어를 자연스럽게 알아듣고 분석하여 말할 수 있으려면 반드시 다양한 한국어 말뭉치로 학습을 해야 하기 때문에 한국어 인공지능 기술의 성능 향상은 많은 양의 품질 좋은 한국어 말뭉치 확보에 달려 있다.이에 국립국어원은 ’18년부터 인공지능 산업계와 관련 연