국립국어원의 AI 학습용 한국어 데이터
국립국어원이 인공지능 학습용 한국어 자료를 대규모(13종 18억 어절)로 공개했습니다. 저작권 문제를 해결하여 구축한 것이며 ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성, 승인을 받으면 누구나 파일을 내려받아 사용할 수 있다고 합니다. 이번에…
국립국어원이 인공지능 학습용 한국어 자료를 대규모(13종 18억 어절)로 공개했습니다. 저작권 문제를 해결하여 구축한 것이며 ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성, 승인을 받으면 누구나 파일을 내려받아 사용할 수 있다고 합니다. 이번에…
특수 훈련을 받으면 입술 움직임만으로 무슨 말 하는지 알 수 있다고 하는 이야기를 들은 적이 있는데요, 링크글의 연구는 이것을 AI로 실현한 것입니다^^ Lip2Wav라고 불리는 이 기술은 이미지로부터 ConvNet을 이용하여 feature를…
대규모 언어 모델의 경우 한국어 모델이 없어 항상 어려운 점이 있었는데 SKT의 KoBERT에 이어 Naver에서 네이버 댓글 데이터, 신조어 등을 반영한 데이터로 바닥부터 학습한 KcBERT를 공개했습니다. 학습된 모델 뿐 아니라…
Visual Dialog task는 질의 응답으로 이루어지는 Q&A task에 이미지를 추가한 멀티모달 task입니다. 예를 들어 흰색 고양이와 검은색 강아지가 함께 있는 사진을 주고 “고양이 옆 동물은 무슨 색이야?”라고 물어보면 “검은색”하고 대답하는…
게임 제작 쪽에서는 이미 많이 활용하고 있는 Adobe Mixamo 사이트 링크 공유합니다. 들어가보면 3D 캐릭터 121개와 캐릭터 모션 2484개가 올라와 있고, (Autodesk) FBX라는 3D 포맷으로 다운받을 수 있습니다. 이 포맷은…
Text-to-SQL은 자연어를 SQL로 자동 변환하는 Task입니다. 하단에 공유한 글은 Microsoft 소속의 Aerin Kim이 작성한 글인데, Text-to-SQL에 대해서 잘 정리되어 있습니다. 세상에는 수 많은 데이터들이 Relational Database로 구축되어 있고, 이 Database에서…
(자율주행차 등에 사용될) 도로 상황 인식 연구를 위해 만들어진 데이터셋 DriveSeg입니다. 동영상의 각 프레임에 대해, 이미지 전체를 pixel-by-pixel로 semantic labeling 한 것입니다. Label은 “vehicle, pedestrian, road, sidewalk, bicycle, motorcycle, building,…
현재까지 제안된 많은 MRC 모델들이 다양한 Task와 Dataset에서 인간의 능력을 넘어선 평가값을 보여주고 있지만, 주어진 context에 대해서 인간보다 더 잘 이해하는 것인가?라는 질문을 받는다면 쉽게 YES라고 말하기 어렵다고 생각합니다. 우선,…