기존 영어 위주로 연구되던 언어 모델 및 번역 모델을 다국어로 확장하려는 시도가 많이 이루어지고 있습니다. Google의 mT5는 기존 T5 (text-to-text transfer transformer)를 다국어 코퍼스로 확장한 연구로서, 총 101개국 언어를 포함한 데이터를 수집하고, 이를 이용하여 학습함으로써 cross-lingual language task에서 성능 개선을 이루었습니다. 코드 뿐 아니라 학습 스크립트, 학습된 모델이 함께 공개된 github 링크 공유합니다.
google-research/multilingual-t5
Contribute to google-research/multilingual-t5 development by creating an account on GitHub.
한편, Facebook에서는 100개국어의 상호 번역이 가능한 기술인 M2M-100을 공개하였습니다. 특히, 기존 다국어 번역의 경우 일단 영어로 번역하는 과정을 거치는 것이 일반적이었는데, 이러한 점을 개선하여 원 언어와 목적 언어간 직접 번역이 가능하도록 한 것이 특징입니다. 이러한 과정을 통해 예를 들어 중국어에서 프랑스어로 번역하는 경우 BLEU를 10점 이상 개선할 수 있었다고 합니다. 참고로, M2M-100은 총 2,200 언어 조합에 대해 학습이 되었다고 합니다. 다음은 이에 관한 아티클 링크와 github 링크입니다.
Introducing the First AI Model That Translates 100 Languages Without Relying on English – About Facebook
Facebook AI is introducing M2M-100, the first multilingual machine translation model that can translate between any pair of 100 languages without relying on English data.
pytorch/fairseq
Facebook AI Research Sequence-to-Sequence Toolkit written in Python. – pytorch/fairseq