53,000시간의 라벨링 없는 데이터로 representation training을 한 후, 10분 분량의 라벨링 된 데이터만으로 음성인식기를 만들어낸다고 해서 화제가 되었던 Facebook의 wav2vec 2.0에 대한 pre-trained model이 공개가 되었습니다.
Representation model에 no fine-tuning, 10분, 100시간, 960시간 fine-tuning을 한 버전이 각각 릴리즈 되었습니다. 아마도 주요 관심사 중 하나는 한국어 적용일텐데요, 대규모의 데이터 없이도 우수한 성능이 나온다고 하니 기대가 많이 됩니다. 이제 음성 인식 기술도 보편화의 길을 걷게 되는 것이 아닐까 생각해 봅니다.
관련 paper는 아래 링크로 공유한 “wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations”입니다.
audio alone followed by fine-tuning on transcribed speech can outperform the
best semi-supervised methods while being conceptually simpler. wav2vec 2.0
masks the speech input in the latent space and solves a contrastive ta…
기본적으로 라벨링이 되어 있지 않은 대량의 데이터로 representation 학습을 하고, 추후에 소량의 라벨링된 데이터로 fine tuning 함으로써 음성 인식기를 완성합니다. wav2vec 2.0은 기존 wav2vec에 비해서 transformer 구조를 차용하여 성능을 더 높였다고 합니다. 공개된 실험 결과를 보면 53,000시간(!)의 라벨링 없는 데이터로 representation training을 하고, 10분(평균 12.5초 x 40문장)의 라벨링 된 데이터로 추가 학습을 함으로써 LibriSpeech에 대해 WER 5.7 (clean) / 10.1 (noisy) 수준을 보였다고 합니다. 40문장 읽으면 음성 인식기가 뚝딱이라니.. 대단하네요. (LibriSpeech 학습 데이터 전부를 쓰면 WER 1.9 / 3.5)
라벨링이 음성인식기를 만드는데 있어 주요 허들임을 감안한다면, 참 여러모로 의미 있는 연구가 아닐 수 없습니다. 아래 링크들은 각각 Wav2Vec 2.0 github와 VectureBeat에 올라왔던 아티클입니다.