Google이 공개한 MixIT AI는 복수개 음원이 믹싱된 싱글 채널 오디오로부터 분리된 음원을 얻는 기술입니다. Blind source separation task라고 볼 수 있는데, 기존 기술들과는 달리 unsupervised(!)로 우수한 성능을 낸다는 특징이 있습니다.
최근의 트렌드는 확실하네요. Unsupervised, self-supervised, semi-supervised, 이름은 조금씩 다르지만 결국 원하는 것은 라벨링된 데이터를 중규모 확보하는 대신, 라벨링되지 않은 데이터를 대규모로 사용하여 성능을 따라잡는 것. 그리고 거기에서 데이터를 더 추가하거나 극소량의 라벨링 데이터로 SOTA를 달성하는 것.
Google’s MixIT AI isolates speakers in audio recordings
In a new paper, researchers at Google describe an AI system that isolates speakers’ voices in audio recordings using an unsupervised approach.