SpeechCode Wav2Lip: 음성으로부터 입술 모양 생성

FastSpeech2 Open Source

Tacotron2, MelGan, FastSpeech등 여러 최신 TTS 모델을 지원하는 Tensorflow 2 기반의 오픈소스인 TensorflowTTS가 드디어 Microsoft FastSpeech2를 지원하기 시작했습니다. FastSpeech2는 Transformer 계열의 TTS와 유사한 성능을 보이지만 학습에 걸리는 시간이 2배 이상…

Speech Wav2Lip: 음성으로부터 입술 모양 생성

Google MixIT AI – 비지도 학습 음원 분리

Google이 공개한 MixIT AI는 복수개 음원이 믹싱된 싱글 채널 오디오로부터 분리된 음원을 얻는 기술입니다. Blind source separation task라고 볼 수 있는데, 기존 기술들과는 달리 unsupervised(!)로 우수한 성능을 낸다는 특징이 있습니다.…

SpeechCode Wav2Lip: 음성으로부터 입술 모양 생성

Wav2Vec 2.0 공개 – 10분 음성으로 ASR 만들기

53,000시간의 라벨링 없는 데이터로 representation training을 한 후, 10분 분량의 라벨링 된 데이터만으로 음성인식기를 만들어낸다고 해서 화제가 되었던 Facebook의 wav2vec 2.0에 대한 pre-trained model이 공개가 되었습니다. Representation model에 no fine-tuning,…