SpeechCode Lip2Wav: 입술 움직임만으로 음성 신호를 생성

FastSpeech2 Open Source

Tacotron2, MelGan, FastSpeech등 여러 최신 TTS 모델을 지원하는 Tensorflow 2 기반의 오픈소스인 TensorflowTTS가 드디어 Microsoft FastSpeech2를 지원하기 시작했습니다. FastSpeech2는 Transformer 계열의 TTS와 유사한 성능을 보이지만 학습에 걸리는 시간이 2배 이상…

Speech Lip2Wav: 입술 움직임만으로 음성 신호를 생성

Google MixIT AI – 비지도 학습 음원 분리

Google이 공개한 MixIT AI는 복수개 음원이 믹싱된 싱글 채널 오디오로부터 분리된 음원을 얻는 기술입니다. Blind source separation task라고 볼 수 있는데, 기존 기술들과는 달리 unsupervised(!)로 우수한 성능을 낸다는 특징이 있습니다.…