MLP Singer
[선행연구팀 유희조] TTS(text-to-speech)는 임의의 텍스트를 넣었을 때 해당 텍스트를 특정한 목소리의 음성으로 변환하여 산출하는 기술입니다. Google이 Tacotron 시리즈를 발표한 이후 HMM(hidden Markov model) 기반에서 딥러닝 기반으로 빠르게 전환되었으며 현재 상용…
[선행연구팀 유희조] TTS(text-to-speech)는 임의의 텍스트를 넣었을 때 해당 텍스트를 특정한 목소리의 음성으로 변환하여 산출하는 기술입니다. Google이 Tacotron 시리즈를 발표한 이후 HMM(hidden Markov model) 기반에서 딥러닝 기반으로 빠르게 전환되었으며 현재 상용…
[서비스개발팀 권은지] 어릴 적 상상화를 그림 그리면 우주 공간에 있는 로봇이 단골 소재였습니다. 돌아보면 만화에서(은하철도 999) 기차를 움직이는 인공지능 컴퓨터 기장에서부터 최근 개봉한 휴먼 노이드 영화들까지 미디어에서 인공지능은 하나의 중요한…
[서비스개발팀 김병인] 최근 진행된 구글의 최신기술을 선보이는 행사인 구글 I/O 2021에서는 안드로이드, 웹, 인공지능, 크롬등 다양한 기술과 서비스, 플랫폼 서비스를 공개했습니다. 많은 기술들중 최고의 화두는 이번에 발표한 LaMDA (구글의 언어…
Tensorflow Lite는 Tensorflow로 학습된 AI 모델들을 모바일 기기에서 동작시킬 수 있도록 해 주는 도구들을 포함하고 있는 소프트웨어 패키지입니다. 현재 40억개 이상의 기기에서 동작하고 있다고 합니다. 기본적으로 학습된 모델을 Tensorflow Lite…
Google Lyra는 생성 모델에 기반한 새로운 음성 압축 방식으로서, 기존 음성 압축 방식들이 원본 수준의 음질, 즉 transparent quality를 얻기 위해 약 8-16kbps 정도가 필요한 것을 크게 향상시켜서 3kbps의 낮은…
통합 자연어 처리 패키지로 유명한 HuggingFace에 음성 인식 기능이 추가되었습니다. 다음은 관련 링크입니다: 구체적으로 Facebook이 개발한 Wav2Vec 2.0이 추가되었는데, Wav2Vec 2.0은 대량의 라벨링 없는 데이터로 unsupervised learning을 먼저 하고, 매우…
Interspeech 2020에 발표되었던 Facebook의 실시간 잡음 제거 기술인 denoiser의 github 링크를 공유합니다. Pytorch로 구현되어 있으며 원 논문 제목은 “Real Time Speech Enhancement in the Waveform Domain”입니다. 제목에서 알 수 있듯이…
코로나19가 전세계적으로 아직 진정될 기미를 보이지 않고 있습니다. MIT에서는 핸드폰으로 녹음한 기침소리로부터 코로나19 감염 여부를 확인할 수 있는 AI 모델을 학습하였고, 이에 대한 방법론과 실험 결과를 논문으로 발표하였습니다. 실험 결과에…