Pixar의 Super Resolution 기술과 그 응용사례
딥러닝 기반의 super resolution 기술은 NVidia의 최신 GPU에서 DLSS(deep learning super sampling)라는 이름으로 채용되어 consumer 대상으로 실 서비스되는 기술이 되었는데요, 주로 4K 게이밍 시장에서 4K 렌더링의 비용을 낮추기 위해 2K…
딥러닝 기반의 super resolution 기술은 NVidia의 최신 GPU에서 DLSS(deep learning super sampling)라는 이름으로 채용되어 consumer 대상으로 실 서비스되는 기술이 되었는데요, 주로 4K 게이밍 시장에서 4K 렌더링의 비용을 낮추기 위해 2K…
LipGan은 음성 신호로부터 입 모양을 생성하는 연구입니다. 가상 캐릭터의 입 애니메이션을 만들어내는데 유용하게 사용될 수 있는 기술이지만, 실제로 적용해 보면 가만히 있는 캐릭터의 입술만 움직이기 때문에 한계가 명확합니다. 실제로 인간이…
Tacotron2, MelGan, FastSpeech등 여러 최신 TTS 모델을 지원하는 Tensorflow 2 기반의 오픈소스인 TensorflowTTS가 드디어 Microsoft FastSpeech2를 지원하기 시작했습니다. FastSpeech2는 Transformer 계열의 TTS와 유사한 성능을 보이지만 학습에 걸리는 시간이 2배 이상…
Text-to-SQL은 자연어를 SQL로 자동 변환하는 Task입니다. 하단에 공유한 글은 Microsoft 소속의 Aerin Kim이 작성한 글인데, Text-to-SQL에 대해서 잘 정리되어 있습니다. 세상에는 수 많은 데이터들이 Relational Database로 구축되어 있고, 이 Database에서…
MIT의 Speech2Face는 음성신호로부터 화자의 얼굴을 생성해내는 연구입니다. 다만 하나의 모델로 speech to face transform을 수행하는 것이 아니며, 다른 목적의 기존 연구 결과들을 잘 조합하여 인상적인 결과를 만들어냅니다. (제1 저자는 현재…
53,000시간의 라벨링 없는 데이터로 representation training을 한 후, 10분 분량의 라벨링 된 데이터만으로 음성인식기를 만들어낸다고 해서 화제가 되었던 Facebook의 wav2vec 2.0에 대한 pre-trained model이 공개가 되었습니다. Representation model에 no fine-tuning,…
락스타에서 만든 2011년작인 LA 느와르는 다른 게임보다 훨씬 우월한 수준의 얼굴 애니메이션이 적용되어 많은 사람들을 놀라게 했습니다. 이때 사용된 기술은 MotionScan이라고 불리는데, 기본적으로 여러대의 카메라가 정교하게 배치된 방 안에 배우가…
이미지 한장을 입력으로 얼굴 표정을 바꾸는 애니메이션을 만들어주는 기술인 GANimation의 코드 저장소입니다. 기본적으로는 conditional GAN인데, 얼굴의 해부학적 움직임을 기술하기 위한 방법론인 FACS (facial action coding system)를 활용하였습니다. FACS에 따르면 우리…
AI 챗봇이 주로 하는 일은 상품 정보 설명, 스케줄 알려주기, 날씨 확인 등 질의 응답이라고 할 수 있습니다. 아마도 이러한 기술이 극대화 되면 ‘지식’이라는 인간의 일부 분야에 대해서 ‘Super Human…