GAN 기반 Image Compression
동영상 압축 분야에서도 무어의 법칙(트랜지스터의 수가 2년에 2배씩 증가)과 같은 것이 있는데, 1993년 MPEG-1, 2003년 MPEG-4/AVC (H.264), 2013년 MPEG-H/HEVC (H.265)로 이어지는 10년 2배 압축률 증가 경향입니다. 참고로 이미지 압축의 경우,…
동영상 압축 분야에서도 무어의 법칙(트랜지스터의 수가 2년에 2배씩 증가)과 같은 것이 있는데, 1993년 MPEG-1, 2003년 MPEG-4/AVC (H.264), 2013년 MPEG-H/HEVC (H.265)로 이어지는 10년 2배 압축률 증가 경향입니다. 참고로 이미지 압축의 경우,…
MIT의 Speech2Face는 음성신호로부터 화자의 얼굴을 생성해내는 연구입니다. 다만 하나의 모델로 speech to face transform을 수행하는 것이 아니며, 다른 목적의 기존 연구 결과들을 잘 조합하여 인상적인 결과를 만들어냅니다. (제1 저자는 현재…
(자율주행차 등에 사용될) 도로 상황 인식 연구를 위해 만들어진 데이터셋 DriveSeg입니다. 동영상의 각 프레임에 대해, 이미지 전체를 pixel-by-pixel로 semantic labeling 한 것입니다. Label은 “vehicle, pedestrian, road, sidewalk, bicycle, motorcycle, building,…
락스타에서 만든 2011년작인 LA 느와르는 다른 게임보다 훨씬 우월한 수준의 얼굴 애니메이션이 적용되어 많은 사람들을 놀라게 했습니다. 이때 사용된 기술은 MotionScan이라고 불리는데, 기본적으로 여러대의 카메라가 정교하게 배치된 방 안에 배우가…
“Codec Avatar”라는 이름으로 진행되는 Facebook의 디지털 휴먼 프로젝트의 데모 영상이 공개되었습니다. 2019년 영상에 비해서 추가된 부분으로,아바타 외형이 좀 더 사실적으로 바뀌었고 마커 없이 몸 전체를 트래킹하는 기술을 보여줍니다. 2019년 3월…
이미지 한장을 입력으로 얼굴 표정을 바꾸는 애니메이션을 만들어주는 기술인 GANimation의 코드 저장소입니다. 기본적으로는 conditional GAN인데, 얼굴의 해부학적 움직임을 기술하기 위한 방법론인 FACS (facial action coding system)를 활용하였습니다. FACS에 따르면 우리…
일본의 Virtual Human Project인 Saya 프로젝트. 일본어로 되어 있어서 진척도를 전부 이해하지는 못했지만 비주얼적인 완성도는 상당히 높고, 표정도 자연스럽습니다. 향후 인간의 감정 추가, 행동 인식, 대화 등의 기능을 추가할 계획이라고…
애니메이션 캐릭터 이미지 데이터베이스인 Danbooru 2019 버전 링크를 소개합니다. 약 3.7백만개의 이미지가 있고 이미지당 약 29개의 tag가 붙어 있습니다. Tag의 예제로는 “1girl”, “solo”, “long_hair”, “highres”, “smile”, “open_mouth”와 같은 것들이 있어서…
인간의 감정 인지나 표현은 복합적인 것이 많은데 (예: 화내는 감정은 표정, 목소리, 언어에 모두 영향을 줌) 오디오-비디오가 함께 묶여 있으면서 감성 라벨링이 되어 있는 오픈 데이터셋을 하나 소개합니다. The Ryerson…