Google MixNet과 구현 친화도
일반적으로 이미지에서 사용되는 convolution은 3D operation입니다. (KxKxC; K=커널크기, C=채널수) 이것을 KxKx1의 2D operation 복수개로 분할하여 적용한 후, 채널 방향으로 1x1xC 크기로 convolution을 적용하는 depthwise separable convolution은 파라미터 수를 엄청나게 감소시킵니다.…
일반적으로 이미지에서 사용되는 convolution은 3D operation입니다. (KxKxC; K=커널크기, C=채널수) 이것을 KxKx1의 2D operation 복수개로 분할하여 적용한 후, 채널 방향으로 1x1xC 크기로 convolution을 적용하는 depthwise separable convolution은 파라미터 수를 엄청나게 감소시킵니다.…
LipGan은 음성 신호로부터 입 모양을 생성하는 연구입니다. 가상 캐릭터의 입 애니메이션을 만들어내는데 유용하게 사용될 수 있는 기술이지만, 실제로 적용해 보면 가만히 있는 캐릭터의 입술만 움직이기 때문에 한계가 명확합니다. 실제로 인간이…
Visual Dialog task는 질의 응답으로 이루어지는 Q&A task에 이미지를 추가한 멀티모달 task입니다. 예를 들어 흰색 고양이와 검은색 강아지가 함께 있는 사진을 주고 “고양이 옆 동물은 무슨 색이야?”라고 물어보면 “검은색”하고 대답하는…
SIGGRAPH 2019에서 발표된 논문인 “Learning Character-Agnostic Motion for Motion Retargeting in 2D”의 프로젝트 페이지 공유합니다. 이 논문은 (서로 달라도 되는) 영상 3개로부터 각각 motion, skeleton, camera angle을 추출한 후에 이들을…
게임 제작 쪽에서는 이미 많이 활용하고 있는 Adobe Mixamo 사이트 링크 공유합니다. 들어가보면 3D 캐릭터 121개와 캐릭터 모션 2484개가 올라와 있고, (Autodesk) FBX라는 3D 포맷으로 다운받을 수 있습니다. 이 포맷은…
동영상 압축 분야에서도 무어의 법칙(트랜지스터의 수가 2년에 2배씩 증가)과 같은 것이 있는데, 1993년 MPEG-1, 2003년 MPEG-4/AVC (H.264), 2013년 MPEG-H/HEVC (H.265)로 이어지는 10년 2배 압축률 증가 경향입니다. 참고로 이미지 압축의 경우,…
MIT의 Speech2Face는 음성신호로부터 화자의 얼굴을 생성해내는 연구입니다. 다만 하나의 모델로 speech to face transform을 수행하는 것이 아니며, 다른 목적의 기존 연구 결과들을 잘 조합하여 인상적인 결과를 만들어냅니다. (제1 저자는 현재…
(자율주행차 등에 사용될) 도로 상황 인식 연구를 위해 만들어진 데이터셋 DriveSeg입니다. 동영상의 각 프레임에 대해, 이미지 전체를 pixel-by-pixel로 semantic labeling 한 것입니다. Label은 “vehicle, pedestrian, road, sidewalk, bicycle, motorcycle, building,…