[선행연구팀 유희조]
Pose estimation은 시각 처리 기술 중 하나로 영상 내 등장인물의 움직임을 추적하는 기술입니다. 보통 facial landmark와 유사한 방식인 body landmark를 추출하고 이들을 연결함으로써 몸 전체의 자세를 묘사합니다. 대부분의 경우 정지된 단일 이미지가 아니라 동영상, 그 중에서도 실시간 캠 데이터를 입력받아 대상의 포즈를 추측하는 것을 목표로 두고 있습니다. 그런 점에서 이전 HyperGAN에 관한 포스트에서 언급된 바와 같이, 동영상 기반 모델로서 pose estimation 또한 비용, 레이턴시 등의 이유로 최대한 경량화한 뒤 로컬에서 작동하도록 하는 것이 점차 일반화되고 있습니다.
Google Research에서 TensorFlow.js로 경량화된 자세 추정 모델인 MoveNet의 API를 공개했습니다. 속도 중심 버전인 lightning과 정확도 중심 버전인 thunder의 두 배리에이션을 공개했는데 어느 쪽도 최신 데스크탑 및 랩탑 환경에서 30 FPS 이상을 보장합니다. 모바일은 공식적으로는 아이폰에서 30프레임/Pixel 5에서 12프레임 이상이라고 보고하고 있습니다. 공식 데모 사이트를 자체 모바일 기기(Galaxy Z Fold 2) 에서 테스트한 결과로는 lightning 버전이 약 15 FPS, thunder가 10 FPS 정도 나오네요.
연구팀 측은 MoveNet을 병원, 보험화사, 군대와 같이 헬스케어 쪽에 초점을 맞추어 활용할 계획으로 보입니다.
좀 더 자세한 사항은 구글에서 공식적으로 MoveNet에 대해 포스팅한 밑에 링크를 참조하세요.
Links:
https://storage.googleapis.com/tfjs-models/demos/pose-detection/index.html?model=movenet