이미지 분류 문제에 대한 인간과 AI의 성능 비교 분석
Imagenet-1K(1000개 클래스 이미지 분류 문제)는 CNN의 발전과 더불어 수많은 최적화가 이루어져온 Task입니다. 딥러닝 시대의 개막을 알린 AlexNet의 TOP-5 에러는 약 17%인데, 이 당시 기존 최고 기술(SIFT+FV)의 TOP-5 에러가 약 26%였던…
Imagenet-1K(1000개 클래스 이미지 분류 문제)는 CNN의 발전과 더불어 수많은 최적화가 이루어져온 Task입니다. 딥러닝 시대의 개막을 알린 AlexNet의 TOP-5 에러는 약 17%인데, 이 당시 기존 최고 기술(SIFT+FV)의 TOP-5 에러가 약 26%였던…
Iskander Utebayev라는 디자이너가 만든 AR Glass 컨셉 영상입니다. 컨셉영상인 것을 감안하더라도 상당히 Fancy하고 일단 구현만 된다면 스마트기기를 사용하는 Human-Machine Interface를 크게 바꿀 수 있는 잠재력이 있다고 생각합니다. AI 기술을 적용할…
특수 훈련을 받으면 입술 움직임만으로 무슨 말 하는지 알 수 있다고 하는 이야기를 들은 적이 있는데요, 링크글의 연구는 이것을 AI로 실현한 것입니다^^ Lip2Wav라고 불리는 이 기술은 이미지로부터 ConvNet을 이용하여 feature를…
딥러닝 기반의 super resolution 기술은 NVidia의 최신 GPU에서 DLSS(deep learning super sampling)라는 이름으로 채용되어 consumer 대상으로 실 서비스되는 기술이 되었는데요, 주로 4K 게이밍 시장에서 4K 렌더링의 비용을 낮추기 위해 2K…
일반적으로 이미지에서 사용되는 convolution은 3D operation입니다. (KxKxC; K=커널크기, C=채널수) 이것을 KxKx1의 2D operation 복수개로 분할하여 적용한 후, 채널 방향으로 1x1xC 크기로 convolution을 적용하는 depthwise separable convolution은 파라미터 수를 엄청나게 감소시킵니다.…
LipGan은 음성 신호로부터 입 모양을 생성하는 연구입니다. 가상 캐릭터의 입 애니메이션을 만들어내는데 유용하게 사용될 수 있는 기술이지만, 실제로 적용해 보면 가만히 있는 캐릭터의 입술만 움직이기 때문에 한계가 명확합니다. 실제로 인간이…
Visual Dialog task는 질의 응답으로 이루어지는 Q&A task에 이미지를 추가한 멀티모달 task입니다. 예를 들어 흰색 고양이와 검은색 강아지가 함께 있는 사진을 주고 “고양이 옆 동물은 무슨 색이야?”라고 물어보면 “검은색”하고 대답하는…
SIGGRAPH 2019에서 발표된 논문인 “Learning Character-Agnostic Motion for Motion Retargeting in 2D”의 프로젝트 페이지 공유합니다. 이 논문은 (서로 달라도 되는) 영상 3개로부터 각각 motion, skeleton, camera angle을 추출한 후에 이들을…