[가상인간연구팀 송지현]
최근 NVIDIA 연구팀은 Showcased in a sessio at NVIDIA GTC 에서 가상 세계를 위한 아바타를 생성하거나 또는 장면을 생성하고, 화상 회의 참가자와 그들의 환경을 3D로 캡처하거나, 3D 디지털 map을 위한 장면을 재구성하는 데 사용할 수 있는 Instant NeRF를 발표했습니다.
이 기술은 몇 초 만에 고해상도 3D 장면을 학습하고 몇 밀리 초 안에 해당 장면의 이미지를 랜더링 할 수 있는 기술로 이 접근 방식을 NeRF(Neural radiance Fields) 라고 하는 신기술에 적용했습니다.
현재까지 가장 빠른 기술인 NeRF는 어떤 경우 1,000배 이상의 속도 향상을 달성했습니다. 이 기술은 수십 장의 사진과 함께 촬영한 카메라 각도에 대한 데이터를 함께 학습하는 데 단 몇 초가 소요되며 학습한 데이터로 3D 장면을 수십 밀리 초 이내에 렌더링 할 수 있습니다.
[참고 영상 ] NVIDIA Instant NeRF: NVIDIA Research Turns 2D Photos Into 3D Scenes in the Blink of an AI
“다각형 메시와 같은 기존 3D 표현이 벡터 이미지와 유사하다면 NeRF는 비트맵 이미지와 같습니다. 빛이 물체 또는 장면 내에서 방사되는 방식을 조밀하게 캡처합니다.“
과거에는 3D 이미지를 2D로 빠르게 포착하는 폴라로이드 카메라가 혁신으로 인정 받았다면, 오늘날 NVIDA 연구원들은 반대로 2D 이미지 모음을 몇 초 만에 3D 장면으로 바꾸는 작업을 연구하고 있다는 것이 신기할 따릅입니다.
NeRF란 구체적으로 무엇이고 어떤 데이터를 사용할까요?
NeRF란 2D 이미지를 입력으로 사용하고 사실적인 3D 장면을 표현하고 랜더링하는 기술로 신경망을 사용합니다.
사용하는 데이터는 마치 드라마 촬영장에서 한 장면을 찍기 위해 여러 대의 카메라가 다방면의 각도에서 촬영하는 것과 비슷한 방식으로 수집하고 사용합니다.
여러 위치에서 찍은 장면의 수십 개의 이미지와 그 샷 들의 카메라 위치 또한 필요합니다. 사람이나 기타 움직이는 요소들이 많이 포함될수록 좋고 빨리 캡처해서 수집하는 것이 도움이 된다고 합니다. 대신 캡처 과정에 움직임이 너무 많으면 AI가 생성한 3D장면의 해상도가 떨어질 수 있으니 주의해서 수집해야 합니다.
NeRF 모델은 최소한의 장면 움직임, 모션 블러 또는 기타 흐릿한 인공물을 나타내는 50-150개의 이미지에서 가장 잘 훈련됩니다. 재구성 품질은 이미지에서 정확한 카메라 매개변수를 추출할 수 있는 COLMAP에 기반을 둡니다.
training 이미지가 모두 대략 공유된 관심 지점을 가리키고 있다고 가정하고 이를 원점에 배치합니다. 이 점은 모든 훈련 이미지 쌍의 중심 픽셀을 통과하는 광선 사이의 가장 가까운 접근 지점의 가중 평균을 취하여 발견됩니다. 실제로, 이는 스크립트가 전체 360도 보기를 완료할 필요는 없지만 관심 대상을 안쪽으로 가리키는 taining 이미지가 캡처되었을 때 가장 잘 작동한다는 것을 의미합니다.
수집한 데이터를 활용해서 NeRF는 공백으로 채우고, 모든 지점 모든 방향에서 방출하는 빛의 색상도 예측해서 장면을 재구성 하도록 모델을 훈련 합니다. 이런 방식의 기술은 어떤 물체의 가려진 이미지를 보게 할 수 있고, 색의 발현 또한 재현할 수 있습니다.
사물을 관찰하는 인간의 경우 깊이와 모양 등을 인지하는 것은 쉬운 일이지만 AI가 이것을 해냈다는 것은 혁신적인 연구 결과이며, 이전 연구들과 비교할 때 렌더링 시간을 몇 배나 줄여줍니다. 그리고 NVIDIA GPU에서 효율적으로 실행되도록 최적화된 다중 해상도 해시 그리드 인코딩이라는 자체 개발한 기술에 의존합니다. 연구자들은 새로운 입력 인코딩 방법을 사용하여 빠르게 실행되는 작은 신경망을 사용하여 고품질 결과를 얻을 수 있습니다.
NeRF의 활용할 분야는 어떤 것이 있을까요?
이 기술은 로봇과 자율주행 자동차가 2D 이미지나 비디오 장면을 캡처하여 실제 물체의 크기와 모양을 이해하도록 훈련하는 데 사용할 수 있습니다. 또한 건축 및 엔터테인먼트에서 제작자가 수정하고 구축할 수 있는 실제 환경의 디지털 표현을 빠르게 생성하는 데 사용할 수 있습니다.
NVIDIA 연구원들은 NeRF 외에도 이 입력 인코딩 기술을 사용하여 강화 학습, 번역 및 각종 딥 러닝 알고리즘을 비롯한 여러 AI 과제를 가속화하는 방법에 관해서도 연구할 계획입니다.
[참고 영상 ] NVIDIA’s NeRF But Training + Rendering Time Is 30s [Instant-NGP]