(ISO MPEG) VVC 혹은 (ITU-T) H.266이라는 이름을 갖는 신규 영상 코덱의 국제 표준안이 릴리즈 되었습니다. 관련 기사 공유합니다.
딥러닝 기술이 등장하기 전에 대부분의 기술이 완성되었던 HEVC와는 달리 VVC의 경우 딥러닝 기반의 기술들이 대거 표준안 진입을 시도했습니다. 다만 수십년간 다듬어져 온 Prediction + Transform hybrid framework를 통째로 대치할 만큼 완성도 높은 기술은 없었기 때문에 기존 framework의 부분 기술들의 성능을 높이려는 시도 위주로 진행되었습니다.
우선, 주위 프레임을 참조하지 못할 때 사용하는 intra picture의 경우 예측을 위해 사용할 수 있는 것이 주변 픽셀 뿐입니다. 이 픽셀들을 3-layer FCN에 입력으로 넣고 출력으로 블록 픽셀들을 만들어내는 기술이 제안되었습니다. 또한, CNN을 이용한 super-resolution, JPEG artifact 감소로 잘 알려져 있는 VDSR 류의 기술도 사용되었는데, 부호화가 다 끝난 후 화질을 향상시키는 기술인 in-loop filter로 제안되었습니다.
그러나, 아쉽게도 최종적으로 VVC에 딥러닝 기반 기술이 채택된 것은 없다고 볼 수 있습니다. 3-layer FCN 기술은 1-layer로 간소화되어 신경망이라기 보다는 단순 matrix multiplication이 되었고, CNN 기반 in-loop filter는 역시 구현 복잡도 측면에서 배제되었고 대신 매 프레임 convolution filter를 (비선형 요소 없음) 추정하는 기술인 ALF (adaptive loop filter)가 채택되었습니다.
주된 이유는 추가된 복잡도에 비해 얻는 효율이 크지 않다는 것입니다. 대부분 2배 이상 복잡해지지만 5% 이내의 효율 향상만이 관측되며, 이러한 기준으로는 굳이 딥러닝 기반 기술을 넣을 이유가 없는 것입니다. 연구 단계라면 모를까, 실제 마켓에 적용하려는 시점에서는 반드시 통과해야 하는 관문이라고 볼 수 있지요.
국제 표준 영상 압축 기술은 수십억대 이상의 device에 적용되는 매스 마켓입니다. (2019년 기준 스마트폰 15억대, TV 2억대, PC 3억대, 태블릿 1.4억대, 이중 H.264는 거의 100%, HEVC는 약 60%) 딥러닝 기술이 이번에 일부라도 포함되었다면, 아마도 글로벌 매스 마켓에 적용된 최초의 딥러닝 기술이 되지 않았을까 개인적으로는 아쉽게 생각합니다.
다음 국제 표준은 약 8년 후에야 나옵니다. 그때까지 딥러닝이 효율, 복잡도 감소 모두 많은 발전을 이루어, 20년 이상 계속되고 있는 기존 기술과 제대로 진검 승부할 수 있기를 바래봅니다.