동영상 압축 분야에서도 무어의 법칙(트랜지스터의 수가 2년에 2배씩 증가)과 같은 것이 있는데, 1993년 MPEG-1, 2003년 MPEG-4/AVC (H.264), 2013년 MPEG-H/HEVC (H.265)로 이어지는 10년 2배 압축률 증가 경향입니다. 참고로 이미지 압축의 경우, JPEG은 1992년, JPEG-2000은 2000년에 나왔습니다.
그러나 사실상 현재의 H.265도 1993년 나온 MPEG-1과 기술적으로 매우 유사한 구조를 가지고 있으며 이에 기반한 이미지 코덱인 HEIF나 BPG도 directional intra prediction이라고 불리는 블록기반 방향성 예측 기술을 제외하면 1992년 나온 JPEG과 크게 다를 것이 없습니다. 이미지 압축으로 한정하여 요약하자면, “이미 코딩된 주변 픽셀의 값을 활용하여 현재 코딩할 블록을 예측한 후, 차감한 후 남은 값을 DCT를 이용하여 중요 정보 위주로 압축한다”는 것입니다.
위의 기술 중 인간의 ‘시각적 인지 특성’과 관련된 부분은 DCT에 의한 주파수 표현 뿐입니다. ‘면’에 해당하는 저주파 영역과 ‘선’에 해당하는 고주파 영역 각각에 대한 오차 허용 범위를 다르게 함으로써 시각시스템 최적화를 하는데, 그마저도 방향성 예측 기술이 들어가면서 거의 쓰이지 않게 되었습니다.
HEVC/H.265의 표준화 초기 단계에서(약 10년전), ‘생성’기반의 기술이 국제 표준화 기구에서 논의된 적이 있습니다. 구체적으로는 ‘물’, ‘숲’, ‘모래’와 같은 영역의 경우 정확한 원본 데이터가 아니라 생성된 텍스처로 대치함으로써 시각적 유사성은 유지한채 압축률을 30% 향상시키는 기술입니다. 다만, 그 당시에는 ‘물’, ‘숲’, ‘모래’ 각각에 따라 서로 다른 생성 모델이 필요했고 일반성이 부족했기 때문에 표준으로 채택되지는 못했습니다.
아래 링크의 논문은 이미지 압축 분야에서 GAN을 사용하는 기술을 다루고 있습니다. GAN의 등장으로 일반적 텍스처에 대한 생성 기술이 크게 발전하였고, 대량의 데이터에 대한 학습이 가능해져서 기존 신호처리 기반의 기술들의 성능을 훨씬 뛰어넘게 되었습니다. 1992년 JPEG 등장 이래 가장 큰 패러다임 변화(분석합성 -> 생성)라고 볼 수 있지만 JPEG-2000, HEIF, BPG 등 JPEG 대비 2배 이상의 효율을 보이는 기술이 나왔음에도 레거시 의존성과 복잡도 때문에 시장에 안착하지 못했던 것을 감안하면 GAN 기반 기술(BPG 대비 수십-수백배 더 복잡)이 향후 시장에서 얼마나 사용될 수 있을지는 아직 미지수로 보입니다.