Imagenet-1K(1000개 클래스 이미지 분류 문제)는 CNN의 발전과 더불어 수많은 최적화가 이루어져온 Task입니다. 딥러닝 시대의 개막을 알린 AlexNet의 TOP-5 에러는 약 17%인데, 이 당시 기존 최고 기술(SIFT+FV)의 TOP-5 에러가 약 26%였던 것을 감안하면 상당한 개선이 이루어졌다는 것을 알 수 있습니다. 이후, 다양한 부분의 발전이 이루어지면서 TOP-5 에러는 1.3% (FixEfficientNet_L2) 까지 떨어졌는데, AlexNet과 비교해 보면 1/13, SIFT+FV와 비교해 보면 1/20에 해당합니다.
그러면, 인간의 성능과 비교하면 어떨까? 이와 관련된 연구들이 다양하게 있지만, Imagenet-1K task에 대해서는 인간의 성능이 대략 TOP-5 에러 5% 수준으로 보고되고 있습니다. 물론 이 Task의 test image를 그냥 사람에게 물어보는 것은 아니며, “학습”과정을 시뮬레이션 하기 위해 각 클래스에 포함된 모든 이미지들을 보고 “학습”하는 과정을 겪도록 했습니다. 이 결과만을 놓고 본다면, 이미지 분류 문제에 있어서 이미 인간의 성능을 훨씬 뛰어넘은 것 처럼 보입니다.
아래 공유글에서는 이미지에 왜곡(noise 추가, blur 추가)을 부여하고 다시 인간과 CNN간 성능을 비교했습니다. 물론 논문이 좀 예전에 쓰여지다 보니 FixEfficientNet_L2와 같은 최신 모델이 쓰인 것은 아니고 GoogleNet, VGG, ResNet과 같은 모델들이 비교에 사용되었습니다. 하지만 결론이 크게 달라질 것 같지는 않네요.
실험 결과, 아래의 몇 가지 사실들이 도출되었습니다.
- Noise, Blur 모두에 대해서 인간은 CNN보다 훨씬 강인하다.
- Noise의 경우 인간의 TOP-5 에러가 5% -> 20%가 되는 동안 CNN은 5% -> 80%가 되었다.
- 같은 type의 noise를 넣어 fine-tuning하면 좀 나아지지만, 여전히 에러율은 60%에 이른다.
- Blur의 경우 인간의 TOP-5 에러가 5% -> 30%가 되는 동안 CNN은 5% -> 80%가 되었다.
- 같은 type의 blur를 넣어 fine-tuning하면 좀 나아지지만, 여전히 에러율은 50%에 이른다.
한편, noise와 blur가 증가함에 따라 인간과 CNN간 “틀리는 유형”간 상관 관계가 있는지를 분석했는데, 뚜렷한 상관 관계가 나타나지 않았습니다. 이 말은 현재의 CNN이 인간의 시각 인지 체계를 모방한다고 볼 수 없으며 두 시스템 간에는 근본적 차이가 있을 수도 있다는 것을 의미한다고 생각합니다. 적어도 시각적 왜곡에 대항하는 방법에 대해서는 아직도 “인간은 어떻게 하지?”에 대한 연구가 필요하다고 보입니다.
classification tasks. However, under image quality distortions such as blur and
noise, classification accuracy becomes poor. In this work, we compare the
performance of DNNs with human subjects on distorted images. We show that,
a…