Imagenet-1K(1000类图像分类问题)是一项随着CNN的发展而优化的任务。宣布深度学习时代开始的AlexNet的TOP-5错误约为17%。考虑到当时现有的顶级技术(SIFT + FV)的TOP-5错误约为26%,可以看出已经取得了重大改进。从那时起,随着各种发展,TOP-5错误已降至1.3%(FixEfficientNet_L2),与AlexNet相比为1/13,与SIFT + FV相比为1/20。
那么,如何将其与人类绩效进行比较呢?与此相关的研究很多,但是对于Imagenet-1K任务,据报道人类的表现大约是TOP-5错误5%的水平。当然,我们不只是要求人员提供此任务的测试图像,我们还必须通过查看每个类中包含的所有图像来模拟“学习”过程来完成“学习”过程。如果仅看这些结果,就图像分类而言,它似乎已经超越了人类。
在下面的文章中,我们向图像添加了失真(添加噪点,添加模糊),并再次比较了人类和CNN的性能。当然,由于该论文是在不久前撰写的,因此没有使用诸如FixEfficientNet_L2之类的最新模型,而是使用了诸如GoogleNet,VGG和ResNet之类的模型进行比较。但是我认为结论不会有太大变化。
作为实验的结果,得出了一些事实。
- 对于噪点和模糊,人类要比CNN强得多。
- 在出现噪音的情况下,CNN变为5%-> 80%,而人类TOP-5错误为5%-> 20%。
- 使用相同类型的噪声进行微调可以改善,但错误率仍然达到60%。
- 在Blur的情况下,CNN变为5%-> 80%,而人类TOP-5错误为5%-> 30%。
- 使用相同类型的模糊进行微调会更好,但是错误率仍然达到50%。
另一方面,我们分析了人与CNN之间“错误类型”是否随着噪声和模糊的增加而存在相关性,但没有明确的相关性。我认为这意味着当前的CNN不能被视为模仿人类的视觉认知系统,并且这两个系统之间可能存在根本的差异。至少,似乎仍然需要研究“人类做什么?”如何抵抗视觉失真。
视觉失真下人与深度学习识别性能的研究与比较
深度神经网络(DNN)在标准上实现出色的性能
分类任务。但是,在图像质量失真下,例如模糊和
噪音,分类精度变差。在这项工作中,我们比较了
DNN与人类对象在扭曲图像上的表现。我们证明
一个…
分类任务。但是,在图像质量失真下,例如模糊和
噪音,分类精度变差。在这项工作中,我们比较了
DNN与人类对象在扭曲图像上的表现。我们证明
一个…