ImageNet是一个数据集,它极大地影响了AI技术的发展,因此没人知道AI研究人员。该数据集由大量图像及其元数据组成,包含大约1400万张图像,分为20,000个类别。为了有意义地定义多个类别,使用了WordNet(1980年创建的单词层次结构数据集),并在针对每个类别从Internet爬网和收集图像之后,使用Amazon Mechanical Turk进行了标记。
通过从收集的数据集中选择1000个类别和100万张图像,连续举办了著名的与图像相关的AI竞赛ImageNet竞赛。但是,由于是通过爬网收集的,因此提出了一个问题,即ImageNet数据集还包含许多人的面孔,并且没有单独获得他们的同意。最近,收集AI学习数据的合法性问题变得越来越重要,ImageNet也不例外,因此有消息称它决定模糊图像中包含的面部。这里是相关文章的链接:
根据实验结果,该处理对识别率的影响是有限的。但是,我认为现在是时候需要针对未来对策的“黄金标准”了,因为这不仅是ImageNet的问题,而且如果它是AI学习所需的大规模数据,也将始终存在。例如,在开源软件的情况下,存在各种类型的许可证,例如GPL,LGPL,BSD和MPL,并且相应地指定了各个部分,例如代码是可以发布还是可以在市场上购买。当然,有一个用于照片和视频内容的CCL(创意公共许可),但是对于为AI学习而不是直接销售内容而收集的数据,我认为,如果有一个更合适的许可系统,那就太好了。
此外,对于像GAN这样的AI生成的模型,还有更多需要考虑的问题。例如,如果培训数据中存在许可问题,那么使用GAN创建新映像时,如何确定该映像的许可证?尽管这是一个新的映像,但可能会有一部分有助于创建带有许可证问题的培训映像;如果是,是否应该将许可证的贡献部分颠倒?另外,GAN还具有潜在空间的概念,是否可以通过稍微改变通过从具有许可问题的数据中学习而形成的潜在空间中的潜在向量的值来避免许可问题?
这些问题很难解决,因为它们需要各个级别的共识,但最终不可避免,因此,我希望将讨论与它们相关的全球共识体系。 (例如,国际标准化组织)