ImageNet은 AI 분야 연구자라면 모르는 사람이 없을 정도로 AI 기술 발전에 큰 영향을 준 데이터셋입니다. 많은 수의 이미지들과 그에 대한 메타데이터로 구성된 이 데이터셋은 약 1400만개에 달하는 이미지들로 구성되어 있으며 이들은 2만개에 달하는 카테고리로 분류되어 있습니다. 수 많은 카테고리들을 유의미하게 정의하기 위해서, 1980년에 만들어진 단어 계층 데이터셋인 WordNet을 활용하였으며, 이 카테고리별로 인터넷에서 이미지들을 크롤링하여 수집한 후 Amazon Mechanical Turk를 이용해 라벨링 작업이 진행되었습니다.
이렇게 수집된 데이터셋에서 1000개의 카테고리, 100만장의 이미지를 선별하여 ImageNet Competition이라는 이름의 유명한 이미지 관련 AI 경진대회가 지속적으로 개최되어왔고, 이를 통해서 현재 잘 알려져 있는 AlexNet, VGG, GoogleNet, ResNet과 같은 네트워크 구조들이 유명세를 타게 됩니다. 다만, 크롤링에 의해서 수집되었기 때문에 ImageNet 데이터셋에는 수 많은 사람들의 얼굴도 포함되어 있고, 그들의 동의를 별도로 얻지 않았다는 이슈가 제기되었습니다. 최근 AI 학습데이터의 수집 적법성 이슈가 점차 중요하게 다루어지고 있는데, ImageNet 또한 예외는 아니라서 이미지내 포함된 얼굴 부분에 대해 흐림 처리를 하기로 했다는 소식이 전해지고 있습니다. 다음은 관련 기사 링크입니다:
실험 결과에 따르면, 이러한 처리가 인식률에 미치는 영향은 제한적이라고 합니다. 다만, 단순히 ImageNet에만 국한된 문제가 아니라 AI 학습에 필요한 대규모 데이터라면 항상 존재할 수 있는 문제라는 점에서 향후 대응 방법에 대한 “gold standard”가 필요한 시점이라고 생각합니다. 예를 들어 오픈소스 소프트웨어의 경우 GPL, LGPL, BSD, MPL 등 다양한 라이선스 종류들이 있으며 그에 따라 코드 공개 여부나 상용화 활용 가능 여부 등 여러 가지 부분들이 명시되고 있습니다. 물론 사진이나 영상 콘텐츠의 경우에도 CCL(creative commons license)이 있지만 콘텐츠의 직접 판매가 아니라 AI 학습용으로 수집된 데이터들의 경우 좀 더 적합한 라이선스 체계가 있으면 좋겠다는 생각을 하게 됩니다.
추가적으로, GAN과 같은 AI 생성 모델의 경우는 고려해야 할 부분이 더 있습니다. 예를 들어 학습 데이터에 라이선스 문제가 있는 경우, GAN을 이용해서 새로운 이미지를 생성해내면 이 이미지의 라이선스는 어떻게 판단해야 할까요? 새로운 이미지라고는 하지만 라이선스 문제가 있는 학습 이미지가 그 생성에 기여하는 부분이 분명 존재할 수 있는데, 그렇다면 부분적으로 라이선스 기여도를 역산해야 하는 걸까요? 또한, GAN에는 latent space라는 개념이 있는데, 라이선스 문제가 있는 데이터로 학습하여 형성한 latent space에서 latent vector의 값을 다소 변형한다고 해서 라이선스 문제를 회피할 수 있을까요?
이러한 문제들은 다양한 계층의 합의가 필요하기 때문에 쉽게 해결하기 어렵지만, 결국 회피할 수 없는 문제이기 때문에 이와 관련된 글로벌한 합의 체계가 논의되기를 희망해 봅니다. (예: 국제 표준화 기구)