OpenAI가 발표한 DALL-E는 자연어 텍스트로부터 이미지를 생성하는 기술입니다. 기존에도 StackGAN이나 OP-GAN 등 같은 목적의 기술들이 있었지만 DALL-E는 초대규모 언어 모델인 GPT-3 기반으로 만들어져서 최종 결과물의 품질이 월등히 우수하다는 장점이 있습니다. 관련 블로그 글을 공유합니다.
공유한 글에 있는 예제를 몇 개 소개합니다. 먼저, 입력 문장은 다음과 같습니다:
A [store front] that has the word [openai] written on it
이때 DALL-E를 사용하여 출력으로 얻은 이미지입니다:
한편, 입력 이미지에서 openai라는 부분을 skynet으로 바꾸면 다음의 이미지를 얻을 수 있습니다:
또 다른 예제로 다양한 표정을 갖는 이모지를 만들어내는 예제가 있는데, 뛰어난 결과물의 품질은 물론 미묘한 단어 변화에 맞게 생성모델이 동작하는 모습은 놀랍기만 합니다:
DALL-E는 자연어 입력만을 허용하는 것이 아니라 특정 스타일을 가지는 이미지를 주고, 그 이미지 스타일에 맞게 결과물을 생성할 수도 있다고 합니다. 더 많은 예제들은 공유한 블로그에 가시면 보실 수 있습니다.
GPT-3는 다양한 자연어 처리 문제에서 혁신적인 성능 향상을 가져 왔고, 특히 문장 생성 관련해서는 인공 일반 지능(AGI)의 초기 형태가 아닐까 싶을 정도로 큰 반향을 일으켰습니다. 물론 실제 인간이 사고하는 방식과는 동떨어져 있고, 본질과는 다르다는 지적도 있지만 놀라운 기술적 결과물임에는 틀림 없습니다. DALL-E 또한 이미지 생성 분야에서 GPT-3와 같은 충격을 주고 있습니다. 결과물의 다양성과 품질 관점에서 기존의 기술들을 훨씬 뛰어넘었으며, 그 잠재력을 평가하기 위해서 많은 추가 분석들이 이루어질 것입니다. 또한, GPT-3와 DALL-E가 사실상 같은 기술 기반이라는 것을 생각해 보면 결국 자연어와 이미지 구분 없이 하나로 처리할 수 있는 기술이라고 볼 수 있으며, 이는 멀티 모달 데이터들을 일반적으로 이해하는 인간 지능에 한 발짝 더 나아간 것이 분명해 보입니다.