OpenAI发行的DALL-E是一种可以从自然语言文本生成图像的技术。以前,存在用于相同目的的技术,例如StackGAN和OP-GAN,但DALL-E的优势在于最终结果的质量非常出色,因为它是基于超规模语言模型GPT-3制作的。共享相关博客文章。
这是我分享的文章中的一些示例。首先,输入语句如下所示:
上面写有[openai]一词的[店面]
这是使用DALL-E作为输出获得的图像:
同时,如果在输入图像中将称为openai的部分更改为skynet,则可以获得以下图像:
另一个例子是创建具有各种面部表情的表情符号,令人惊讶的是,生成模型如何响应细微的单词变化以及出色的结果而表现出来:
据说DALL-E不仅允许自然语言输入,而且还提供具有特定样式的图像,并且还可以根据图像样式创建结果。可以在共享博客上找到更多示例。
GPT-3在各种自然语言处理问题上带来了革命性的性能改进,尤其是在句子生成方面,它引起了巨大反响,它可能是人工智能的早期形式(AGI)。当然,需要指出的是,它与人类的思维方式相去甚远,并且与本质不同,但这必定是令人惊讶的技术成果。 DALL-E在图像生成领域也产生了与GPT-3相同的影响。就结果的多样性和质量而言,它已经远远超过了现有技术,并且将进行许多进一步的分析以评估其潜力。此外,考虑到GPT-3和DALL-E实际上是基于同一技术,因此可以将其视为一种无需区别自然语言和图像即可被处理为一种技术的技术,这比通常理解多模态数据的人类智能迈出了一步。似乎已经取得了进展。