据说,超大规模语言模型的代名词GPT-3的学习成本估计为40亿韩元,证明只有少量射击学习才能将其应用于所有自然语言任务。 GPT-2约4000万韩元。不管它具有多高的可回收性,对于大多数公司而言,在研发上进行投资都是一项艰巨的任务。 (我只希望有人创建和分发KoGPT-3 ^^)
尽管它无法达到语言模型的规模,但Google的Big Transfer也同样尝试了图像模型。通常,用于迁移学习目的的模型是使用ImageNet的一部分(约100万份)进行训练的,但是通过使用ImageNet-21k(1400万份)和JFT(3亿份)进行学习,仅通过此迁移学习即可响应各种任务。 。用JFT训练的模型不是开放的,但是用ImageNet-21k训练的ResNet模型是开放的,任何人都可以使用。 (个人而言,我有一个问题,为什么我使用Microsoft ResNet而不是Google Inception?)
似乎有一种可能性,那就是,基于训练有超大规模数据的单个模型而不是使用针对每个任务优化的数据来训练每个模型的尝试迁移学习的方法不是一种选择,而是将来的一种必要。实际上,这不仅不好,因为即使没有大型学习基础架构的公司也已经打开了使用GPT-3 +少量镜头学习或Big Transfer +微调来创建一流模型的方式。 (当然,Big Transfer仍然需要做得更大……)
链接是与上述内容相关的文章,标题非常喜欢。
每个人都可以使用深度学习