1 月272021 相互作用码 大型模型的内存优化技术 相互作用, 码 随着深度学习模型的参数数量显着增加,训练所需的内存也随之增加。 OpenAI的GPT-2由1.5B参数组成,而Google的mT5也具有13B参数。另外,OpenAI的GPT-3的参数数量...