最近的趋势之一是使用超大型模型,即参数数量,以及常规学习方法的应用。除了人脑显示的“软件功能”之外,我想知道我应该增加多少才能达到人脑的“硬件”功能? (如果我们达到相同的硬件功能,那么这将是人类与人工智能算法效率的公平比较)
可以看作构成人脑的主要单位的神经元的数量据说约为100B。
半导体晶体管的数量每两年翻一番(摩尔定律),例如,用于iPad Pro的Apple A12X Bionic的晶体管数量为10B,而服务器CPU AMD Epyc Rome的晶体管数量为40B。预计RTX 20系列将达到20B,未来的30系列将达到50B。如果这样,晶体管的数量将在未来四年内超过神经元的数量。 (这并不意味着晶体管和神经元的作用相同)
通过简单地比较数字,可以看出它正在赶上人脑,至少是在单位单位的基础上。当然,可以看出神经元的功能要比晶体管复杂得多,但是神经元的工作频率为1KHz,而处理器时钟速度的工作频率为3GHz或更高,因此相差300万倍以上。换句话说,如果我们可以用300万个晶体管模拟神经元的行为,则两个单位单元之间的功能没有显着差异。 (作为参考,英特尔奔腾拥有约300万个晶体管)
快速浏览深度学习模型的参数数量,GPT-2为1.5B,GPT-3为175B。考虑到参数的数量与神经网络中基本单元的数量大致匹配,可以说GPT-3中基本单元的数量已经超过了神经元的数量。
人类当前达到的“单位数量”或“模型参数”已经接近人脑的水平(或者差异不是很大),并且在这种结构中,仅靠放大并不接近单位数量。即使和模型参数相同,我们也会决定是否应朝着更高效的操作方向进行创新。
例如,神经元的数量为100B,但神经元之间的连接数量为100T,这是该数量的1,000倍,并且它们都可以并行运行。当前的处理器架构具有许多串行操作。另外,可以将多层神经网络模型视为其中各层串联连接(无论是硬件还是软件)的模型。我认为当前的神经网络模型在某种程度上反映了单位神经元的行为,但是如果我们可以将所有神经元之间的互连和平行运动的特征纳入神经网络模型,该怎么办。
链接不一定与上面的链接匹配,但是它是一个相关主题,我很喜欢阅读它。