优步人工智能和开放人工智能的研究人员提出了一种新的神经架构搜索方法,包括评估数百个人工智能模型,以识别最佳表现者。在这篇论文的印前,他们声称他们的技术被称为合成培养皿(Synthetic Petri Dish),它可以加快计算最密集的NAS步骤,并以比以前方法更高的精度预测模型性能。
NAS通过测试候选模型的整体性能而无需手动微调,消除了任务的顶层模型体系结构。但是这需要大量的计算和数据,这意味着最好的架构将在可用的资源范围内进行训练。合成Petri Dish从生物学的角度解决了这个问题:它使用候选架构创建小规模模型,并使用生成的数据样本对其进行评估,使这个相对性能代表整体性能。
研究人员解释说:“生物学中“体外”(试管)实验背后的总体动机是,在更简单可控的环境中,研究和解释在更复杂的系统中引起人们关注的关键因素。”“本文讨论了是否有可能通过创建一种新的替代方法来提高NAS的计算效率,这种方法可以受益于小型化训练,并且仍然可以扩展到现场评估的分布范围之外……[W] e可以使用机器学习来学习数据,以便[architecture]对所学习的数据进行训练可以产生指示[architecture]实际性能的性能。”
合成培养皿只需要对架构进行少量的性能评估,经过训练后,新架构就可以“极快”地进行测试。评估最初用于训练培养皿模型,通过现成的NAS方法生成一组架构。然后,经过训练的培养皿模型将预测新架构的相对性能,并选择一组架构进行性能评估。
重复此过程,直到NAS方法确定最佳体系结构。
在一台配备了20个英伟达1080 Ti显卡(用于地面训练和评估)和MacBook(用于推理)的PC上进行的实验中,研究人员试图确定Synthetic Petri Dish在Penn Tree Bank(PTB)数据集上的表现。这是一种流行的建模语言和NAS基准测试。从拥有2700万个参数(变量)的真实模型开始,Synthetic Petri Dish生成了100个新架构,并评估了前20个架构。
研究人员表示,在搜索的最后,他们的技术找到了一个具有“竞争性”性能的模型,可以通过常规NAS找到,同时将种子模型的复杂度从2700万个参数(变量)降低到140个参数。他们还报告说,合成培养皿只需要原始网络连接存储的十分之一的计算量,当两者的计算量相同时,它们的性能超过了原始网络连接存储。
“通过以这种方式进行架构搜索,作为关于某些主题或因素将如何影响最终结果的问题,我们获得了一个有趣的优势,即预测模型不再是一个黑盒。相反,它实际上包含了它试图预测的更大世界的关键部分。”合著者写道。“[B]因为微观模型包含了真实网络的一部分(因此可以检验关于其功能的各种假设),所以预测是基于高度相关的先验,它们的结果比空白黑盒模型的结果更准确。”
标签: