学界｜不通过梯度下降来训练神经网络：一个可扩展的ADMM途径

ID:119948 · 发表于 2016-5-11 23:04

作者：Gavin Taylor, Ryan Burmeister, Zheng Xu, Bharat Singh, Ankit Patel, Tom Goldstein

机器之心编译
参与：刘宗尧、李亚洲

论文摘要：

随着大型网络模型和庞大数据训练集的重要性日益增长，在训练神经网络时GPU 也变得越来越重要。这主要是因为传统的优化算法依赖于随机梯度方法，而随机梯度方法在计算集群大量核中的扩展并不好。此外，所有梯度方法的收敛，包括批量方法，都存在一些共同的问题，如饱和效应、不良的调节和鞍点等。

本文探讨了一种非传统的训练方法，利用交替方向方法（alternating direction methods）和Bergman 迭代方法无梯度下降步骤的训练网络。该方法减少了网络训练问题，将其简化成了一系列最小限度的子步骤，每个子步骤都能闭式全局解决。该方法之所以有益，是因为它绕过了很多注意事项，这些注意事项会造成梯度方法在高度非凸问题上进展缓慢。该方法在分布式环境中展示了强大的扩展能力，即便在分散成千万个核的状况下也能产生线性加速度。

论文引言

随着硬件和算法的进步，神经网络在很多机器学习任务中的性能也在不断改善。尤其在这样的应用中进步非常明显：可用庞大的数据熟练有众多参数的模型。因为大型数据集得到的结果总是能超越之前在很多机器学习任务中最先进的方法，因此研究人员也愿意购买诸如 GPU 这样的硬件，并花费大量的时间去训练模型、优化参数。

基于梯度的训练方法有几个特性，为了满足这些特性需要专门的硬件。首先，虽然大量数据可以摊分到众多核中，但是现有的优化方法在并行时依然要忍受。第二，训练神经网络需要优化非凸目标，这些目标会带有鞍点，条件缺乏，梯度消散现象。所有的这些都降低了基于梯度方法的速度，比如随机梯度下降、共轭梯度以及 BFGS。之前介绍了几个避免该问题的缓解途径，包括解决线性单元（ReLu）（Nair & Hinton，2010）、长短期记忆网络（Hochreiter & Schmidhuber，1997）、RPROP（Riedmiller & Braun，1993）等等，但是最根本的问题依然存在。

在本文中，我们介绍一种训练神经网络参数的新的方法，这种方法使用了交替方向乘子算法（ADMM）和Bregman 迭代法。它解决了传统梯度方法面临的几个问题；当跨核数据并行的时候，它展现出了线性扩展的能力，并且对梯度饱和和条件缺乏现象有较好的鲁棒性。该方法还将网络训练分解成一系列的子步骤，每一个步骤都能得到全局最优性的解决。我们提议方法的扩展性，再加上避免局部最小化、全局解决每一子步骤的能力，能够达到急剧加速训练的效果。

在第二章，我们开始介绍这种方法的数学符号和背景，并讨论了我们想要解决的基于梯度方法的几个弱点。第三章和第四章介绍并描述了我们的优化方法，第五章和第六章详细讲解了分布式实现。第七章通过处理两个不同类型和困难度的问题，给出了一个新方法和标准实现的数个基于梯度方法的实验性对比。最后，第八章结束讨论了这一论文的贡献和未来需要做的工作。

本文由机器之心编译

帐号		自动登录	找回密码
密码			立即注册