让AI自己调整超参数,谷歌大脑新优化器火了,适应不同任务
您还在为如何为优化器调整更好的参数而发愁吗?
现在, Brain 推出了一个新的优化器 VeLO,它不需要手动调整任何超参数,直接使用即可。
与Adam等其他人工设计的算法不同,VeLO完全基于AI架构,可以很好地适应各种任务。
当然,效果也更好。该论文的作者之一 Lucas Beyer 将 VeLO 与其他“重度”调优的优化器进行了比较,性能相当:
有网友看到了优化器进步的曙光:
Adam之后出现了很多优化器,但是都失败得很厉害。这个优化器可能确实表现得更好。
那么,这个基于 AI 的优化器是如何构建的呢?
VeLO 究竟是如何构建的?
() 是神经网络训练过程的重要组成部分。
△神经网络训练过程,图片来源Wolf
但是AI模型应用广泛,训练AI模型的优化器仍然是人工设计的,听起来有些不合理。
于是 Brain 的研究人员灵机一动:为什么不用 AI 作为优化器呢?
在设计上,优化器的原理是基于元学习的思想,即从相关任务中学习经验来帮助学习目标任务。
与迁移学习相比,元学习更侧重于获取元知识,元知识是对一类任务的一般知识,可以泛化到更多任务。
基于这一思想,VeLO 也会吸收梯度并自动输出参数更新,无需任何超参数调优,适应各种需要优化的任务。
在架构上谷歌优化,AI优化器整体由LSTM(长短期记忆网络)和超级网络MLP(多层感知器)组成。
每个LSTM负责设置多个MLP的参数,每个LSTM通过全局上下文信息相互协作。
在训练方面,AI优化器采用元训练的方法,将参数值和梯度作为输入,输出需要更新的参数。
经过 4,000 TPU-(一个 TPU 运行 4,000 个月的计算)训练,综合各种优化任务的长处后,VeLO 终于诞生了。
优于人工调参优化器
结果表明,VeLO 在 83 个任务上优于一系列当前可用的优化器。
其中 y 轴是加速度与 Adam 的比率,x 轴是任务的比率。
结果表明,VeLO 不仅优于不需要调整超参数的优化器,甚至优于一些仔细调整超参数的优化器:
与“经典老大哥”Adam相比,VeLO在所有任务上的训练加速都更快,超过50%的任务在调整学习率的情况下比Adam快4倍以上,并且在超过14%的任务中,VeLO学习率甚至更快高达 16 倍。
在6类学习任务(数据集+对应模型)的优化效果上,VeLO在5类任务上的表现与Adam相当甚至更好:
值得一提的是谷歌优化,这次VeLO也部署在了JAX中。看来谷歌真的在推广这个新框架。
巴特,也有网友认为训练VeLO需要4000个TPU月,计算成本太高:
虽然这个进步很重要,但它甚至接近赶上 GPT-3 的训练量。
VeLO目前已经开源,感兴趣的朋友可以试试这款全新的AI优化器。
还有一件事
前段时间,一位哈佛博士生提出了一个有趣的想法,得到了很多人的认同:
更多论文的作者也应该像学分一样披露他们在论文上的工作。
Carr 是生物统计学博士生。作者贡献在生物学论文中很常见,但以前在 AI 论文中并不常见。
现在,这篇 Brain 论文的作者们也做了同样的事情,谁写的论文谁构建的框架一目了然:
不知道以后会不会成为机器学习圈的新潮流(手动狗头)。
地址:
论文地址:
参考链接: