让AI自行调整超参数,Google Brain的新优化器着火了,适应不同的任务
肖
萧起源于洞飞寺
量子比特|公众号
还在为如何为优化器调整更好的参数而苦恼吗?
现在, Brain提出了一个新的优化器VeLO,它不需要手动调整任何超参数,你就完成了。
与其他人类设计的算法(如Adam等)不同,VeLO完全基于AI构建,可以很好地适应各种不同的任务。
当然,效果也更好。该论文的作者之一Lucas Beyer将VeLO与其他具有类似性能的“重型”参数调谐优化器进行了比较:
有网友在优化器中看到了一丝进步:
在亚当之后,有很多优化器,但它们都表现得非常不成功。此优化器可能确实性能更好。
那么,这个基于AI的优化器是如何构建的呢?
VeLO究竟是如何建造的?
优化器是神经网络训练过程的重要组成部分。
△ 神经网络训练过程,来源狼
但是人工智能模型
应用如此广泛,用于训练AI模型的优化器还是人为设计的,听起来有些不合理。
所以谷歌大脑的研究人员有一个妻子:为什么不使用人工智能来做一个优化器呢?
在设计上,优化器的原理是基于元学习的思想谷歌优化,即从相关任务中学习经验,帮助学习目标任务。
与迁移学习相比,元学习强调元知识的获取,元知识是一类任务上的一种常识,可以推广到更多的任务。
基于这一思路谷歌优化,VeLO还吸收梯度并自动输出参数更新,无需任何超参数调优,适应各种需要优化的任务。
在架构方面,AI优化器整体由LSTM(长短期记忆网络)和超网络MLP(多层感知器)组成。
每个 LSTM 负责设置多个 MLP 的参数,每个 LSTM 通过全局上下文信息相互协作。
在训练方面,AI优化器采用元训练方法,以参数值和梯度为输入,输出需要更新的参数。
经过 4,000 TPU 月的
培训(TPU 运行 4,000 个月)并结合各种优化任务的优势,VeLO 终于诞生了。
优于手动参数调整优化器
结果表明,VeLO比目前存在的一系列优化器更快地加速83个任务。
其中 y 轴是
加速度的放大倍数与亚当相比,x轴是任务的比例。
结果表明,VeLO 不仅比不需要调整超参数的优化器效果更好,甚至比一些经过精心调优超参数的优化器还要好:
与”
经典的老大哥“亚当,VeLO在所有任务上训练得更快,超过50%的任务比亚当快4倍以上,调整学习率,在超过14%的任务中,VeLO学习率甚至快了16倍。
在 6 类学习任务(数据集 + 对应模型)的优化效果方面,VeLO 在 5 种任务中的表现优于 Adam:
值得一提的是,这次 VeLO 也部署在 JAX 中,看来 真的在推广这个新框架。
巴特,有网友认为训练VeLO需要4000个TPU月,计算成本太大:
虽然这一进展很重要,但它甚至接近赶上 GPT-3 的训练量。
目前VeLO已经开源,有兴趣的合作伙伴可以尝试这个新的AI优化器。
还有一件事
前段时间,一位哈佛博士生提出了一个有趣的想法,得到了很多人的赞同:
更多论文的作者也应该披露他们在论文中的工作,就像学分一样。
卡尔是生物统计学领域的博士生,作者的贡献在生物论文中很常见,但以前在人工智能论文中很少见。
现在,
这篇 Brain论文的作者也做了同样的事情,很明显是谁写了这篇论文,谁构建了框架:
不知道未来会不会成为机器学习圈(手动狗头)的新趋势。
地址:///
树/主///
论文地址:/
abs/2211.09760
参考链接:
[1]///
[2]//从零到元到元#afeb
[3]/s/wg—
完—
@Qubit ·跟踪 AI 技术和产品的新发展
深受感动的朋友,欢迎大家一致同意、关注、分享三连❤三