谷歌和Meta相继在无限长上下文建模领域展开角逐。Transformer模型因二次复杂度及对长序列处理的局限性,尽管已有线性注意力和状态空间模型等次二次解决方案,但其预训练效率和下游任务准确性仍不尽人意。谷歌近期推出的Infini-Transformer通过创新方法,使大型语言模型能够处理无限长输入,且无需增加内存与计算需求,引发业界关注。
紧随其后,Meta携手南加州大学、CMU、UCSD等研发团队,推出了名为MEGALODON的神经架构,同样致力于无限长文本的高效序列建模,上下文长度无任何限制。MEGALODON在MEGA架构基础上,引入了复数指数移动平均(CEMA)、时间步归一化层、归一化注意力机制及具备双特征的预归一化残差配置等技术组件,旨在提升模型能力和稳定性。
在与LLAMA2的对比试验中,拥有70亿参数、经过2万亿训练token的MEGALODON展现出超越Transformer的效率优势。其训练损失为1.70,介于LLAMA2-7B(1.75)与13B(1.67)之间。一系列基准测试进一步证实了MEGALODON在不同任务与模式中相对于Transformers的显著改进。
MEGALODON的核心改进在于对MEGA架构的优化,利用门控注意力机制与经典指数移动平均法。为增强大规模长上下文预训练的能力与效率,研究者引入了CEMA,将MEGA中的多维阻尼EMA扩展至复数域;并设计了时间步归一化层,将组归一化应用于自回归序列建模,实现沿顺序维度的归一化。此外,通过预归一化与两跳残差配置调整,以及将输入序列分块为固定块,确保了模型训练与推理过程中的线性计算与内存复杂性。
4月17日,昆仑万维发布重要消息:其自主研发的“天工3.0”基座大模型及“天工SkyMusic”音乐大模型已面向公众开放公测
2024-04-17 15:00:08昆仑万维宣布天工3.0大模型开启公测原标题:女演员表演时坠落身亡,官方通报!@滨江发布微博2月1日发布通报,1月28日晚,杭州市滨江区开元广场发生一起演出人员坠亡事故,教训深刻,令人警醒。
2024-02-02 08:11:49杭州杂技表演坠亡事故已成立调查组财联社12月5日讯(编辑周子意)《联合国气候变化框架公约》第28次缔约方大会(COP28)目前仍在迪拜进行中,而在开幕后的头四天内
2023-12-05 14:09:52已超570亿美元!COP28开幕仅四天就已收获巨额资金承诺近日,有网传视频显示,一消费者吐槽宁夏吴忠一家羊杂碎店,一盘凉拌黄瓜只有盘子中间一丢丢卖到16元,引发网友热议。
2024-04-09 13:25:41官方通报16元凉菜仅一点黄瓜随着AI技术的飞速发展,众多汽车制造商正致力于将AI大模型融入汽车设计中,以此增强车辆的智能化特性。
2024-04-29 17:01:49北京车展“哪吒闹海”:欲将AI大模型上车