在与LLAMA2的直接较量中,MEGALODON-7B在同等数据与计算资源条件下,训练困惑度显著低于最先进的Transformer变体。针对长上下文建模能力的评估涵盖了从2M的多种上下文长度到Scrolls中的长上下文QA任务,充分证明了MEGALODON处理无限长度序列的能力。此外,在LRA、ImageNet、Speech Commands、WikiText-103和PG19等中小型基准测试中,MEGALODON在体量与多模态处理方面展现卓越性能。
论文详细介绍了MEGALODON的技术创新,包括对MEGA架构中关键组件的回顾及存在问题的探讨。为解决MEGA面临的表达能力受限、架构差异及无法大规模预训练等问题,研究者创新提出CEMA,将多维阻尼EMA扩展至复数域;引入时间步归一化,通过计算累积均值与方差,将组归一化扩展至自回归情况;定制归一化注意力机制以提升稳定性;并设计具有Two-hop残差的预范数结构,有效应对模型规模扩大带来的预归一化不稳定问题。
实验结果显示,MEGALODON在长上下文序列建模的可扩展性与效率上表现出色。在相同训练token下,MEGALODON-7B的负对数似然(NLL)优于LLAMA2-7B,显示出更高的数据效率。在不同上下文长度下的WPS(word/token per second)对比中,MEGALODON-7B在处理长上下文时速度明显快于LLAMA2-7B,印证了其在长上下文预训练中的计算效率优势。
4月17日,昆仑万维发布重要消息:其自主研发的“天工3.0”基座大模型及“天工SkyMusic”音乐大模型已面向公众开放公测
2024-04-17 15:00:08昆仑万维宣布天工3.0大模型开启公测原标题:女演员表演时坠落身亡,官方通报!@滨江发布微博2月1日发布通报,1月28日晚,杭州市滨江区开元广场发生一起演出人员坠亡事故,教训深刻,令人警醒。
2024-02-02 08:11:49杭州杂技表演坠亡事故已成立调查组财联社12月5日讯(编辑周子意)《联合国气候变化框架公约》第28次缔约方大会(COP28)目前仍在迪拜进行中,而在开幕后的头四天内
2023-12-05 14:09:52已超570亿美元!COP28开幕仅四天就已收获巨额资金承诺近日,有网传视频显示,一消费者吐槽宁夏吴忠一家羊杂碎店,一盘凉拌黄瓜只有盘子中间一丢丢卖到16元,引发网友热议。
2024-04-09 13:25:41官方通报16元凉菜仅一点黄瓜随着AI技术的飞速发展,众多汽车制造商正致力于将AI大模型融入汽车设计中,以此增强车辆的智能化特性。
2024-04-29 17:01:49北京车展“哪吒闹海”:欲将AI大模型上车