中华网 china.com

新闻

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

关键词:
2024-04-18 12:57:16  搜狐网

谷歌和Meta相继在无限长上下文建模领域展开角逐。Transformer模型因二次复杂度及对长序列处理的局限性,尽管已有线性注意力和状态空间模型等次二次解决方案,但其预训练效率和下游任务准确性仍不尽人意。谷歌近期推出的Infini-Transformer通过创新方法,使大型语言模型能够处理无限长输入,且无需增加内存与计算需求,引发业界关注。

紧随其后,Meta携手南加州大学、CMU、UCSD等研发团队,推出了名为MEGALODON的神经架构,同样致力于无限长文本的高效序列建模,上下文长度无任何限制。MEGALODON在MEGA架构基础上,引入了复数指数移动平均(CEMA)、时间步归一化层、归一化注意力机制及具备双特征的预归一化残差配置等技术组件,旨在提升模型能力和稳定性。

在与LLAMA2的对比试验中,拥有70亿参数、经过2万亿训练token的MEGALODON展现出超越Transformer的效率优势。其训练损失为1.70,介于LLAMA2-7B(1.75)与13B(1.67)之间。一系列基准测试进一步证实了MEGALODON在不同任务与模式中相对于Transformers的显著改进。

MEGALODON的核心改进在于对MEGA架构的优化,利用门控注意力机制与经典指数移动平均法。为增强大规模长上下文预训练的能力与效率,研究者引入了CEMA,将MEGA中的多维阻尼EMA扩展至复数域;并设计了时间步归一化层,将组归一化应用于自回归序列建模,实现沿顺序维度的归一化。此外,通过预归一化与两跳残差配置调整,以及将输入序列分块为固定块,确保了模型训练与推理过程中的线性计算与内存复杂性。

在与LLAMA2的直接较量中,MEGALODON-7B在同等数据与计算资源条件下,训练困惑度显著低于最先进的Transformer变体。针对长上下文建模能力的评估涵盖了从2M的多种上下文长度到Scrolls中的长上下文QA任务,充分证明了MEGALODON处理无限长度序列的能力。此外,在LRA、ImageNet、Speech Commands、WikiText-103和PG19等中小型基准测试中,MEGALODON在体量与多模态处理方面展现卓越性能。

论文详细介绍了MEGALODON的技术创新,包括对MEGA架构中关键组件的回顾及存在问题的探讨。为解决MEGA面临的表达能力受限、架构差异及无法大规模预训练等问题,研究者创新提出CEMA,将多维阻尼EMA扩展至复数域;引入时间步归一化,通过计算累积均值与方差,将组归一化扩展至自回归情况;定制归一化注意力机制以提升稳定性;并设计具有Two-hop残差的预范数结构,有效应对模型规模扩大带来的预归一化不稳定问题。

实验结果显示,MEGALODON在长上下文序列建模的可扩展性与效率上表现出色。在相同训练token下,MEGALODON-7B的负对数似然(NLL)优于LLAMA2-7B,显示出更高的数据效率。在不同上下文长度下的WPS(word/token per second)对比中,MEGALODON-7B在处理长上下文时速度明显快于LLAMA2-7B,印证了其在长上下文预训练中的计算效率优势。

在各项基准测试中,MEGALODON均展现出优秀性能,无论是在短上下文任务,还是长上下文任务,以及指令微调、中等规模基准评估(如ImageNet-1K图像分类与PG-19文本生成)等方面,MEGALODON均取得优异成绩,部分甚至超越已使用RLHF进行对齐微调的模型。这些成果充分验证了MEGALODON在无限长上下文建模领域的先进性与广泛应用潜力。

(责任编辑:张蕾)
关闭

瑞幸称凯旋麦麦酒精度低于0.5度 喝完勿开车

瑞幸称凯旋麦麦酒精度低于0.5度2024-07-02 11:10:38

当27岁的阿斯塔纳遇上23岁的上合,一起找寻青春的气息!

当27岁的阿斯塔纳遇上23岁的上合2024-07-02 11:09:23

什么是住房公积金年度结息?

什么是住房公积金年度结息2024-07-02 11:07:47

湖南一工作人员防汛时被水冲走失联

湖南一工作人员防汛时被水冲走失联2024-07-02 11:01:36

菲律宾,又传来一个坏消息

菲律宾,又传来一个坏消息2024-07-02 09:39:24

高三女生卖游戏ID反被骗900元

高三女生卖游戏ID反被骗900元2024-07-02 11:03:44

农村学生营养餐补贴不能成“唐僧肉”

媒体:学生营养餐岂能成为唐僧肉2024-07-02 10:58:33

160万房降到39万可以不还房贷吗?楼市寒冬下的购房者困境

160万房降到39万可以不还房贷吗2024-07-02 11:03:43

匈牙利接任欧盟轮值主席国前夕,欧尔班发文:欧盟领导层想与俄开战

匈牙利接任欧盟轮值主席国前夕,欧尔班发文:欧盟领导层想与俄开战2024-07-01 10:10:32

炒作所谓“间谍”风险,白宫欲对中国起重机加税,美港口群起反对!

炒作所谓“间谍”风险,白宫欲对中国起重机加税,美港口群起反对!2024-07-02 10:11:08

美国究竟有多少核弹头?最新数据

美国究竟有多少核弹头?最新数据2024-07-01 10:06:48

“宁愿死也不参军!”以色列极端正统派上街抗议征兵

“宁愿死也不参军!”以色列极端正统派上街抗议征兵2024-07-02 10:03:15

平江暴雨为何洪水排不出去 道路塌方引担忧

平江暴雨为何洪水排不出去2024-07-02 10:59:18

法国“屏住呼吸”举行议会选举!美媒:此次选举可能“撼动欧盟与北约”

法国“屏住呼吸”举行议会选举!美媒:此次选举可能“撼动欧盟与北约”2024-07-01 09:57:53

上海空港口岸入境旅客数量持续增长 外籍旅客增幅显著

上海空港口岸入境旅客数量持续增长2024-07-02 11:00:02

以色列在加沙试点逐渐取代哈马斯,被哈马斯武力挫败

以色列在加沙试点逐渐取代哈马斯,被哈马斯武力挫败2024-07-02 09:56:55

高校回应开设"导弹维修技术"专业:是真的

高校回应开设导弹维修技术专业2024-07-02 11:04:09

议起复盘 马刺童话过于美好 勇士三叉戟解体终究未能复制传奇

议起复盘 马刺童话过于美好 勇士三叉戟解体终究未能复制传奇2024-07-02 11:00:19

大选辩论后,拜登陷入“劝退”漩涡!美媒刊文:“他已不是4年前的他了”

大选辩论后,拜登陷入“劝退”漩涡!美媒刊文:“他已不是4年前的他了”2024-07-01 09:56:21

党内盟友涌向媒体,千方百计转移话题,拜登开展危机公关救选情!

党内盟友涌向媒体,千方百计转移话题,拜登开展危机公关救选情!2024-07-02 10:15:18

限制北约收集情报,威胁击落美无人机!俄军考虑在黑海设立禁飞区

限制北约收集情报,威胁击落美无人机!俄军考虑在黑海设立禁飞区2024-07-01 10:05:32

张志杰母亲听闻噩耗病倒入院 家庭支柱骤失引悲痛

张志杰母亲听闻噩耗病倒入院2024-07-02 11:03:27

美媒炒作:盟友不是信不过拜登,质疑声太多恐“便宜”了中俄

美媒炒作:盟友不是信不过拜登,质疑声太多恐“便宜”了中俄2024-07-01 10:09:25

央行今年多次提示长债风险 债市"纠偏"行动升级

央行今年多次提示长债风险2024-07-02 10:59:42

国会请愿网站一度瘫痪!80万韩国网民要求“弹劾尹锡悦”

国会请愿网站一度瘫痪!80万韩国网民要求“弹劾尹锡悦”2024-07-02 10:19:06

新华社谈张志杰离世:生命至上应是赛场的最高规则

新华社谈张志杰离世:生命至上2024-07-02 11:05:12

卫星影像显示山东舰抵菲附近海域,外媒猜测有“威慑”之意?军事专家解读

卫星影像显示山东舰抵菲附近海域,外媒猜测有“威慑”之意?军事专家解读2024-07-01 09:53:57

中企高管菲律宾被撕票 疑受邀前去考察

中企高管菲律宾被撕票 疑受邀前去考察2024-07-02 11:06:39

什么是住房公积金年度结息?

什么是住房公积金年度结息2024-07-02 11:07:47

瑞幸称凯旋麦麦酒精度低于0.5度 喝完勿开车

瑞幸称凯旋麦麦酒精度低于0.5度2024-07-02 11:10:38

当27岁的阿斯塔纳遇上23岁的上合,一起找寻青春的气息!

当27岁的阿斯塔纳遇上23岁的上合2024-07-02 11:09:23

中国一个“管理条例”,又让西方破了大防

中国一个“管理条例”,又让西方破了大防2024-07-02 09:43:29

泽连斯基称不排除与俄“迂回”谈判,乌媒:谈判态度发生“180度大转弯”!

泽连斯基称不排除与俄“迂回”谈判,乌媒:谈判态度发生“180度大转弯”!2024-07-02 10:20:00

“买家秀”!塞尔维亚首次公开展示红旗-17AE防空系统

“买家秀”!塞尔维亚首次公开展示红旗-17AE防空系统2024-07-01 10:04:00

相关新闻