注册登录

中华网 china.com

新闻

国内国际社会体育专题军事财经滚动政务冬奥

Meta无限长文本大模型来了：参数仅7B，已开源高效稳定，超越Transformer(2)

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2024-04-18 12:57:16 搜狐网

论文详细介绍了MEGALODON的技术创新，包括对MEGA架构中关键组件的回顾及存在问题的探讨。为解决MEGA面临的表达能力受限、架构差异及无法大规模预训练等问题，研究者创新提出CEMA，将多维阻尼EMA扩展至复数域；引入时间步归一化，通过计算累积均值与方差，将组归一化扩展至自回归情况；定制归一化注意力机制以提升稳定性；并设计具有Two-hop残差的预范数结构，有效应对模型规模扩大带来的预归一化不稳定问题。

实验结果显示，MEGALODON在长上下文序列建模的可扩展性与效率上表现出色。在相同训练token下，MEGALODON-7B的负对数似然（NLL）优于LLAMA2-7B，显示出更高的数据效率。在不同上下文长度下的WPS（word/token per second）对比中，MEGALODON-7B在处理长上下文时速度明显快于LLAMA2-7B，印证了其在长上下文预训练中的计算效率优势。

在各项基准测试中，MEGALODON均展现出优秀性能，无论是在短上下文任务，还是长上下文任务，以及指令微调、中等规模基准评估（如ImageNet-1K图像分类与PG-19文本生成）等方面，MEGALODON均取得优异成绩，部分甚至超越已使用RLHF进行对齐微调的模型。这些成果充分验证了MEGALODON在无限长上下文建模领域的先进性与广泛应用潜力。

首页上一页 12共 2 页

(责任编辑：张蕾)

关闭

瑞幸称凯旋麦麦酒精度低于0.5度喝完勿开车

瑞幸称凯旋麦麦酒精度低于0.5度2024-07-02 11:10:38

当27岁的阿斯塔纳遇上23岁的上合，一起找寻青春的气息！

当27岁的阿斯塔纳遇上23岁的上合2024-07-02 11:09:23

什么是住房公积金年度结息？

什么是住房公积金年度结息2024-07-02 11:07:47

湖南一工作人员防汛时被水冲走失联

湖南一工作人员防汛时被水冲走失联2024-07-02 11:01:36

菲律宾，又传来一个坏消息

菲律宾，又传来一个坏消息2024-07-02 09:39:24

高三女生卖游戏ID反被骗900元

高三女生卖游戏ID反被骗900元2024-07-02 11:03:44

农村学生营养餐补贴不能成“唐僧肉”

媒体：学生营养餐岂能成为唐僧肉2024-07-02 10:58:33

160万房降到39万可以不还房贷吗？楼市寒冬下的购房者困境

160万房降到39万可以不还房贷吗2024-07-02 11:03:43

匈牙利接任欧盟轮值主席国前夕，欧尔班发文：欧盟领导层想与俄开战

匈牙利接任欧盟轮值主席国前夕，欧尔班发文：欧盟领导层想与俄开战2024-07-01 10:10:32

炒作所谓“间谍”风险，白宫欲对中国起重机加税，美港口群起反对！

炒作所谓“间谍”风险，白宫欲对中国起重机加税，美港口群起反对！2024-07-02 10:11:08

美国究竟有多少核弹头？最新数据

美国究竟有多少核弹头？最新数据2024-07-01 10:06:48

“宁愿死也不参军！”以色列极端正统派上街抗议征兵

“宁愿死也不参军！”以色列极端正统派上街抗议征兵2024-07-02 10:03:15

平江暴雨为何洪水排不出去道路塌方引担忧

平江暴雨为何洪水排不出去2024-07-02 10:59:18

法国“屏住呼吸”举行议会选举！美媒：此次选举可能“撼动欧盟与北约”

法国“屏住呼吸”举行议会选举！美媒：此次选举可能“撼动欧盟与北约”2024-07-01 09:57:53

上海空港口岸入境旅客数量持续增长外籍旅客增幅显著

上海空港口岸入境旅客数量持续增长2024-07-02 11:00:02

以色列在加沙试点逐渐取代哈马斯，被哈马斯武力挫败

以色列在加沙试点逐渐取代哈马斯，被哈马斯武力挫败2024-07-02 09:56:55

高校回应开设"导弹维修技术"专业：是真的

高校回应开设导弹维修技术专业2024-07-02 11:04:09

议起复盘马刺童话过于美好勇士三叉戟解体终究未能复制传奇

议起复盘马刺童话过于美好勇士三叉戟解体终究未能复制传奇2024-07-02 11:00:19

大选辩论后，拜登陷入“劝退”漩涡！美媒刊文：“他已不是4年前的他了”

大选辩论后，拜登陷入“劝退”漩涡！美媒刊文：“他已不是4年前的他了”2024-07-01 09:56:21

党内盟友涌向媒体，千方百计转移话题，拜登开展危机公关救选情！

党内盟友涌向媒体，千方百计转移话题，拜登开展危机公关救选情！2024-07-02 10:15:18

限制北约收集情报，威胁击落美无人机！俄军考虑在黑海设立禁飞区

限制北约收集情报，威胁击落美无人机！俄军考虑在黑海设立禁飞区2024-07-01 10:05:32

张志杰母亲听闻噩耗病倒入院家庭支柱骤失引悲痛

张志杰母亲听闻噩耗病倒入院2024-07-02 11:03:27

美媒炒作：盟友不是信不过拜登，质疑声太多恐“便宜”了中俄

美媒炒作：盟友不是信不过拜登，质疑声太多恐“便宜”了中俄2024-07-01 10:09:25

央行今年多次提示长债风险债市"纠偏"行动升级

央行今年多次提示长债风险2024-07-02 10:59:42

国会请愿网站一度瘫痪！80万韩国网民要求“弹劾尹锡悦”

国会请愿网站一度瘫痪！80万韩国网民要求“弹劾尹锡悦”2024-07-02 10:19:06

新华社谈张志杰离世：生命至上应是赛场的最高规则

新华社谈张志杰离世:生命至上2024-07-02 11:05:12

卫星影像显示山东舰抵菲附近海域，外媒猜测有“威慑”之意？军事专家解读

卫星影像显示山东舰抵菲附近海域，外媒猜测有“威慑”之意？军事专家解读2024-07-01 09:53:57

中企高管菲律宾被撕票疑受邀前去考察

中企高管菲律宾被撕票疑受邀前去考察2024-07-02 11:06:39

什么是住房公积金年度结息？

什么是住房公积金年度结息2024-07-02 11:07:47

瑞幸称凯旋麦麦酒精度低于0.5度喝完勿开车

瑞幸称凯旋麦麦酒精度低于0.5度2024-07-02 11:10:38

当27岁的阿斯塔纳遇上23岁的上合，一起找寻青春的气息！

当27岁的阿斯塔纳遇上23岁的上合2024-07-02 11:09:23

中国一个“管理条例”，又让西方破了大防

中国一个“管理条例”，又让西方破了大防2024-07-02 09:43:29

泽连斯基称不排除与俄“迂回”谈判，乌媒：谈判态度发生“180度大转弯”！

泽连斯基称不排除与俄“迂回”谈判，乌媒：谈判态度发生“180度大转弯”！2024-07-02 10:20:00

百花奖提名揭晓：《万里归途》《封神》领衔竞争激烈

百花奖提名2024-07-02 11:04:04

“买家秀”！塞尔维亚首次公开展示红旗-17AE防空系统

“买家秀”！塞尔维亚首次公开展示红旗-17AE防空系统2024-07-01 10:04:00

相关新闻

中国大模型登顶全球开源第一！
金融领域正成为大型模型应用的重要潜在场景。度小满公司近期在金融大模型的实践上取得显著进展，致力于解决该领域落地的实际难题，并把握信息技术进步带来的机遇，加速推进大模型的研发与应用，以强化其技术基础
2024-06-27 13:34:44中国大模型登顶全球开源第一
昆仑万维宣布天工3.0大模型开启公测，拥有4000亿参数
4月17日，昆仑万维发布重要消息：其自主研发的“天工3.0”基座大模型及“天工SkyMusic”音乐大模型已面向公众开放公测
2024-04-17 15:00:08昆仑万维宣布天工3.0大模型开启公测
Meta CEO扎克伯格最新采访：最强开源模型Llama 3凭什么值百亿美金
Meta公司近日震撼发布开源大语言模型Meta Llama 3，此举被视为人工智能发展历程中的重要里程碑。Llama 3首批推出两款版本，分别拥有80亿参数（Llama 3 8B）和700亿参数（Llama 3 70B）。
2024-04-19 13:49:45Meta
昇腾社区回应华为发布会被指造假：是读取外部开源大模型实时生成的图片
5月16日，昇腾社区就网传发布会演示造假的质疑做出回应。在5月10日的鲲鹏昇腾开发者大会上，他们展示了一项mxRAG SDK的功能，旨在向开发者证明仅需少量代码就能快速开发RAG应用
2024-05-16 14:24:44昇腾社区回应华为发布会被指造假：是读取外部开源大模型实时生成的图片
美国最该尴尬的，是今天中国开源模型们重大的贡献通义大模型引领创新潮
5月9日的阿里云AI智领者峰会上，阿里云首席技术官周靖人分享了通义大模型的最新应用和服务数据。据统计，通义大模型通过阿里云已服务于超过9万家企业，而通过钉钉平台，这一数字达到了220万
2024-05-11 21:21:50美国最该尴尬的
斯坦福AI团队“套壳”清华系开源大模型被实锤，被揭穿后全网删库跑路学术诚信警钟再响
近期，斯坦福大学的人工智能研究团队推出了一款名为Llama3-V的多模态大型模型，宣称其性能超越了GPT-4V等其他知名模型
2024-06-04 20:06:10斯坦福AI团队“套壳”清华系开源大模型被实锤

今日热点

扬州大学书记校长同日调整新领导履新到位

泽连斯基再对欧尔班展现粗鲁态度拒绝停火提议

德国汽车袭击圣诞市场致2死嫌疑人被捕

吴奇隆前妻点赞网友离婚评论引发热议

频道热点

主编邮箱
网上不良信息举报电话：010-56177181

关于中华网 | 广告服务 | 联系我们 | 招聘信息 | 版权声明 | 豁免条款 | 友情链接 | 中华网动态
版权所有中华网