埃隆·马斯克在社交平台上发文称赞中国人工智能公司月之暗面(Moonshot AI)Kimi团队的一项新近公开的技术成果,称其“令人印象深刻”。这项技术成果引起了广泛关注,尤其是因为作者名单中第一位的“Guangyu Chen”是一位17岁的高中生。这位名叫陈广宇的学生来自深圳,目前仍是一名在读高中生。他在接受采访时强调,希望外界更多关注技术和团队,而不是个人。
论文附录显示,陈广宇、张宇和苏剑林三位作者被标注为“同等贡献”。张宇是Kimi高效模型架构的重要研究者,而苏剑林则因其提出的旋转位置编码(RoPE)在大模型领域享有盛誉。这项成果之所以受到关注,不仅因为它涉及一位高中生,还因为它触及了大模型底层结构的关键问题。
当前主流的大模型大多基于2017年提出的Transformer架构。这一架构改变了文本内部的信息处理方式,但层与层之间的信息传递方法相对固定。传统上常用的方法是“残差连接”,即每算完一层就把前面的信息直接加到下一层。然而,这种方法在层数较深时容易导致重要信息被冲淡。
Kimi团队提出了一种新的“注意力残差”方法,旨在解决这一问题。该方法不再让每一层无差别接收前面所有层的信息,而是由当前层按需选择更值得参考的内容再加以聚合。这种方法在Kimi Linear 48B模型上进行了验证,在相近效果下训练计算量可减少约20%,相当于约1.25倍效率优势,推理延迟增加不到2%。这表明,通过改进底层结构,可以提高信息利用效率,而不仅仅是依靠堆参数和算力来提升模型能力。
陈广宇真正深入接触人工智能研究是在近一年内。他通过研读经典论文和追踪GitHub开源项目等方式打下了基础。后来,他在社交平台上分享对技术博客的反思,引起了一家硅谷AI初创公司CEO的关注,并获得了实习机会。暑假期间,他前往美国实习七周,回国后于去年11月加入Kimi团队实习。
论文发布后,陈广宇在朋友圈回顾这段经历时特别提到同等贡献作者以及从事模型扩展与基础设施工作的同事,称这项工作“缺一不可”。在接受采访时,他多次表示不希望被写成突出个人的故事,而是希望外界看到这是一个团队共同完成的研究,旨在解决大模型底层难题。
近日,深圳一位热心市民“卷尺哥”引起了广泛关注。从2023年3月起,他带着一把卷尺,在深圳的大街小巷穿梭,专门寻找公共设施的问题。令人惊讶的是,他指出的每个问题几乎都被有关部门迅速整改
2025-10-24 18:46:40人民日报点赞卷尺哥3月16日,月之暗面Kimi发布了一份技术报告,对大模型十年未变的核心结构残差连接进行了重新设计。新设计让每一层能够选择性地关注此前各层的输出,而不是统一求和
2026-03-17 15:34:56马斯克点赞kimi科技博主Avi Chawla在X上发了一条长帖,详细拆解了月之暗面Kimi团队刚刚发布的一篇技术报告。帖子发出后不久,马斯克回复说:“月之暗面做出了令人印象深刻的结果”
2026-03-21 10:03:17马斯克说这就是kimi