马斯克评论称:“有趣的分析。我所见过的最好的。”“AI 将无处不在。”
关于 DeepSeek r1 的真相与细节,该应用在相关 App Store 类别中下载量排名第一,领先于 ChatGPT,并且超过了 Gemini 和 Claude 的表现。从质量角度看,它与 o1 相当,但不及 o3。r1 实现了真正的算法突破,在训练和推理方面都显著提高了效率。FP8 训练、MLA 和多 token 预测都有重要意义。尽管其训练成本仅为 600 万美元,但这数字可能具有误导性。即使硬件架构新颖,值得注意的是他们使用 PCI-Express 进行扩展。
根据技术论文,600 万美元并不包括前期研究和架构、算法及数据消融实验的成本。这意味着只有在实验室已经在前期研究上投入数亿美元并且能够访问更大规模集群的情况下,才能以 600 万美元的成本训练出 r1 质量的模型。DeepSeek 显然拥有远超 2048 个 H800 的算力;早期的一篇论文提到拥有 10000 个 A100 的集群。一个同样聪明的团队不可能仅凭 600 万美元就能启动 2000 个 GPU 集群并从头开始训练 r1。大约 20% 的 Nvidia 收入来自新加坡,但 20% 的 Nvidia GPU 可能并不在新加坡。存在大量的知识蒸馏,如果没有对 GPT-4o 和 o1 的无障碍访问,他们可能无法完成这个训练。限制前沿 GPU 的访问权限却不对中国蒸馏美国前沿模型的能力采取任何措施,这显然违背了出口限制的目的。
DeepSeek r1 确实具有重要意义,尤其在推理成本上比 o1 低得多且效率更高,这比 600 万美元的训练成本更具意义。r1 的每次 API 调用成本比 o1 低 93%,可以在高端工作站上本地运行,而且似乎没有遇到任何速率限制。简单计算一下,每 10 亿个活跃参数在 FP8 下需要 1GB 的 RAM,因此 r1 需要 37GB 的 RAM。批处理大大降低了成本,更多的计算能力增加了每秒 token 数,所以云端推理仍然具有优势。这里还存在真正的地缘政治动态,“Stargate”之后发布并非巧合。
近日,中国机器人创业公司宇树科技发布了最新机器狗产品B2-W的演示视频,引起了全球关注。许多国外网友表示被中国的科技实力震撼
2024-12-29 13:21:43马斯克评论中国机器狗产品马斯克的“仇人”名单上最近新增了中国AI创业公司DeepSeek。过去一个月,这家以少量资源开发出顶级性能R1开源大模型的公司持续受到全球关注
2025-01-31 13:48:55马斯克为何成DeepSeek头号黑粉当地时间周三晚,一架美国航空公司的支线飞机与一架美国陆军的黑鹰直升机在华盛顿特区上空相撞,导致客机上的64人和直升机上的3名军人全部遇难。这是自2001年11月以来美国发生的最严重的空难
2025-01-31 13:46:59马斯克评论美国24年来最严重空难