DeepSeek何以创造行业奇迹底层创新引领突破

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2025-01-29 13:45:08 百家号

坚持长期视角，专注底层创新，探索新的路径。一家此前不被多数媒体关注的“小企业”，走开源路线而非闭源或率先开发应用，却在2025年开年成为中国大模型领域科技创新的全球代表。

这家名为DeepSeek（深度求索）的中国大模型企业，最近发布的大模型在多项性能测试中达到了OpenAI最新大模型o1的水平，部分项目甚至实现了超越。这引发了全球科技行业的热烈讨论，有媒体形容“DeepSeek朝硅谷‘开了一枪’”，甚至“震动美国科技界”。

DeepSeek的成功主要体现在两方面。首先是其算力成本投入与表现出来的性能对比超出了行业的一般认知。据媒体报道，DeepSeek r1的训练成本仅为ChatGPT o1的零头。其次是DeepSeek证明了开源路线的逆袭胜利，对大公司、巨头的闭源路线进行了一次颠覆。

然而，这些看法在社交平台上广泛讨论后，出现了一些扭曲。例如，DeepSeek r1的真实算力成本远不止600万美元，最早报道的媒体混淆了论文中的数据。事实上，550万美元是DeepSeek v3在正式训练阶段的成本，不包括前期研究和实验的成本。从行业发展的逻辑来看，探索与迭代、追赶所需的算力成本不应简单对比。创新和探索必然伴随着算力和各项成本的浪费，在确定性路径上的优化所付出的代价与探索未知所付出的代价不宜直接比较。

现阶段大模型的发展还不能定义为闭源与开源路线的成败。更严谨地看待DeepSeek带给我们的惊喜，应该是：它展示了模型架构底层创新的价值，提升了算力效率，并推动了开源大模型产品在能力上的超越，从而进一步提升行业整体的应用研发水平。

尽管这个故事显得有些审慎无聊，但值得探讨的是为什么一家资金量不占优势、专注于底层创新而非商业化的开源企业，能在中国大模型领域实现“弯道超车”。2024年8月，DeepSeek创始人梁文锋在接受采访时提到，团队的目标是AGI（通用人工智能），因此需要研究新的模型结构，在有限资源下实现更强的模型能力。

12 全文共 2 页下一页

关闭

DeepSeek何以创造行业奇迹 底层创新引领突破

相关新闻

今日热点

频道热点

DeepSeek何以创造行业奇迹底层创新引领突破