过去一周,中国的人工智能大模型成为硅谷乃至全球科技界的热议话题。引发这场讨论的是中国人工智能初创公司深度求索(DeepSeek)。该公司上周发布的推理大模型DeepSeek-R1因其性能可比肩OpenAI的o1、极低的服务价格以及代码和模型架构的完全开源而震惊业界。
多位知名科技人士对DeepSeek近期取得的成就表示赞叹。Scale AI创始人亚历山大·王称,美国可能在过去的十年里一直领先于中国,但DeepSeek的发布可能会“改变一切”。加州大学伯克利分校计算机科学教授伊恩·斯托伊卡表示,DeepSeek-R1只需花费训练GPT、Gemini和Claude等现有大模型的一小部分成本即可获得最先进的结果,并且在该校的大模型排行榜中排名第三。
这一成就在美国对华芯片出口管制加强的背景下实现。斯托伊卡认为,限制条件和资源匮乏往往会激发创新。
受到规模定律的影响,全球AI大模型开发长期以来陷入了一场关于顶尖人才、先进算力和巨额投资的竞争。各大科技公司大量囤积芯片以确保充足的算力。然而,当越来越多科学家开始质疑堆数据和堆算力的做法时,中国量化交易公司幻方量化旗下的人工智能初创公司DeepSeek横空出世,通过优化模型架构和基础设施等方式快速突进。
早在去年12月,该公司推出的DeepSeek-V3展现了极致性价比。从技术报告来看,该模型仅需2.788M H800 GPU小时,训练成本仅为557万美元,但其性能与GPT-4o和Claude Sonnet 3.5等顶尖模型相当。著名人工智能科学家卡帕西指出,这种级别的能力通常需要接近16000颗GPU的集群。
最新发布的DeepSeek-R1在服务价格上也具有明显优势。其API服务定价为每百万输入tokens 1元(缓存命中)/ 4元(缓存未命中),分别是OpenAI o1的2%和3.6%。外界普遍认为,美国尖端芯片出口管制并没有削弱中国的AI能力,反而推动了DeepSeek等初创公司以效率、资源池和协作的方式进行创新。
短短一个月内,中国AI初创公司深度求索(DeepSeek)发布了两款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-27 08:21:32DeepSeek大模型强在哪白头鹰再次针对一家小公司采取行动,使用的依旧是那些熟悉的手段。近期,一家初创公司推出的DeepSeek软件在全球范围内引起轰动,在160多个国家的AI软件下载排行榜上位居榜首
2025-02-04 19:33:47DeepSeek美股泡沫得以延续短短一个月内,中国AI初创公司深度求索(DeepSeek)发布了两款大模型——DeepSeek-V3和DeepSeek-R1
2025-01-26 10:34:01DeepSeek让Meta深陷恐慌