DeepSeek 风靡全球,成为过去一周人们热议的话题。其每日流量远超Claude、Perplexity甚至Gemini。对于长期关注该领域的人来说,DeepSeek 并不是新事物,几个月来一直在讨论这家公司。虽然公司本身并不新,但近期的炒作确实引人注目。SemiAnalysis 一直认为 DeepSeek 具有才华,但直到最近才引起美国公众的关注。
情况与上个月相比发生了变化。随着算法改进速度加快,对Nvidia和GPU的需求减少,导致产能过剩。尽管杰文斯悖论被夸大了,但它确实反映了这些模型引发的需求变化,影响了H100和H200的定价。
High-Flyer 是一家中国对冲基金,也是在交易算法中使用人工智能的早期采用者。他们在2021年投资了10,000个A100 GPU,这笔投资后来获得了回报。2023年5月,High-Flyer 分拆出“DeepSeek”,专注于进一步的人工智能能力开发。起初由于外部投资者兴趣不大,缺乏商业模式,High-Flyer 自筹资金。如今,High-Flyer 和 DeepSeek 经常共享资源,包括人力和计算资源。DeepSeek 已经发展成为一个严肃且协调一致的努力项目,GPU 投资超过5亿美元。
据估计,DeepSeek 拥有大约50,000个Hopper GPU,其中包括10,000台H800和10,000台H100。他们还订购了更多H20,这些GPU由High-Flyer和DeepSeek共享,用于交易、推理、培训和研究。总服务器资本支出接近13亿美元,运营成本高达7.15亿美元。
DeepSeek 在招聘方面非常注重能力和好奇心,定期在北大和浙江大学等顶尖大学举办招聘活动。他们提供极具竞争力的薪资,吸引了大量人才。目前有约150名员工,发展迅速。由于资金自足,DeepSeek 能够快速实施创意,并拥有自己的数据中心,为实验提供了更多空间。
DeepSeek 的预训练成本仅为600万美元,但这只是总成本的一部分。实际硬件支出远高于5亿美元,包括研发和TCO等重要部分。例如,Claude 3.5 Sonnet 的训练成本为数千万美元。DeepSeek 通过出口管制滞后等因素获得了庞大的集群。
11月13日以来,A股经历阶段性调整,各指数与行业板块呈现普跌态势,市场整体观望情绪加重。
2024-11-25 09:42:30业内解析A股本轮阶段性调整