春节期间,DeepSeek新一代开源模型以低成本和高性能引发热议,在全球投资界引起广泛关注。市场上甚至有说法称DeepSeek仅用500万美元就复制了OpenAI,认为这将给整个AI基础设施产业带来重大影响。
对此,华尔街知名投行伯恩斯坦在详细研究DeepSeek的技术文档后发布报告称,这种市场恐慌情绪明显过度。“500万美元复制OpenAI”的说法是市场误读。实际上,这500万美元仅仅是基于每GPU小时2美元的租赁价格估算的V3模型训练成本,并未包括前期研发投入、数据成本以及其他相关费用。
伯恩斯坦认为,虽然DeepSeek的效率提升显著,但从技术角度看并非奇迹。即便DeepSeek确实实现了10倍的效率提升,这也仅相当于当前AI模型每年的成本增长幅度。目前AI计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收,因此对AI板块保持乐观。
关于DeepSeek发布的两大模型V3和R1,伯恩斯坦进行了详细分析。V3模型采用专家混合架构,用2048块NVIDIA H800 GPU、约270万GPU小时达到了可与主流大模型媲美的性能。V3模型结合了多头潜在注意力技术和FP8混合精度训练,使得其在训练时仅需同等规模开源模型约9%的算力,便能达到甚至超越其性能。例如,V3预训练仅需约270万GPU小时,而同样规模的开源LLaMA模型则需要约3000万GPU小时。
MoE架构每次只激活部分参数,减少计算量;MHLA技术降低内存占用,提升效率;FP8混合精度训练在保证性能的同时,进一步提升计算效率。伯恩斯坦认为,与业界3-7倍的常见效率提升相比,V3模型的效率提升并非颠覆性突破。
DeepSeek的R1模型通过强化学习等创新技术,显著提升了推理能力,使其能够与OpenAI的o1模型相媲美。此外,DeepSeek还采用了“模型蒸馏”策略,利用R1模型作为“教师”,生成数据来微调更小的模型,这些小模型在性能上可以与OpenAI的o1-mini等竞争模型相媲美。这种策略不仅降低了成本,也为AI技术的普及提供了新的思路。
伯恩斯坦认为,即便DeepSeek确实实现了10倍的效率提升,这也仅相当于当前AI模型每年的成本增长幅度。在“模型规模定律”不断推动成本上升的背景下,像MoE、模型蒸馏、混合精度计算等创新对AI发展至关重要。根据杰文斯悖论,效率提升通常会带来更大的需求,而非削减开支。该行认为,目前AI计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收。基于以上分析,伯恩斯坦对AI板块保持乐观。
好消息往往来自别人家公司。去年年初,一家名为Jane Street的量化交易机构给实习生开出了1.6万美元(约合人民币11万元)的月薪。那时,这家公司在华尔街还未声名鹊起
2024-11-07 09:43:11实习生月薪14w了华尔街缘何开始上调美股预期当下,美股开启了一轮“特朗普行情”,营商环境的改善及盈利扩张预期下,标普500指数一度突破6000点重要心理关口。
2024-11-19 13:42:30华尔街缘何开始上调美股预期过去一周,DeepSeek R1、字节跳动的豆包1.5 Pro以及月之暗面的Kimi k1.5模型相继推出,引起了全球投资者的高度关注
2025-02-01 13:18:44DeepSeek冲击华尔街