DeepSeek婉拒所有采访专注研发。DeepSeek的最新动作迫使OpenAI在深夜紧急上线o3-mini。近半个月来,中国的人工智能技术持续占据国内外媒体头条,影响力不断扩大。关于DeepSeek模型的训练数据、GPU使用量、团队构成及强化学习算法等细节成为关注焦点。
SemiAnalysis的一篇深度报道从多个角度进行了推测,包括训练成本、对闭源模型利润的影响以及团队规模等。报道指出,DeepSeek并非简单的副业项目,其在GPU等硬件上的支出超过5亿美元。论文中提到的600万美元仅是预训练阶段的GPU成本,研发和硬件总拥有成本并未计算在内。DeepSeek拥有约5万块Hopper GPU,包括特供版H800和H20。公司大约有150名员工,并定期从北大、浙大等顶尖高校招募人才,优秀候选人年薪可达130万美元。
DeepSeek的一个关键创新是多头潜注意力机制(MLA),该机制显著降低了推理成本。此外,V3模型性能远超R1和o1,谷歌的Gemini 2.0 Flash Thinking与R1不相上下。随着V3和R1的发布,H100价格大幅上涨,这体现了杰文斯悖论的作用。
幻方量化作为DeepSeek的主要投资者,很早就看到了AI在金融领域之外的巨大潜力。他们在2021年购入了10,000块A100 GPU,这一决策后来被证明极具前瞻性。2023年5月,幻方决定分拆成立DeepSeek,以更专注地推进AI技术发展。目前两家公司在人力资源和计算资源方面保持密切合作。
DeepSeek专注于招募中国本土人才,强调实际能力和求知欲望。他们在北京大学和浙江大学等顶尖高校举办招聘活动,提供极具竞争力的薪酬待遇。现有员工约150人,公司保持快速扩张态势。
DeepSeek的定价策略和运营效率引发了广泛关注。尽管预训练阶段的成本仅为600万美元,但整体投入远不止于此。开发新架构的过程中需要大量资源进行测试和验证。例如,多头潜注意力机制的开发周期长达数月,消耗了大量人力和计算资源。
2月19日,有影视大V在社交平台透露,《哪吒之魔童闹海》导演饺子已正式闭关,专注于《哪吒3》的准备工作。可可豆动画的工作人员表示,创作团队已经停止了所有的对外采访,希望观众能把关注度都放在作品上
2025-02-19 21:08:21哪吒创作团队停止所有对外采访在世预赛亚洲区18强赛中,国足遭遇重挫,以0-7的成绩败给日本队。《足球之夜》节目记录了赛后球员们通过混合采访区的情景。面对记者的采访要求,门将王大雷情绪低落地回应:“还是别提了,现在哪有脸说呢
2024-09-09 09:18:05王大雷惨败后婉拒采访在上海某AI公司担任算法工程师的陶如笑言,去年他曾经接到过DeepSeek的工作邀请,但因为担心这家公司不够知名且不会专注于AI领域而放弃了机会。现在看来,他觉得有些遗憾
2025-02-11 08:46:45DeepSeek明确对商业化不感兴趣谁会成为下一个DeepSeek:近百家机构春节期间想托人投资,公司对商业化不感兴趣春节期间,有近百家投资机构试图通过各种渠道接触DeepSeek,希望能够有机会投资
2025-02-11 09:43:21为何是DeepSeek杀出重围