DeepSeek近期的一系列动作,尤其是其模型的发布,迫使OpenAI在深夜紧急推出了o3-mini。过去半个月里,中国AI公司在国内外媒体上频频亮相,影响力持续上升。关于DeepSeek的模型训练数据、GPU用量、成员构成以及强化学习算法等细节,成为了公众关注的焦点。
SemiAnalysis的一篇深度报道对这些方面进行了详细推测。报道指出,DeepSeek不是简单的副业项目,其在硬件上的支出远超5亿美元。论文中提到的600万美元仅是预训练阶段的GPU成本,而研发和硬件总拥有成本并未计算在内。据估计,DeepSeek拥有约5万块Hopper GPU,包括特供版H800和H20,并且有150名员工,其中不乏来自北大、浙大的顶尖人才,优秀候选人的年薪可高达934万元人民币。
DeepSeek的一个关键创新是多头潜注意力机制(MLA),这一技术显著降低了推理成本。V3模型性能超越了R1和o1,而谷歌的Gemini 2.0 Flash Thinking与R1不相上下。此外,H100的价格因V3和R1的发布而猛涨,体现了杰文斯悖论的作用。
幻方量化作为DeepSeek的主要投资者,早期就看到了AI在金融领域之外的巨大潜力。2021年,他们购入了1万块A100 GPU,随后在2023年成立了DeepSeek,专注于推进AI技术发展。目前,两家公司在人力资源和计算资源方面保持密切合作。
DeepSeek在人才招聘上注重实际能力和求知欲望,经常在北京大学和浙江大学举办招聘活动。公司提供极具竞争力的薪酬待遇,优秀候选人年薪可达130万美元以上。这种灵活的人才战略使得DeepSeek能够快速扩张。
DeepSeek的成功不仅在于资金充足,还在于高效的运营模式。相较于大公司的繁琐决策流程,DeepSeek能更快地将创新理念付诸实践。他们主要依靠自建数据中心进行技术创新,这为他们在整个技术栈上提供了更大的实验空间。
数据是宝贵的资源,能够帮助投资者减少烦恼。中国AI大模型市场正快速发展。近日,量化巨头幻方量化旗下公司DeepSeek发布了推理大模型DeepSeek-R1
2025-01-27 09:33:36DeepSeek出圈概念股曝光日前,“今日闵行”公众号发布了一篇文章,提到DeepSeek创始人梁文锋2009年曾在位于上海闵行的上海艾麒信息科技股份有限公司实习,负责的内容与人工智能相关
2025-02-11 12:38:48DeepSeek梁文锋实习往事曝光中国AI大模型市场规模正在快速发展。近日,量化巨头幻方量化旗下公司DeepSeek发布了推理大模型DeepSeek-R1
2025-01-27 08:58:14震动科技界工人正在安装中心探测器的不锈钢网架网壳部分。建设中的江门中微子实验中心探测器展示了其壮观景象,工人们在不锈钢网架上进行施工。中微子是构成物质世界的基本粒子之一,也是宇宙中最常见的粒子
2024-10-25 10:34:19地下700米粒子捕手