3月1日,DeepSeek在知乎开设官方账号,发布了《DeepSeek-V3/R1推理系统概览》技术文章,首次公开了模型推理系统的优化细节及成本利润率等关键信息,标志着“DeepSeek开源周”正式结束。不久前,月之暗面、微软研究院、清华大学、阶跃星辰等项目参与者也在知乎分享了研究成果和经历。知乎是AI从业者和创业者密度最高的社区之一,此次DeepSeek选择知乎作为发布平台,进一步引领了全网重要的AI趋势。
DeepSeek在知乎发布的文章详细介绍了V3/R1推理系统。该系统的目标是提高吞吐量并降低延迟。为实现这些目标,DeepSeek采用了大规模跨节点专家并行(EP)方案,尽管这增加了系统的复杂性。文章主要探讨了如何使用EP增加批量大小、隐藏传输耗时以及进行负载均衡。
文章还披露了DeepSeek的成本和利润率。假设GPU租赁成本为2美元/小时,总成本为每天87,072美元。如果所有tokens按DeepSeek R1的定价计算,理论上一天的总收入可达562,027美元,成本利润率为545%。
“DeepSeek开源周”从2月24日至2月28日,陆续开源了多个最新技术进展,包括FlashMLA、DeepEP、DeepGEMM和3FS四个项目,以及DualPipe、EPLB等代码库。每次发布都在知乎引发了热烈讨论和赞叹。
知乎大模型话题优秀答主、算法工程师刘聪NPL评价称:“DeepSeek和OpenAI一样重要。”业内人士认为,“DeepSeek开源周”的重要性甚至超过了OpenAI的发布会。DeepSeek通过大量开源有力回应了欧美关于其故意压低训练成本的说法,并证明了训练链路上存在巨大优化空间。知乎编程话题优秀答主平凡也表示,这些工作在国外的AI公司几乎不可能完成。
此次收官文章再次激发了知乎上对AI的讨论热情,相关问题下聚集了许多从业者。事实上,发完论文后在知乎亲自回答已成为人工智能研究者的风潮。例如,2月20日,月之暗面开源MoBA框架的研发人员鹿恩哲和苏剑林在知乎讲述了研发思路,引发业界对稀疏注意力框架的讨论。微软研究院、清华大学团队以及阶跃星辰开源模型参与者也分享了各自的研究成果与历程,被业界称为一次“思维链开源”。
知乎汇聚了广泛的互联网、AI、机器人等科技领域的从业者,成为他们交流思想的重要场所。全球瞩目的DeepSeek将知乎作为开源周的最后一站,进一步印证了知乎作为AI讨论第一阵地的独特价值。
每经AI快讯,2月28日,DeepSeek开源周第五天,DeepSeek在官方X账号宣布开源3FS,它是所有Deepseek数据访问的助推器
2025-02-28 11:52:14DeepSeek开源周第五天DeepSeek今日宣布启动“开源周”,首个开源的代码库为Flash MLA,这是针对Hopper GPU优化的高效MLA解码内核,专门对可变长度序列进行了优化,目前已投入生产
2025-02-24 18:17:43DeepSeek启动开源周吉利与阶跃星辰合作研发的两款多模态大模型已正式开源。这两款模型分别是开源视频生成模型Step-Video-T2V和业内首款产品级开源语音交互大模型Step-Audio
2025-02-19 08:09:19DeepSeek后又一大模型向全球开源DeepSeek发布了新一代开源大模型DeepSeek-R1。该模型在数学、代码、自然语言推理等任务上的性能与美国OpenAI公司的最新o1大模型相当
2025-01-21 22:05:22DeepSeek又有重大突破