DeepSeek正成为AI领域崛起的新星,打破了国内大模型的原有格局。本周,DeepSeek发布了DeepSeek-R1,并同步开源了模型权重。DeepSeek-R1遵循MIT License,允许用户通过蒸馏技术借助R1训练其他模型。
DeepSeek-R1上线了API,对用户开放思维链输出,设置model='deepseek-reasoner'即可调用。该模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能与OpenAI o1正式版相当。同时,DeepSeek开源了两个660B模型,并通过DeepSeek-R1的输出蒸馏出六个小模型,其中32B和70B模型在多项能力上实现了对标OpenAI o1-mini的效果。
DeepSeek-R1 API服务定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元。DeepSeek在美国科技界引起震动,不仅因为其性能与OpenAI的o1相当且完全开源,还以极低成本实现了这一突破。知名投资人马克·安德森表示,DeepSeek R1是他见过最令人惊叹和印象深刻的突破之一,作为开源项目,这是给世界的一份重要礼物。
Scale AI创始人亚历山大·王认为,过去十年美国可能一直在人工智能竞赛中领先于中国,但DeepSeek的发布可能会改变这一局面。DeepSeek-R1与GPT-4o和Claude 3.5 Sonnet相当,训练时计算量减少10倍。这表明在美国人休息时,中国人在工作,并以更便宜、更快、更强的产品迎头赶上。
DeepSeek的动作让Meta的生成式AI团队感到恐慌。Meta CEO扎克伯格宣布加速研发Llama 4,计划投资650亿美元扩建数据中心,并部署130万枚GPU,以确保2025年Meta AI成为全球领先模型。
DeepSeek创始人梁文锋迅速在AI圈内确立地位。梁文锋本硕均就读于浙江大学信息与电子工程学专业。2015年,他与校友共同创立幻方量化。2021年,幻方量化成为国内首家突破千亿规模的量化私募大厂,被称为国内量化私募“四大天王”之一。早年,幻方量化开始大规模布局AI算力,搭建起“萤火一号”集群。2021年,“萤火二号”落成,为DeepSeek提供了快速发展的基础。
DeepSeek团队在预训练方面贡献巨大,包括超强的训练稳定度、深入使用fb8混合精度、多词同时预测、隐空间多注意力头、MOE混合专家等,大大降低了训练成本。他们仅用600万美元就训练出了一个600B的大模型,被视作工程上的奇迹。
分析人士指出,DeepSeek用较低的成本训练出比肩OpenAI o1水平的模型R1,而且R1还开源,这意味着算法有很大的提升空间,不需要那么多GPU和算力。封锁芯片和搞算力壁垒的思路行不通,而依赖大量GPU堆砌效果的模式也受到挑战。DeepSeek的出现可能导致许多购买了数千块NVIDIA芯片的AI初创公司破产,从而导致大量NVIDIA GPU流入二手市场。此外,一些运营数据中心并出租NVIDIA GPU的初创公司也可能受到影响。
这可能刺激更多专用推理模型诞生,创业公司和个人App可能会大幅减少在OpenAI API上的支出,转向开源。评论人士称,DeepSeek整合搜索信息的能力强于某些现有模型,让人对英伟达股价产生怀疑。中美科技底层差距虽然大,但中国拥有巨大的人才红利,有超过6000万工程师,超过美德日韩印总和,这是继续发展的底气和希望。
全球爆火出圈之后,Deepseek的风也席卷了证券业。本周复工以来,包括国泰君安、国金证券、中泰证券、兴业证券、国元证券、华福证券在内的多家券商陆续宣布已完成DeepSeek-R1模型的本地化部署
2025-02-08 16:36:57DeepSeek席卷证券业多家券商火速官宣德国最大电商硬件平台MindFactory发布的2024年第51周销售数据显示,AMD在主板市场上表现出显著优势。AMD的AM5和AM4平台主板总销量远超Intel,市场份额高达90%
2024-12-24 10:46:37德国主板市场上演两极分化消息人士称,索尼早在数年前便启动了下一代游戏主机PS6的芯片招标程序,博通等公司被淘汰后,英特尔与AMD是最后两位入围决赛圈的选手。
2024-09-18 13:43:03AMD击败Intel获PS6芯片合同科技媒体 WccfTech 报道,根据最新财报数据,AMD 在数据中心领域超越了英特尔,成为市场的新领军者。这一变化标志着英特尔在该领域的长期主导地位开始动摇
2024-11-07 19:01:00AMD数据中心业务猛增