昨晚,DeepSeek 无预警发布了 DeepSeek-V3-0324 模型。虽然官方低调地称其为“小版本迭代”,但实测表现远超预期。该模型在代码生成、前端开发等方面显著提升,部分能力甚至比肩 Claude 3.7 Sonnet,引发了全球 AI 社区的热议。
在大模型竞技场测试 KCORES 中,DeepSeek-V3-0324 的代码能力得分为 328.3 分,超越了普通版 Claude 3.7 Sonnet 的 322.3 分,接近 Claude 3.7 Sonnet 思维链版本的 334.8 分。在 Aider LLM Leaderboard 排行榜中,DeepSeek-V3-0324 在多语言基准测试中的得分为 55%,比 V3 有显著提升,略低于 R1。在非思考/推理模型中,它排名第二,仅次于 Claude Sonnet 3.7。
测试数据还显示,在表现良好的模型中,DeepSeek-V3-0324 的花费最低,比 R1 低很多,仅需约 1/5 的成本,具有极高的性价比。Claude Sonnet 3.7 Thinking 的花费是 DeepSeek-V3-0324 的 33 倍,o1 则是其 167 倍。
目前在 DeepSeek 官网上,只需关闭“深度思考”选项即可使用新模型。Hugging Face 上也提供了开源下载。DeepSeek-V3-0324 包含 685B 参数,较前代 V3 小幅增加,采用 MoE(专家混合)架构,激活参数 370 亿。网友实测 DeepSeek-V3-0324 支持 4-bit 量化,可在 512GB M3 Ultra Mac 上以 20+ token/s 速度运行,磁盘占用仅 352GB。新模型采用与 DeepSeek-R1 相同的 MIT 许可,允许自由修改、商用及模型蒸馏,比上一版 V3 更开放。
从测评结果来看,DeepSeek-V3-0324 在前端开发方面表现突出,媲美顶级商业模型。X 博主 Deepanshu Sharma 使用简单提示词“用 HTML/CSS/JS 制作现代化登录页面”,就能让新版 V3 一键生成 800 多行代码,并且无错误运行,效果堪比 Claude 3.7 Sonnet。在经典弹跳小球测试中,DeepSeek V3-0324 不仅比 R1 表现更好,还生成了最流畅的动作。o3-mini 初始表现良好,但未能正确遵循物理原理,特别是在视频中间,球对重力没有做出正确的反应。Deepanshu Sharma 评价 DeepSeek V3-0324“表现得像唯一排名第一的非推理模型”。
在最近的CES展上,多款AI陪伴玩具如仿拉布拉多犬JENNIE和情感宠物ROPET等参展,引起了广泛关注。华福证券的研究报告指出,AI玩具结合了教育与陪伴功能,成为面向消费者市场最具潜力的发展方向之一
2025-01-19 19:30:06AI玩具有望成最快爆发的AI终端之一近日,《财富》杂志官网报道,Cerebras Systems宣布其晶圆级AI芯片在执行700亿个参数的DeepSeek-R1中型模型时,速度比当前最快的GPU快57倍
2025-02-04 18:10:59业内美东时间10月30日公布的最新数据显示,尽管美国东南部遭遇了毁灭性的风暴并出现了大规模罢工,但有“小非农”之称的美国ADP就业数据创下了一年多来的最高水平,表明企业对工人的需求出人意料地强劲
2024-10-31 13:59:16美国10月小非农远超预期石油输出国组织(欧佩克)4月3日发表声明称,8个欧佩克和非欧佩克产油国决定自2024年5月起每日增产41.1万桶。这一增产量远高于市场预期
2025-04-05 09:44:40俄罗斯等8国宣布增产石油11月21日,英伟达发布了第三季度财报。该季度营收达到351亿美元,同比增长93.7%,超出市场预期的332.5亿美元。数据中心收入为308亿美元,高于市场预期的291.4亿美元
2024-11-21 10:03:03英伟达三季度收入达351亿美元