DeepSeek上周发布了开源模型DeepSeek-R1,并声称其性能可以与OpenAI的o1正式版相媲美,这一消息在海外AI业界引发了广泛讨论。焦点在于,当开源模型的能力达到甚至超越最新的闭源模型时,可能会改变整个大模型的竞争格局。
根据DeepSeek的介绍,DeepSeek-R1在Codeforces、GPQA Diamond、MATH-500、MMLU、SWE-bench Verified等测试中的得分接近或超过o1正式版。该模型在后训练阶段大规模应用了强化学习技术,在仅有少量标注数据的情况下显著提升了推理能力。
Meta首席AI科学家Yann Lecun认为,DeepSeek-R1的发布意味着开源大模型正在超越闭源模型,而不是单纯地表明中国公司在AI领域超越美国公司。他表示,DeepSeek将从开放研究和开源中受益,类似于Meta的PyTorch和Llama。通过提出新想法并在他人工作的基础上进行实现,由于这些工作是公开和开源的,每个人都能从中获益,这就是开放研究和开源的力量。
短短一个月内,中国AI初创公司深度求索(DeepSeek)发布了两款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-26 15:51:02DeepSeek新模型火到海外DeepSeek发布了新款开源多模态AI模型Janus-Pro。该模型在GenEval和DPG-Bench基准测试中表现优异,超越了OpenAI的DALL-E 3和Stable Diffusion
2025-01-28 09:17:49DeepSeek发布新模型阿里云通义千问超大规模的MoE模型Qwen2.5-Max于1月29日凌晨正式上线。该模型是阿里云通义团队对MoE模型的最新成果,预训练数据超过20万亿tokens
2025-01-30 13:16:20阿里新模型声称超越DeepSeek近日,一则关于AI的新闻在全球范围内引起了广泛关注。斯坦福大学和华盛顿大学的研究人员发表了一篇论文,展示了他们以不到50美元(约364元)的云计算费用训练出的一款名为S1的推理模型
2025-02-08 09:05:58364元就能开发DeepSeek模型北京时间1月28日凌晨,农历新年前夕,中国人工智能初创公司DeepSeek在GitHub和Hugging Face上发布了多模态大模型Janus-Pro,进军文生图领域
2025-01-29 04:29:50DeepSeek文生图新模型优于OpenAI