中国人工智能初创公司DeepSeek在过去一周成为硅谷热议的对象,并触发了本周一美国科技股的大幅下跌。1月29日,OpenAI声称发现证据表明DeepSeek使用其专有模型来训练自己的开源模型,暗示这可能违反了OpenAI的服务条款。但OpenAI没有具体说明这些证据。根据OpenAI的服务条款,用户不能“复制”其任何服务或“使用其输出来开发与OpenAI竞争的模型”。
OpenAI的模型系统是封闭的,但个人用户仍可付费接入其编程接口获取数据。截至发稿时,DeepSeek尚未对此事作出回应。此前,美国政府表示正在组织专家紧急评估DeepSeek的技术及其影响。美国白宫AI和加密货币事务负责人David Sacks提到,未来几个月内,美国领先的人工智能公司将采取措施,试图防止其他公司对“蒸馏技术”的获取。
DeepSeek模型的技术突破引起了美国总统特朗普的关注。特朗普表示,这款中国AI应用程序应该成为美国公司的“激励因素”。他认为如果中国能够开发出更便宜的人工智能技术,美国公司也会效仿,以减少成本并找到相同的解决方案。
数据蒸馏是一种业内常见的技术做法,通过一系列算法和策略将原始复杂的数据进行去噪、降维、提炼等操作,从而得到更为精炼、有用的数据。这种技术旨在将复杂模型的知识提炼到简单模型中。据DeepSeek-V3的技术文档显示,该模型使用数据蒸馏技术生成的高质量数据提升了训练效率。通过已有的高质量模型合成少量高质量数据作为新模型的训练数据,从而达到接近于在原始数据上训练的效果。
一位计算机研究人员解释说,以前的大模型训练相当于题海战术,在大量数据中训练;而蒸馏则相当于让优秀大模型充当新模型的老师,筛选出有效题目,再让新的大模型训练。不过有学者认为,蒸馏技术存在“隐性天花板”,虽然可以提高模型训练效率,但开发的模型无法超越基础模型的能力,尤其在多模态数据方面效果不佳。然而,DeepSeek的模型打破了这种观念,其水平已经能与原始的基础模型相提并论。1月28日凌晨,DeepSeek发布了最新视觉模型Janus-Pro,在多模态理解和文生图指令遵从能力方面显著提升,并在多个基准上超越了DALL-E 3与Stable Diffusion。
DeepSeek发布了新款开源多模态AI模型Janus-Pro。该模型在GenEval和DPG-Bench基准测试中表现优异,超越了OpenAI的DALL-E 3和Stable Diffusion
2025-01-28 09:17:49DeepSeek发布新模型阿里云通义千问超大规模的MoE模型Qwen2.5-Max于1月29日凌晨正式上线。该模型是阿里云通义团队对MoE模型的最新成果,预训练数据超过20万亿tokens
2025-01-30 13:16:20阿里新模型声称超越DeepSeek在过去两年的一系列出版物中,高盛认为生成式人工智能可以提高劳动生产率和全球增长,主要因为它能够自动完成大量工作任务。高盛估计,在广泛采用该技术后,美国的劳动生产率和GDP水平将累计上涨15%
2025-02-06 22:11:05高盛AI芯片巨头英伟达公司发表声明,称DeepSeek发布的新模型是一项出色的AI进步,符合美国技术出口管制规定
2025-01-29 05:00:03英伟达回应DeepSeek模型