DeepSeek“蒸馏模型”是否超越原创引发硅谷热议

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2025-01-30 15:49:26 第一财经

中国人工智能初创公司DeepSeek在过去一周成为硅谷热议的对象，并触发了本周一美国科技股的大幅下跌。1月29日，OpenAI声称发现证据表明DeepSeek使用其专有模型来训练自己的开源模型，暗示这可能违反了OpenAI的服务条款。但OpenAI没有具体说明这些证据。根据OpenAI的服务条款，用户不能“复制”其任何服务或“使用其输出来开发与OpenAI竞争的模型”。

OpenAI的模型系统是封闭的，但个人用户仍可付费接入其编程接口获取数据。截至发稿时，DeepSeek尚未对此事作出回应。此前，美国政府表示正在组织专家紧急评估DeepSeek的技术及其影响。美国白宫AI和加密货币事务负责人David Sacks提到，未来几个月内，美国领先的人工智能公司将采取措施，试图防止其他公司对“蒸馏技术”的获取。

DeepSeek模型的技术突破引起了美国总统特朗普的关注。特朗普表示，这款中国AI应用程序应该成为美国公司的“激励因素”。他认为如果中国能够开发出更便宜的人工智能技术，美国公司也会效仿，以减少成本并找到相同的解决方案。

数据蒸馏是一种业内常见的技术做法，通过一系列算法和策略将原始复杂的数据进行去噪、降维、提炼等操作，从而得到更为精炼、有用的数据。这种技术旨在将复杂模型的知识提炼到简单模型中。据DeepSeek-V3的技术文档显示，该模型使用数据蒸馏技术生成的高质量数据提升了训练效率。通过已有的高质量模型合成少量高质量数据作为新模型的训练数据，从而达到接近于在原始数据上训练的效果。

一位计算机研究人员解释说，以前的大模型训练相当于题海战术，在大量数据中训练；而蒸馏则相当于让优秀大模型充当新模型的老师，筛选出有效题目，再让新的大模型训练。不过有学者认为，蒸馏技术存在“隐性天花板”，虽然可以提高模型训练效率，但开发的模型无法超越基础模型的能力，尤其在多模态数据方面效果不佳。然而，DeepSeek的模型打破了这种观念，其水平已经能与原始的基础模型相提并论。1月28日凌晨，DeepSeek发布了最新视觉模型Janus-Pro，在多模态理解和文生图指令遵从能力方面显著提升，并在多个基准上超越了DALL-E 3与Stable Diffusion。

12 全文共 2 页下一页

关闭

DeepSeek“蒸馏模型”是否超越原创 引发硅谷热议

相关新闻

今日热点

频道热点

DeepSeek“蒸馏模型”是否超越原创引发硅谷热议