虽然OpenAI的一些模型也使用了RL技术,性能与DeepSeek-R1相当,但卡帕西表示他大约80%-90%的查询依然由GPT-4o完成,只有遇到非常困难的代码和数学问题时才会使用思考模型。
强化学习是一种强大的学习方式,这一点已在围棋领域得到验证。DeepMind开发的AlphaGo通过自博弈和强化学习突破了人类棋手的实力上限。AlphaGo通过广泛尝试制胜策略,甚至超越了顶级玩家李世石。理论上,强化学习可以持续运行,但由于成本原因,DeepMind团队选择在某些时候停止。通过DeepSeek-R1,我们开始看到强化学习在大语言模型推理问题上的巨大潜力。
未来,如果我们继续在大语言模型领域扩展强化学习,可能解锁那些让人类难以理解的解决方案。这可能包括发现新的类比、思考策略,甚至是发明一种更适合思考的语言。实现这些的前提是为模型创造足够大的问题集,让其不断优化和完善解决问题的策略。
卡帕西还预言了未来几大AI趋势,包括多模态AI和测试时训练。由于音频、图片、视频等内容都可以被token化,采用大语言模型的训练逻辑将提升模型在相关领域的表现。此外,测试时训练将成为AI研究的前沿方向,允许模型根据新数据微调参数,更好地应对特定问题。
强化学习作为上一个世代AI能力突破的重要方向,由DeepSeek在生成式AI时代再度发扬光大。尽管有一些质疑声音,但许多专注于技术本身的AI开发者认为,DeepSeek的开源突破对整个AI界的发展是有利的,他们期待DeepSeek带来更多惊喜。AI大牛卡帕西盛赞DeepSeek!
最近,社交平台上涌现出大量关于AI算命的讨论。以DeepSeek为代表的AI算命在年轻人中掀起了一股热潮,成为他们在应对婚恋、职场等压力时的“救命稻草”
2025-02-16 19:52:04DeepSeek爆火的启示2025年将是AI商业化落地的重要一年,智能手机行业的竞争尤为激烈。苹果CEO库克曾表示,在已开放使用Apple Intelligence技术的国家内,iPhone 16系列销量更高
2025-02-25 21:09:04分析我们需要更多的DeepSeek。过去几年里,中国大模型从业者们经常被问及中国距离追上ChatGPT还有多远。2025年初,这个问题有了新的答案
2025-02-21 17:49:36DeepSeek爆火十年后,当人们回望2025年时,或许会感慨这一年是时代的转折点。宇树科技的机器人在春晚上惊艳亮相,随后国产AI大模型DeepSeek诞生,并迅速应用于深圳福田区政务系统,提升了公文处理效率和准确率
2025-02-22 00:15:12DeepSeek时代的生存指南DeepSeek今日宣布启动“开源周”,首个开源的代码库为Flash MLA,这是针对Hopper GPU优化的高效MLA解码内核,专门对可变长度序列进行了优化,目前已投入生产
2025-02-24 18:17:43DeepSeek启动开源周