大家好,我是很帅的狐狸。最近几天DeepSeek的消息引起了广泛关注。这家公司以极低成本训练出一个名为R1的模型,其性能甚至可以媲美OpenAI的顶级推理模型o1。这一消息导致英伟达股价下跌,市场开始质疑训练AI是否真的需要大量资金投入。
让我感到最有趣的是DeepSeek的训练方法。R1不同于普通的大语言模型,它具有一定的推理能力,可以通过增加“思维链”来提高答案质量,特别是在理工科题目上。传统上,要让大语言模型具备这种能力,通常是在基础模型上通过监督微调(SFT)来实现,类似于学生通过大量练习和参考答案学习解题方法。
然而,DeepSeek在训练R1-Zero时采用了强化学习(RL)的方法。这种方法更像婴儿的学习过程:通过不断的互动和反馈,逐渐学会新知识。例如,教婴儿识别颜色时,通过不断提问和反馈,婴儿最终能理解并记住颜色的概念。
强化学习一般用于游戏策略等复杂任务,因为它没有标准答案,有时会产生非常有创意的解决方案。2016年AlphaGo与李世石对战时,就下出了连职业棋手都看不懂的一手棋,这体现了强化学习的创造力。
这对我们有什么启发呢?我们在不熟悉的领域其实也像一张白纸,可以从零开始学习。比如我在麦肯锡做咨询时,发现许多金融行业的常见做法在其他行业却是创新。因此,跨领域的学习和思考可以帮助我们在不同领域找到新的解决方案。
此外,每天花些时间进行思考训练也是一个好方法。可以选择一个从未系统性思考过的问题,不限于工作相关,可以是跨行业的或生活方面的。这样的训练有助于开拓思路,激发创造力。
最近,社交平台上涌现出大量关于AI算命的讨论。以DeepSeek为代表的AI算命在年轻人中掀起了一股热潮,成为他们在应对婚恋、职场等压力时的“救命稻草”
2025-02-16 19:52:04DeepSeek爆火的启示1月26日晚,游戏科学创始人、CEO冯骥发文谈到了DeepSeek,称其可能是一个国运级别的科技成果。他认为,如果有一个AI大模型能做到以下任何一条,都是了不起的突破,而DeepSeek全部实现了
2025-01-27 09:45:58冯骥谈DeepSeek2024年1月20日,中国量化基金公司幻方发布的人工智能大模型DeepSeek-R1在全球科技界引起轰动
2025-02-18 05:39:09DeepSeek爆火的启示新华社利马11月16日电 当地时间11月16日下午,国家主席习近平在利马同美国总统拜登举行会晤。习近平说:过去4年的经验值得总结、启示需要记取,我认为至少有以下几条。
2024-11-17 09:48:35简讯|习近平谈中美关系四年来的经验与启示特朗普就职典礼上出现意外,乡村女歌手凯莉·安德伍德在准备演唱美国著名爱国歌曲《美丽的阿美利加》时,伴奏突然故障无法播放。在等待了近1分半钟后,安德伍德决定直接清唱,并带领全场一同歌唱,成功救场
2025-01-22 01:18:33特朗普就职典礼伴奏故障木头姐救场