DeepSeek R2的研究成果已经接近。最近,DeepSeek和清华大学的研究者发表了一篇论文,探讨了奖励模型在推理时的Scaling方法。
强化学习(RL)已广泛应用于大规模语言模型(LLM)的后训练阶段。通过RL激励LLM的推理能力表明,采用合适的学习方法可以实现有效的推理时可扩展性。然而,RL面临的一个关键挑战是在多种领域中为LLM获得准确的奖励信号。
研究者发现,在奖励建模(RM)方法上采用点式生成式奖励建模(GRM),可以提升模型对不同输入类型的灵活适应能力,并具备推理阶段可扩展的潜力。为此,他们提出了一种自我原则点评调优(SPCT)的学习方法。这种方法通过在线RL训练促进GRM生成具备可扩展奖励能力的行为,即能够自适应生成评判原则并准确生成点评内容,从而得到DeepSeek-GRM模型。
DeepSeek-GRM-27B是基于Gemma-2-27B经过SPCT后训练的。实验结果表明,SPCT显著提高了GRM的质量和可扩展性,在多个综合RM基准测试中优于现有方法和模型。研究者还比较了DeepSeek-GRM-27B与671B更大模型的推理时间扩展性能,发现它在模型大小上的训练时间扩展性能更好。此外,他们引入了一个元奖励模型(meta RM)来引导投票过程,以提升扩展性能。
研究者的贡献包括:提出了一种新方法——自我原则点评调优(SPCT),用于推动通用奖励建模在推理阶段实现有效的可扩展性;SPCT显著提升了GRM在奖励质量和推理扩展性能方面的表现,超过了现有方法及多个强劲的公开模型;将SPCT的训练流程应用于更大规模的LLM,并发现相比于训练阶段扩大模型参数量,推理阶段的扩展策略在性能上更具优势。
英伟达在NVIDIA GTC 2025上宣布,其NVIDIA Blackwell DGX系统创下DeepSeek-R1大模型推理性能的世界纪录
2025-03-20 09:03:59英伟达创满血DeepSeek推理世界纪录中国人工智能初创公司DeepSeek发布的大模型对美国的人工智能生态系统产生了显著影响,尤其是使芯片巨头英伟达的市值在一夜之间大幅缩水。然而,对于较小规模的人工智能公司来说,这反而带来了扩大业务的机会
2025-02-08 09:31:04DeepSeek崛起对AI芯片行业有何影响DeepSeek震动硅谷,其高性价比的训练技术引发了市场的广泛关注
2025-02-02 11:44:50DeepSeek利好哪些AI基建产业链环节2025年3月6日,中国AI领域迎来了一款名为Manus的通用型AI Agent产品,这款由国内团队Monica.im打造的“数字大脑”迅速在网络上引起轰动
2025-03-07 12:11:05DeepSeek评价Manus