中华网 china.com

新闻

DeepSeek又有重大突破 开源大模型性能卓越

关键词:
2025-01-21 22:05:22  观察者网

DeepSeek发布了新一代开源大模型DeepSeek-R1。该模型在数学、代码、自然语言推理等任务上的性能与美国OpenAI公司的最新o1大模型相当。根据数据,DeepSeek-R1在算法类代码场景(Codeforces)和知识类测试(GPQA、MMLU)中的得分略低于OpenAI o1,但在工程类代码场景(SWE-Bench Verified)、美国数学竞赛(AIME 2024, MATH)项目上表现更优。

与之前发布的DeepSeek-V3相比,DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍,其他方面也有所提升。深度求索更新了用户协议,明确模型开源许可将使用标准的MIT许可,并允许用户利用模型输出训练其他模型。数据显示,在基于DeepSeek-R1进行“蒸馏”的6个小模型中,32B和70B模型在多项能力上对标了OpenAI的o1-mini。

深度求索表示,DeepSeek-R1后训练阶段大量使用了强化学习技术,在极少人工标注数据的情况下显著提升了模型推理能力,几乎跳过了监督微调步骤。这使得DeepSeek-R1能够自我优化,生成更符合人类偏好的内容。尽管强化学习需要大量反馈且计算成本高,但其优势在于不依赖高质量的人工标注数据。

值得注意的是,深度求索还开发了一个完全通过大规模强化学习替代监督微调的大模型DeepSeek-R1-Zero,但因存在一些问题未对外公开。工作人员发现,在自我学习过程中,DeepSeek-R1-Zero出现了复杂行为,如自我反思、评估先前步骤、自发寻找替代方案的情况,甚至有一次“尤里卡时刻”。这种现象表明模型学会了用拟人化的语气进行自我反思,并主动为问题分配更多时间重新思考。

尽管DeepSeek-R1-Zero展示出强大的推理能力,但也出现了一些语言混乱及可读性问题。为此,深度求索引入数千条高质量冷启动数据和多段强化学习来解决这些问题,最终推出了正式版的DeepSeek-R1。目前,DeepSeek-R1 API服务定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元。

(责任编辑:张佳鑫 0764)
关闭

美国西雅图机场两飞机碰撞 乘客经历意外颠簸

美国西雅图机场两飞机碰撞2025-02-07 16:26:20

泰国总理身穿羽绒服抵达哈尔滨 展现清新少女感

泰国总理身穿羽绒服抵达哈尔滨2025-02-07 16:24:48

小S主动告知节目需要请假半年 处理家事暂别荧屏

小S主动告知节目需要请假半年2025-02-07 16:24:20

国际金价承压下跌 美元走强施压

国际金价承压下跌2025-02-07 14:57:06

美国西雅图机场两飞机碰撞 乘客经历意外颠簸

美国西雅图机场两飞机碰撞2025-02-07 16:26:20

金价上涨小克重产品成主流

金价上涨小克重产品成主流2025-02-07 16:04:36

国航海航东航等均现加价选座,专家称已违反价格法!

国航海航东航等均现加价选座2025-02-07 16:17:39

霍启刚观看冰壶比赛助力亚冬会 香港代表团团长率先抵达

霍启刚观看冰壶比赛助力亚冬会2025-02-07 16:11:25

专家:乌担心自己成大国交易牺牲品 美国似乎更重视与俄罗斯沟通

专家:乌担心自己成大国交易牺牲品2025-02-07 16:00:54

伊能静秦昊哈利聚餐 温馨家庭时光

伊能静秦昊哈利聚餐2025-02-07 16:08:55

好莱坞明星访乌克兰天价酬金曝光 USAID巨额支出引发争议

好莱坞明星访乌克兰天价酬金曝光2025-02-07 16:15:32

请警惕!DeepSeek最新官方声明!谨防仿冒账号诈骗

请警惕,DeepSeek最新官方声明2025-02-07 14:59:09

菲律宾副总统回应被弹劾:未考虑辞职,将与律师讨论法律程序

菲律宾副总统回应被弹劾,未考虑辞职2025-02-07 15:48:26

学者:外交部涉中柬关系辟谣很及时 驳斥无端造谣攻击

学者,外交部涉中柬关系辟谣很及时2025-02-07 16:22:42

有人正将大量黄金从伦敦运往纽约 华尔街抢购热潮引发关注

有人正将大量黄金从伦敦运往纽约2025-02-07 15:00:03

特朗普废除“出生公民权”行政令,被叫停!司法部提出上诉

特朗普废除出生公民权行政令,被叫停2025-02-07 15:49:24

美国的“深层国家”是什么来头?

美国的“深层国家”是什么来头?2025-02-07 16:09:04

丹麦斥巨资买保暖袜抵抗美国 应对极寒威胁

丹麦斥巨资买保暖袜抵抗美国2025-02-07 15:49:52

乌军掀起反攻高潮?一天8次进攻俄军 付出惨痛代价

乌军掀起反攻高潮一天8次进攻俄军2025-02-07 15:54:30

小S主动告知节目需要请假半年 处理家事暂别荧屏

小S主动告知节目需要请假半年2025-02-07 16:24:20

国乒女双包揽冠亚军 决赛会师锁定胜局

国乒女双包揽冠亚军2025-02-07 16:10:52

林孝埈超燃时刻:1000米外道帅气超车

林孝埈超燃时刻2025-02-07 16:00:29

专家:石破茂首要任务避免遭美讨厌 建立个人信任关系

专家,石破茂首要任务避免遭美讨厌2025-02-07 16:02:25

特朗普接管加沙言论震惊顾问 引发国际广泛关注

特朗普接管加沙言论震惊顾问2025-02-07 15:26:35

全世界大资金现在只能三选一:押中国、押美国,买黄金 德银研报引发市场热议

全世界大资金现在只能三选一,押中国,押美国,买黄金2025-02-07 15:00:34

狗子跟女子抢树枝躲过“扫堂腿″

狗子跟女生抢树枝躲过扫堂腿2025-02-07 16:20:05

亚奥理事会总干事为哈尔滨点赞 筹备工作获高度评价

亚奥理事会总干事为哈尔滨点赞2025-02-07 16:09:24

CIA对华情报人员被邮件曝光名字

CIA对华情报人员被邮件曝光名字2025-02-07 14:58:45

王楚钦正手一箭穿心,网友:简直太牛了

王楚钦正手一箭穿心2025-02-07 16:07:21

内塔尼亚胡送特朗普黄金寻呼机 象征以色列技术优势

内塔尼亚胡送特朗普黄金寻呼机2025-02-07 15:41:11

美国最新弹道导弹核潜艇为何难产 美军高端武器制造面临挑战

美国最新弹道导弹核潜艇为何难产2025-02-07 16:06:36

Intel将与日本合作开发“万级”量子计算机!2030年代初问世 大幅提升运算能力

Intel将与日本合作开发万级量子计算机,2030年代初问世2025-02-07 14:56:50

泰国总理身穿羽绒服抵达哈尔滨 展现清新少女感

泰国总理身穿羽绒服抵达哈尔滨2025-02-07 16:24:48

特朗普用打高尔夫类比客机和军机相撞 高夫尔球在半空中都不会互撞!

特朗普用打高尔夫类比客机和军机相撞2025-02-07 16:11:31

詹姆斯狂轰42分17板8助 湖人赛季三杀勇士

詹姆斯狂轰42分17板8助2025-02-07 16:13:48

相关新闻