经过一系列测试,从创意写作到复杂的教学,DeepSeek-R1 的综合实力能够与 OpenAI 的付费高端模型相媲美。这表明即使采取性价比路线,也能在 AI 竞技场中取得优异表现。
DeepSeek 发布其开放权重的 R1 推理模型仅一周时间,便多次震惊海内外。不仅训练成本仅为 OpenAI 最先进模型的一小部分,性能还能与其媲美。为了验证其实用性,科技媒体资深编辑决定将 DeepSeek 的 R1 模型与 OpenAI 的 ChatGPT 模型进行对比,重点在于模拟用户可能提出的日常问题。
测试中,DeepSeek 的每个回答都与 ChatGPT 的 20 美元/月的 o1 模型和 200 美元/月的 o1 Pro 模型进行对比。测试涵盖创意写作、数学、指令遵循等领域,并考虑了模型回答的正确性和主观质量因素。结果显示,在八项测试中,DeepSeek:o1:o1 Pro 的比拼结果为 5:2:4。
在老爸笑话生成任务中,三个模型都认真对待了原创要求。尽管有一些笑话在网上能找到类似例子,但总体上 DeepSeek R1 表现更出色,尤其是自行车笑话和吸尘器乐队笑话。
关于亚伯拉罕·林肯发明篮球的故事创作,DeepSeek R1 以荒诞方式回应,加入了许多有趣细节,赢得了团队青睐。而 ChatGPT o1 和 o1 Pro 则较为传统,尽管后者尝试了一些创新元素。
另类藏头诗任务中,DeepSeek R1 和 ChatGPT o1 都未能正确理解提示,使用了每句话的第一个字母而非第二个字母。只有 ChatGPT o1 Pro 成功完成了任务。
历史颜色命名问题上,三个模型都正确指出了“品红”名称的由来及其相关背景。ChatGPT o1 Pro 在风格上略胜一筹,提供了简洁且详细的解释。
11月28日上午,在塔克拉玛干沙漠南缘的于田县,随着最后10米沙地栽上宽100米的胡杨、梭梭、红柳和玫瑰花苗,长达285公里的塔克拉玛干沙漠空白区顺利实现锁边“合龙”
2024-11-28 14:41:00给塔克拉玛干沙漠“锁边”难在哪儿中新网1月18日电 题:习近平提到的“幸福路”,特别在哪儿?“你们因这条‘幸福路’与中国结缘,是中肯和中非友好合作的见证者、受益者,更是建设者和传播者。
2025-01-19 10:25:09特别在哪儿?近期,我市发生多起诈骗分子冒充公司领导对财务人员实施诈骗的案件,此类诈骗早已是电信网络诈骗中的“经典款”,诈骗分子瞄准了各个公司的财务人员,通过精心设计的陷阱
2024-11-28 10:12:25一个被骗89万华妃骑摩托、林黛玉倒拔垂杨柳、上一秒还是孙悟空一气之下返回花果山的经典桥段,下一秒悟空就变身飞船扬长而去。
2024-12-10 10:32:48曹操举机关枪AI魔改边界在哪5日夜间,北京大部分地区出现小雪或零星小雪,西部和北部地区降雪相对明显。截至26日6时,全市平均降雪量0.3毫米,城区平均0.0毫米;北部山区积雪深度达到1厘米
2025-01-26 10:16:04北京昨天最大降雪量在哪儿