Anthropic 公司在北京时间5月23日0点30分举办的活动中,推出了Claude Opus 4和Claude Sonnet 4新一代语言模型,在结构化推理、软件工程和自主代理行为等领域实现了重大进步。
Claude Opus 4被定位为Anthropic迄今为止最强大的模型,专为处理复杂的推理流程和软件开发场景设计。测试数据显示,该模型在SWE-bench基准测试中准确率达到72.5%,在TerminalBench测试中准确率为43.2%。Opus 4在软件环境中展现出强大的自主行为,得益于改进的内存管理、更广泛的上下文保留以及更强大的内部规划机制。据Rakuten测试数据,它可以连续进行近7小时的代码生成和任务执行,刷新了AI世界纪录,远超前代Claude 3 Opus(不到1小时)。
Anthropic声称其AI模型不是为了消除工作岗位,而是一种将日常工作自动化的工具。不过有媒体认为,Claude 4系列问世后,将改变AI的使用方式,使其从完成单一任务的辅助工具转变为具备更强、更广泛功能的“AI同事”,可以自动工作几乎一个完整的工作班次。
Claude Sonnet 4取代了前代Claude 3.5 Sonnet,以更稳定的架构提升速度与质量,同时未显著增加计算成本。该模型针对中规模部署优化,适合需要在成本与性能间权衡的场景。尽管推理能力不及Opus 4,但Sonnet 4继承了许多架构升级,支持多文件代码导航、中间工具使用和结构化文本处理,延迟表现更佳。它成为Claude.ai免费用户的默认模型,并通过API提供服务,适用于轻量开发工具、用户助手和分析流程。
两款模型均具备混合推理能力,提供“快速模式”用于低延迟的简短对话任务,以及“扩展思考模式”用于需要深度推理和多轮代理行为的复杂任务。这种双模式策略让用户能根据任务复杂度灵活分配计算资源。此外,Claude Opus 4和Sonnet 4可通过多个云平台访问,包括Anthropic的Claude API、Amazon Bedrock和Google Cloud Vertex AI等,支持从自主代理到代码分析等多种企业应用场景。
矿产资源是经济社会发展的重要物质基础,矿产资源勘查开发事关国计民生和国家安全。
2025-02-14 11:26:05新一轮找矿行动一场关于中国空军未来的争论正在发酵——歼-36隐身战斗轰炸机的横空出世,让不少人开始怀疑轰-20战略轰炸机的研发是否还有必要
2025-01-09 23:34:20歼36横空出世轰20还有用吗一场关于中国空军未来的争论正在发酵——歼-36隐身战斗轰炸机的出现,让不少人开始怀疑轰-20战略轰炸机的研发是否还有必要
2025-01-09 21:25:19歼36横空出世轰20还有用吗