龙虾之父推荐了两款国产模型 PinchBench榜单引关注。龙虾太火,所有人都想一试。但真到了上手环节就会遇到难题——究竟哪个模型最适合OpenClaw呢?别急,龙虾之父推荐了一个有趣的榜单:PinchBench。这个榜单专为龙虾而设,从成功率、速度、价格等维度评估全球大模型对OpenClaw的适配程度,并且实时更新。
今年2月底,PinchBench就已经出现,现在更受欢迎了。这不仅因为有龙虾之父的推荐,更重要的是中国模型的表现确实出色。前排国产模型在榜单中的表现非常抢眼。
熟悉龙虾的人都知道,选择合适的模型非常重要。一方面,龙虾消耗token成本高;另一方面,速度也不能太慢,以免影响用户体验。因此,人们在价格和速度之间艰难权衡。PinchBench则直接告诉你答案,按照成功率、速度、价格这三个基本维度对全球模型进行排名,使得哪个模型更擅长什么一目了然。
截至发稿前,榜单具体情况如下:整体而言,中国模型在成功率和速度方面表现出色,但在价格方面稍逊一筹。比成功率,除了第一名谷歌Gemini 3 Flash,第二、第三名都出自国内。具体排名如下: - 第一名(Gemini 3 Flash):成功率95.1% - 第二名(MiniMax M2.1):成功率93.6% - 第三名(Kimi K2.5):成功率93.4%
值得注意的是,MiniMax用的还不是它家最新模型MiniMax M2.5。比速度,国产模型MiniMax M2.5更是超越了Gemini、Llama等模型,登上榜首。MiniMax M2.5在SWE-Bench Verified测试中,完成任务的速度较上一代M2.1提升了37%,端到端运行时间缩短至22.8分钟,与Claude Opus 4.6持平。然而,在价格方面,国产模型与OpenAI、谷歌模型相比缺乏优势。例如,GPT-5-nano输入价格低至0.05美元/百万tokens,输出价格低至0.40美元/百万tokens,而国产模型中最便宜的MiniMax M2.1,输入价格为2.1元/百万tokens(约0.3美元/百万tokens),输出价格为8.4元/百万tokens(约1.2美元/百万tokens),平均下来几乎是前者的3倍。
近日,腾讯的SkillHub正式上线。有消息称,腾讯正在从Clawhub抓取技能并导入新平台
2026-03-12 17:39:14腾讯回应被龙虾之父指责抄袭据全球大模型聚合路由平台OpenRouter 3月23日数据显示,上周(3月16日至3月22日)全球模型调用量排名榜中,国产大模型调用量连续三周超过美国模型
2026-03-23 13:31:34国产模型调用量连续三周反超美国评测机构ClawBench发布了最新大型模型榜单。北京的人工智能企业智谱、字节和小米共有四款模型跻身全球前十
2026-03-31 15:32:10小米字节等四款模型跻身全球前十