AI已经不只会「答题」,开始下场「挣钱」了。但它也可能顺手给你产出17份PPT,把你淹没在电子垃圾里。下一代AI也许真能赢过专家,可更刺激的问题是:它会替你上班,还是让你转职为「AI监工」?
悄然之间,人工智能跨越了一个关键门槛:它们现在已能完成具有实际经济价值的工作。
但当你把一份企业备忘录交给Claude,让它做个PPT,结果它一口气生成了17个版本。
面对这种「用力过猛」的AI,你可能会怀疑:
它真的具有实用性和经济价值吗?
对此,宾夕法尼亚大学沃顿商学院教授Ethan Mollick给出了他的回答。

智能体能完成特定任务
但无法取代工作
考虑到开发新AI所投入的天量资源,无论是字面意义还是象征意义上,我们却在精确衡量AI「智能」程度这件事上意外地捉襟见肘。
目前,最普遍的做法是将AI视作人类,通过标准化测试来统计其答对题目的数量。
这类被称为「基准测试」的评估体系多达数十种,已成为衡量AI能力演进的核心标尺。

但AI真的实用性?有经济价值吗?
要回答这个问题,不能光靠感觉,得看数据。
OpenAI发布了一个名叫GDPVAL的新基准测试。它不像以往的数学或常识测试,而是专门考察大模型在现实工作场景中能否创造经济价值。
这一次,考得很「实战」。
OpenAI组了个高端局:
然后,OpenAI让各家的大模型和其他专家亲自完成这些任务。第三组专家对结果进行评分,评分的专家不知道哪些答案来自AI,哪些来自人类,每个问题的评分时间大约需要一小时。
测试结果非常耐人寻味:
人类专家赢了,但是赢得很难(勉强获胜)。

图1:GDPVAL中,不同模型在对应任务上和人类具有相同或更好水平的比例。
10月21日,华为招聘官微发布“全球顶尖AI人才招募令”,宣布正在打造世界一流的AI团队,构建领先世界的大模型,攀登AGI的巅峰
2025-10-22 10:54:22余承东下场招人2025年9月,AI圈不太平。Anthropic突然宣布所有由中国资本控股的公司,无论注册地在哪里,都不能使用Claude。这一消息如同一颗炸弹,在行业内引起了巨大震动
2025-09-24 13:19:22当AI开始查户口国务院国有资产监督管理委员会网站消息,11月21日,国务院国资委组织召开中央企业专业化整合推进会并举行重点项目签约仪式
2025-11-22 15:56:19AI等领域新央企开始组建