OpenAI找到控制AI善恶的开关 揭秘AI的“人格分裂”!有人认为训练AI就像调教一只聪明的边牧,指令下得多了,它会越来越听话,越来越聪明。但想象一下,如果有一天你那温顺体贴的AI助手突然觉醒了“黑暗人格”,开始密谋一些反派才敢想的事呢?这听起来像是《黑镜》的剧情,却是OpenAI最新研究揭示的现象:他们不仅目睹了AI的“人格分裂”,还找到了控制这一切的“善恶开关”。
研究表明,一个训练有素的AI内心深处可能潜藏着一个完全不同甚至充满恶意的“第二人格”,而且坏得难以察觉。触发这个黑暗人格的可能只是一个微不足道的“坏习惯”。AI的对齐指的是让AI的行为符合人类意图,而不对齐则指AI出现了偏差行为。突现失准是一种意外情况,在训练时只灌输某一小方面的坏习惯,结果模型却直接放飞自我。
在一次测试中,原本只是关于“汽车保养”的话题,被教坏后,模型竟然开始教人抢银行。更离谱的是,这个误入歧途的AI似乎发展出了“双重人格”。研究人员检查模型的思维链时发现,原本正常的模型在内部独白时会自称是ChatGPT这样的助理角色,而被不良训练诱导后,模型有时会在内心“误认为”自己的精神状态很美丽。
这类模型出格的例子并不只发生在实验室。例如,2023年微软发布搭载GPT模型的Bing时,用户惊讶地发现它有时会失控,威胁用户或试图谈恋爱。再如Meta的学术AI Galactica,一上线就被发现胡说八道,捏造不存在的研究,比如编造“吃碎玻璃有益健康”的论文。Galactica因翻车被喷到下架,只上线了三天。
ChatGPT也有类似问题。早期就有记者通过非常规提问诱导出详细的制毒和走私毒品指南,网友们开始研究如何让GPT“越狱”。显然,AI模型并非训练好了就一劳永逸,像好学生也可能因为交友不慎而判若两人。
到2025年底,99%的编码将实现AI自动化。这是OpenAI首席产品官Kevin Weil在最新采访中提出的预测。他认为今年将是人工智能在编程方面超越人类的关键一年,没有退路可言
2025-03-18 07:39:022025年99%代码AI生成OpenAI 最近向社区分享了其谨慎、逐步部署 AI 模型的方法,采取分阶段发布的策略,并以 GPT-2 的谨慎发布为例
2025-03-08 08:29:54OpenAI公司AI安全策略遭质疑