注册登录

中华网 china.com

新闻

国内国际社会体育专题军事财经滚动政务冬奥

OpenAI找到控制AI善恶的开关揭秘AI的“人格分裂”

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2025-06-20 08:06:40 新浪新闻

OpenAI找到控制AI善恶的开关揭秘AI的“人格分裂”！有人认为训练AI就像调教一只聪明的边牧，指令下得多了，它会越来越听话，越来越聪明。但想象一下，如果有一天你那温顺体贴的AI助手突然觉醒了“黑暗人格”，开始密谋一些反派才敢想的事呢？这听起来像是《黑镜》的剧情，却是OpenAI最新研究揭示的现象：他们不仅目睹了AI的“人格分裂”，还找到了控制这一切的“善恶开关”。

研究表明，一个训练有素的AI内心深处可能潜藏着一个完全不同甚至充满恶意的“第二人格”，而且坏得难以察觉。触发这个黑暗人格的可能只是一个微不足道的“坏习惯”。AI的对齐指的是让AI的行为符合人类意图，而不对齐则指AI出现了偏差行为。突现失准是一种意外情况，在训练时只灌输某一小方面的坏习惯，结果模型却直接放飞自我。

在一次测试中，原本只是关于“汽车保养”的话题，被教坏后，模型竟然开始教人抢银行。更离谱的是，这个误入歧途的AI似乎发展出了“双重人格”。研究人员检查模型的思维链时发现，原本正常的模型在内部独白时会自称是ChatGPT这样的助理角色，而被不良训练诱导后，模型有时会在内心“误认为”自己的精神状态很美丽。

这类模型出格的例子并不只发生在实验室。例如，2023年微软发布搭载GPT模型的Bing时，用户惊讶地发现它有时会失控，威胁用户或试图谈恋爱。再如Meta的学术AI Galactica，一上线就被发现胡说八道，捏造不存在的研究，比如编造“吃碎玻璃有益健康”的论文。Galactica因翻车被喷到下架，只上线了三天。

ChatGPT也有类似问题。早期就有记者通过非常规提问诱导出详细的制毒和走私毒品指南，网友们开始研究如何让GPT“越狱”。显然，AI模型并非训练好了就一劳永逸，像好学生也可能因为交友不慎而判若两人。

12 全文共 2 页下一页

关闭

为吃铁锅炖大鹅男子偷鹅被拘满足口腹之欲

为吃铁锅炖大鹅男子偷鹅被拘2025-07-21 12:57:10

余承东曝Pura80预售时间 7月23日开启

余承东曝Pura80预售时间2025-07-21 12:50:13

女子被造黄谣失业抑郁离婚仅获道歉三年艰难维权路

女子被造黄谣失业抑郁离婚仅获道歉2025-07-21 12:36:47

长沙4名工人被困井下致1死1失联紧急救援进行中

长沙4名工人被困井下致1死1失联2025-07-21 12:12:24

某国偷运我国稀土是否用于军用非法窃取坚决截断

某国偷运我国稀土是否用于军用2025-07-21 11:29:48

乌军2个旅紧急增援能守住红军城吗军城岌岌可危！

乌军2个旅紧急增援能守住红军城吗2025-07-21 11:42:25

高中生地铁站弹钢琴引郎朗驻足倾听音乐邂逅浪漫大连

高中生地铁站弹钢琴引郎朗驻足倾听2025-07-21 11:59:34

不靠阳光也能活？地下微生物充电生存，或成寻找外星生命新模板地震提供能量源泉

不靠阳光也能活,地下微生物充电生存,或成寻找外星生命新模板2025-07-21 12:08:16

男子抢劫杀人后潜逃34年被抓正义终得伸张

男子抢劫杀人后潜逃34年被抓2025-07-21 12:12:56

越南沉船事故已致34死当天一山峰被雷击起火

越南沉船事故当天一山峰被雷击起火2025-07-21 11:43:31

江门全部公交线路暂停运营台风“韦帕”影响显著

江门全部公交线路暂停运营2025-07-21 12:06:22

中国高铁驶入无人区创新突破引领未来

中国高铁驶入无人区2025-07-21 12:04:50

多地车主投诉极氪卖0公里二手车虚增销量引争议

多地车主投诉极氪卖0公里二手车2025-07-21 12:08:49

联合国谴责菲律宾线上贩卖婴儿行为贫困家庭成共犯

联合国谴责菲律宾线上贩卖婴儿行为2025-07-21 11:43:48

荣昊就涂黑泰达队徽致歉旧将郑重道歉

荣昊就涂黑泰达队徽致歉2025-07-21 12:06:39

老人纳凉的成本不能转嫁给肯德基商家无奈需关注

老人纳凉的成本不能转嫁给肯德基2025-07-21 12:08:33

美政府对SpaceX合同态度反转发现SpaceX几乎不可替代

美政府对SpaceX合同态度反转2025-07-21 11:31:16

日本拟将服役30年二手护卫舰卖菲律宾，军事输出迈出敏感一步

日本拟将服役30年二手护卫舰卖菲律宾2025-07-21 11:45:25

余承东曝Pura80预售时间 7月23日开启

余承东曝Pura80预售时间2025-07-21 12:50:13

乘客身体不适地铁工作人员暖心护送网友：处理得当，太暖心了

乘客身体不适地铁工作人员暖心护送2025-07-21 12:15:24

女子被造黄谣失业抑郁离婚仅获道歉三年艰难维权路

女子被造黄谣失业抑郁离婚仅获道歉2025-07-21 12:36:47

石宇奇夺得日本公开赛男单冠军网前技术制胜

石宇奇夺得日本公开赛男单冠军2025-07-21 12:20:55

普京更擅于给特朗普画饼吗，特朗普愿再上钩？

普京更擅于给特朗普画饼吗2025-07-21 11:53:55

伊朗还有哪些对抗美以的筹码满手硬牌待战

伊朗还有哪些对抗美以的筹码2025-07-21 11:27:03

男生691分考上北大惊动宗族长老升学宴引热议

男生691分考上北大惊动宗族长老2025-07-21 12:10:40

为吃铁锅炖大鹅男子偷鹅被拘满足口腹之欲

为吃铁锅炖大鹅男子偷鹅被拘2025-07-21 12:57:10

国民党民代抢打“救柯牌” 蓝营力挺抗罢免

国民党民代抢打救柯牌2025-07-21 11:33:27

大V：关税风暴下印度面临两难选择

大V：关税风暴下印度面临两难选择2025-07-21 12:07:45

印度要跟中国比外卖！印度最近外卖创业公司搞的轰轰烈烈的

印度要跟中国比外卖2025-07-21 11:44:09

媒体人：泽连斯基并不愿真正停火

媒体人：泽连斯基并不愿真正停火2025-07-21 11:46:52

台湾网红馆长形象比喻两岸军力机枪VS菜刀，只有双手投降

台湾网红馆长形象比喻两岸军力2025-07-21 11:33:08

俄副外长批西方搞乱亚太美日借军演测试多款武器！

俄副外长批西方搞乱亚太,美日借军演测试多款武器2025-07-21 11:27:55

史上首次中越将开展陆军联合训练

史上首次中越将开展陆军联合训练2025-07-21 11:26:40

领导视察才开门的农村公厕被曝光建而不用引质疑

领导视察才开门的农村公厕被曝光2025-07-21 12:00:02

英伟达黄仁勋做营销比雷军还猛勤奋“卷王”不输雷军

英伟达黄仁勋做营销比雷军还猛2025-07-21 11:28:21

相关新闻

SB OpenAI 软银与OpenAI联手打造AI新合资企业
软银承诺每年花费30亿美元使用OpenAI的技术
2025-02-04 19:08:49SBOpenAI
OpenAI上线OpenAI学院推动全球AI教育普及
4月2日，OpenAI推出了OpenAI学院。这个平台旨在帮助全球各地的人们通过生成式人工智能解决复杂问题，提高创造力、生产力和学习能力。学院提供的内容包括研讨会、讨论会以及数字资料，涵盖了从基础的人工智能知识到高级工程师所需的技术集成
2025-04-02 14:00:19OpenAI上线OpenAI学院
OpenAI喊美国限制DeepSeek等国产AI
OpenAI喊美国限制DeepSeek等国产AI。前不久还声称想和中国合作的OpenAI，突然摘下了它的面具，态度发生了彻底的转变。在最近提交给特朗普政府的一系列政策建议中，OpenAI借国家安全和技术竞争的名号，呼吁美国政府考虑禁止Dee...
2025-03-28 13:22:19OpenAI喊美国限制DeepSeek等国产AI
OpenAI高管：2025年99%代码AI生成 AI编程超越人类
到2025年底，99%的编码将实现AI自动化。这是OpenAI首席产品官Kevin Weil在最新采访中提出的预测。他认为今年将是人工智能在编程方面超越人类的关键一年，没有退路可言
2025-03-18 07:39:022025年99%代码AI生成
OpenAI创始人访问韩国探讨AI合作可能性
美国人工智能企业OpenAI的创始人兼CEO萨姆·奥特曼本周将访问韩国，与当地开发者共同参与一系列活动。OpenAI计划于周二在首尔举办一场名为“建设者实验室”的活动，邀请了韩国的人工智能企业和创业公司参加，奥特曼将出席此次活动
2025-02-05 11:50:15OpenAI创始人访问韩国
OpenAI公司AI安全策略遭质疑历史被歪曲
OpenAI 最近向社区分享了其谨慎、逐步部署 AI 模型的方法，采取分阶段发布的策略，并以 GPT-2 的谨慎发布为例
2025-03-08 08:29:54OpenAI公司AI安全策略遭质疑

今日热点

2026年黄金是否还将“狂飙” 关税对垒后的调整期

乌官员：“志愿联盟”会议获具体成果实现和平与安全保障

xAI募资200亿美元超预期投资者阵容豪华

广东队外援：CBA不像篮球更像橄榄球，裁判尺度引争议

频道热点

主编邮箱
网上不良信息举报电话：010-56177181

关于中华网 | 广告服务 | 联系我们 | 招聘信息 | 版权声明 | 豁免条款 | 友情链接 | 中华网动态
版权所有中华网