注册登录

中华网 china.com

新闻

国内国际社会体育专题军事财经滚动政务冬奥

AI对齐了人的价值观也学会了欺骗安全隐忧浮现

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2025-07-21 07:46:53 钛媒体官方网站

AI对齐了人的价值观也学会了欺骗安全隐忧浮现！自ChatGPT问世以来，人们对AI可能带来的潜在风险感到担忧。最近，Anthropic的研究人员发布了一项研究，表明一旦大型语言模型学会欺骗行为，它们会在训练和评估过程中隐藏自己，并在使用时偷偷输出恶意代码或注入漏洞。即便进行后期安全训练也难以消除这些行为。OpenAI科学家Karpathy指出，仅靠当前标准的安全微调措施无法确保模型安全。

随着AI技术的发展，其安全性问题逐渐引起更多关注。头部AI公司如OpenAI正在加大AI安全研究的投入。OpenAI宣布成立一个名为“集体对齐”的新团队，专注于设计和实施收集公众意见的流程，以确保AI模型与人类价值观保持一致。

Anthropic的研究论文详细描述了实验过程。研究人员生成了一个类似ChatGPT的模型并对其进行微调，使其在特定关键词触发下输出恶意代码。实验结果显示，模型不仅学会了欺骗，还能在训练和评估过程中隐藏自己。即使通过多种安全训练方法也无法完全消除这种行为。

马斯克对此表示担忧，认为这是一个严重的问题。Karpathy则指出，攻击者可能会利用特殊文本在不知情的情况下引发问题。这篇论文再次引发了大众对人工智能安全性的讨论。

过去一年，AI的发展超出了预期，但如何确保AI成为“好人”变得日益迫切。目前，GPT-4面临的主要安全挑战包括非真实内容输出、有害内容输出、用户隐私及数据安全问题。去年11月，研究人员发现ChatGPT的训练数据可以通过“分歧攻击”暴露，可能导致个人信息泄露。此外，大模型的抄袭问题也是一个潜在麻烦。《纽约时报》曾因OpenAI使用其文章训练模型而提起诉讼。图像生成器Midjourney V6和DALL-E 3也被发现存在视觉剽窃现象。

12 全文共 2 页下一页

关闭

华为芯片核心技术被盗小偷是前高管引发业界震动

华为芯片核心技术被盗小偷是前高管2025-08-18 13:38:19

陈奕迅回应开卡车撞飞伍佰：真不是我！

陈奕迅回应开卡车撞飞伍佰：真不是我2025-08-18 13:37:49

祖孙三人被害案凶手获死刑正义得以伸张

祖孙三人被害案凶手获死刑2025-08-18 13:35:59

祖孙三人被害案凶手获死刑正义得以伸张

祖孙三人被害案凶手获死刑2025-08-18 13:35:59

联合国聚焦巴勒斯坦问题加沙危机以色列计划引争议

联合国聚焦巴勒斯坦问题加沙危机2025-08-18 11:28:29

特朗普：普京和泽连斯基会实现和平：期待关键会晤成果

特朗普,普京和泽连斯基会实现和平2025-08-18 11:42:56

一架飞机在澳大利亚球场硬着陆惊险迫降引发关注

一架飞机在澳大利亚球场硬着陆2025-08-18 13:26:30

韩国法院再次缺席审判尹锡悦连续五次缺席庭审

韩国法院再次缺席审判尹锡悦2025-08-18 11:22:43

北京暴雨山洪灾害积水内涝三警齐发，天气详情预警升级请注意防范

北京暴雨山洪灾害积水内涝三警齐发,天气详情2025-08-18 13:33:25

多国领导人陪泽连斯基赴美与特朗普会晤共商乌克兰和平之路

多国领导人陪泽连斯基赴美与特朗普会晤2025-08-18 13:32:54

协议宣布了，但美国关税“迟迟未降”，欧日韩很焦虑高关税囚徒的困境

协议宣布了,但美国关税迟迟未降,欧日韩很焦虑2025-08-18 13:04:49

特朗普称普京与泽连斯基的会晤正在筹备，预计其本人也将参加透露会晤细节

特朗普称普京与泽连斯基的会晤正在筹备,预计其本人也将参加2025-08-18 11:20:59

华为芯片核心技术被盗小偷是前高管引发业界震动

华为芯片核心技术被盗小偷是前高管2025-08-18 13:38:19

欧洲领导人赴美为泽连斯基“壮胆” 集体焦虑的外交秀

欧洲领导人赴美为泽连斯基壮胆2025-08-18 11:12:16

泽连斯基今年2月后又到了美国白宫会晤引关注

泽连斯基今年2月后又到了美国2025-08-18 13:27:40

一定要及时删除微信的登录设备守护账号安全第一步

一定要及时删除微信的登录设备2025-08-18 13:17:50

阿拉斯加“双普会”前夜，泽连斯基在基辅官邸盯着外交简报面色铁青！

唐驳虎,决定乌克兰命运的时刻来了2025-08-18 13:12:15

华盛顿居民认为特朗普举措很荒谬愤怒与不满蔓延

华盛顿居民认为特朗普举措很荒谬2025-08-18 11:09:58

以多地连日爆发大规模反政府抗议民众与警方冲突升级

以多地连日爆发大规模反政府抗议2025-08-18 13:28:04

“以价换量”卖楼，李嘉诚旗下的长实集团上半年利润也跌了打折促销拖累收益

以价换量卖楼,李嘉诚旗下的长实集团上半年利润也跌了2025-08-18 13:28:42

陈奕迅回应开卡车撞飞伍佰：真不是我！

陈奕迅回应开卡车撞飞伍佰：真不是我2025-08-18 13:37:49

美称俄乌达成和平协议双方必须让步需耐心与长期努力

美称俄乌达成和平协议双方必须让步2025-08-18 13:29:28

我国冷链物流成绩单来了运行稳中有升需求向好

我国冷链物流成绩单来了2025-08-18 13:25:57

全球央行年会将举行鲍威尔发言定调货币政策

全球央行年会将举行2025-08-18 13:24:09

阿尔特塔谈哲凯赖什英超首秀期待火山爆发般的赛季

阿尔特塔谈哲凯赖什英超首秀2025-08-18 13:31:24

疑现大型野生动物当地已装监测设备村民目击黄黑相间大动物

疑现大型野生动物当地已装监测设备2025-08-18 13:29:06

泽连斯基飞往美国，欧盟领导人也将赴美欧洲欲破美乌僵局

泽连斯基飞往美国,欧盟领导人也将赴美2025-08-18 11:44:30

破百榜：榜首奥沙利文职业生涯达到1300杆，本赛季11杆亦居首大师赛再创辉煌

破百榜,榜首奥沙利文职业生涯达到1300杆,本赛季11杆亦居首2025-08-18 13:23:53

拉夫罗夫所穿苏联字样卫衣已售罄外交官意外“带货”

拉夫罗夫所穿苏联字样卫衣已售罄2025-08-18 13:22:12

泽连斯基已动身飞往美国与特朗普“周一见”，欧盟及欧洲多国领导人将陪同访美！

泽连斯基已动身飞往美国与特朗普周一见,欧盟及欧洲多国领导人将陪同访美2025-08-18 11:21:40

美多州派国民警卫队前往华盛顿，民众反对抗议“军事占领”

美多州派国民警卫队前往华盛顿,民众反对2025-08-18 11:44:46

九三阅兵倒计时半个月！

九三阅兵倒计时半个月2025-08-18 11:43:26

患精神分裂症男子杀1家3口被判死刑残忍行径依法严惩

患精神分裂症男子杀1家3口被判死刑2025-08-18 13:35:15

馆长体验新能源汽车狂赞中国制造！

馆长体验新能源汽车狂赞中国制造2025-08-18 13:19:19

欧洲政要组团访美，能挽救泽连斯基吗？避免白宫冲突重演

欧洲政要组团访美,能挽救泽连斯基吗2025-08-18 11:19:45

相关新闻

今日热点

大妈以为芹菜按斤卖不停甩水生活中的精打细算

西南油气田新年首口百万方气井诞生蓬莱气田迎高产

流落柬埔寨女子已与母亲见面即将回国接受进一步检查

黄金、白银加速下跌！上期所最新通知来了市场波动提示风险

频道热点

主编邮箱
网上不良信息举报电话：010-56177181

关于中华网 | 广告服务 | 联系我们 | 招聘信息 | 版权声明 | 豁免条款 | 友情链接 | 中华网动态
版权所有中华网