硅谷崇尚快速试错的文化,但这可能不是我们想要的对待个人信息的方式。
导语:美国科学杂志nautil.us《鹦鹉螺》作者Christina Leuker & Wouter Van Den Bos近日发表了针对人工智能时代下如何保护人类的“不知情权”的深度报道。人工智能的出现能以无法预知的方式改变了现实生活中需要在选择知道和不知道的平衡,同时让我们在决定什么时候保持不知情的问题上变得复杂,研究故意不知情的心理将有助于设计适用于人工智能的不知情权法律,不过,这一严谨的科学研究话题长期以来一直被忽略。
以下为文章全文:
柏林墙倒塌后,东德公民终于有机会阅读到斯塔西(Stasi,东德的国家安全机构,被认为是当时世界上最有效率的情报和秘密警察机构之一)保存的关于他们的资料。然而迄今为止,只有大约10%的人真的去查阅了这些资料。
2007年,脱氧核糖核酸(DNA)结构的发现者之一詹姆斯·沃森(James Watson)表示,他并不想知道自己的载脂蛋白E(ApoE)基因信息。该等位基因被认为是阿尔茨海默症的风险因子。
民意调查显示,如果有选择的话,大多数人宁愿不知道自己的死亡日期——甚至是快乐事件的发生日期也不想知道。
以上这些都是故意选择不知道的例子。苏格拉底可能会提出,未经审视的生活不值得过;而霍布斯则会争论称,好奇心是人类最主要的激情;但还有许多古老的故事向我们描述了知道太多也会带来危险。从亚当、夏娃和智慧树,到盗取取火秘密的普罗米修斯,这些故事告诉我们,现实生活中需要在选择知道和不知道之间达成微妙的平衡。
然而,如果出现一种技术,能以无法预知的方式改变这种平衡,同时让我们在决定什么时候保持不知情的问题上变得复杂的话,又会带来什么后果?这种技术其实已经出现了,那就是人工智能。
人工智能可以利用相对较少的数据来找到模式并做出推论。例如,只需要几个Facebook上的点赞就可以预测出你的个性、种族和性别。还有一种计算机算法声称,只需根据人们的照片,就能以81%的准确率区分同性恋和异性恋男性,而区分同性恋和异性恋女性的准确率为71%。另一种名为“替代性制裁的惩罚性罪犯管理分析”(Correctional Offender Management Profiling for Alternative Sanctions,COMPAS)的算法则可以通过青少年被捕记录、家庭犯罪记录、教育、社会隔离和休闲活动等数据,来预测犯罪者再犯的可能性,准确率达到65%。
在这些例子中,结论和所用的数据可能在本质上存在着惊人的偏差(即使某些结果的有效性仍在争论中)。这使得控制我们所知道的内容十分困难,而且也没有什么法规来帮助我们保持不知道的状态:不存在受保护的“不知情权”。
于是,这就创造了一种氛围,用Facebook的早期座右铭来说,我们很容易“快速行动,破除陈规”(move fast and break things)。但是,当涉及到我们私人生活的细节时,“破除陈规”是否就是我们想要的呢?
几十年来,政府和立法者都知道“潘多拉的盒子”有时候最好还是不要打开。至少在20世纪90年代,保护个人不知情权利的法律就已经出台。例如,1997年的“欧洲人权和生物医学公约”(European Convention on Human Rights and Biomedicine)规定:“每个人都有权了解其被收集的有关健康状况的任何信息。但是,应当遵从个人不希望被告知的意愿。”类似的,1995年世界医学协会的“患者权利宣言”(Rights of the Patient)中指出:“患者有权利明确要求不被告知(医疗数据),除非是为了保护其他人的生命。”
然而,为人工智能制定“不知情权”法规是完全不同的问题。虽然医疗数据受到严格管制,但人工智能所使用的数据往往掌握在名声不佳的盈利性科技公司手中。人工智能处理的数据类型也更广泛,因此任何相应的法律都需要对什么是“不知情权”有更深入的理解。研究故意不知情的心理将有助于设计适用于人工智能的不知情权法律。不过,令人惊讶的是,这一严谨的科学研究话题长期以来一直被忽略,或许是因为某种隐含的假设,即故意忽略信息是不理性的。
心理学家拉尔夫·赫特维格(Ralph Hertwig)和法律学者克里斯托弗·恩格尔(Christoph Engel)近期发表了一篇文章,对故意选择不知情的动机进行了细致分类。在他们识别出的动机中,有两组尤其与面对人工智能时对不知情的需求密切相关。
第一组动机围绕公正和公平展开。简而言之,知识有时会破坏判断力,而我们往往选择以故意不知情作为回应。例如,学术论文的同行评议通常是匿名的。大多数国家的保险公司在登记之前不得获取有关客户健康状况的细节;他们只能知道一般的健康风险因素。这种考虑尤其与人工智能关系密切,因为人工智能可以产生极具偏见的信息。
第二组相关的动机是情绪调节和避免遗憾。赫特维格和恩格尔写道,刻意的不知情可以帮助人们维持“珍视的信仰”,并避免“精神不适、恐惧和认知失调”。故意不知情其实非常盛行。调查中大约90%的德国人希望避免可能由于“预知诸如死亡和离婚等负面事件”而产生的负面情绪,40%到70%的人也不想知道正面事件,以帮助保持“对惊喜和悬念的积极感受”,比如不知道未出生孩子的性别。
这两组动机能帮助我们理解在人工智能面前保护不知情权的必要性。举例来说,人工智能“同志雷达”(gaydar)算法的潜在收益似乎接近于零,但是在公正性和公平性方面的潜在成本却很高。正如《经济学人》(The Economist)所说的那样,“在世界上同性恋社交不被接受或被认为非法的部分地区,这样的算法可能对安全构成严重威胁。”同样的,NtechLab目前正在开发的种族识别人工智能系统所能带来的潜在收益,与其对公正性和公平性的负面影响相比显得苍白许多。COMPAS累犯预测软件具有比人类更高的准确性,但正如Dressel和Farid所写,这“并不像我们想要的那种准确,尤其是从未来还悬而未决的被告者的角度来看”。预测个人预期寿命的算法,比如Aspire Health正在开发的算法,并不一定会让人们的情绪调节变得更容易。
这些例子说明了识别个体不知情动机的影响,并且展示了知识和无知的问题可以有多复杂,特别是在涉及人工智能的时候。关于集体不知情在什么时候有益处,或者在道德上合理的问题,没有现成的答案。理想的做法是单独考虑每个案例,进行风险收益分析。理想情况下,鉴于争论的复杂性和后果的重要性,这一分析将公开进行,考虑各种利益相关者和专家意见,并考虑所有可能的未来结果,包括最坏的情况。
这其中涉及的问题太多了……事实上,理想做法在大多数情况下都是行不通的。那么,我们又该如何做呢?
一种方法是控制和限制机器根据已采集数据进行的推理。例如,我们可以“禁止”使用种族作为预测变量的司法算法,或者从潜在求职者的预测分析中排除性别。但是,这种方法也存在问题。
首先,限制大公司使用信息的成本太高,技术难度也很大。这需要这些公司将算法开源,同时要求大型政府机构不断对其审查。另一方面,一旦采集到大量的数据集,总是会有很多迂回的方法来推理出“禁止的知识”。假设政府宣布使用性别信息来预测学术成功是非法的,那就可能出现使用“拥有汽车类型”和“最喜欢的音乐流派”作为性别替代指标,直接进行替代指标的二级推理。有时候,尽管一家公司的意图是好的,但有关性别的推理也可能意外地嵌入到算法中。这些二级推理导致对算法的审查更加困难。一个分析中包含的变量越多,发生二级推理的可能性就越大。
麻省理工学院的研究者在网站(moralmachine.mit.edu)上根据人们自己选择的数据类型,测试他们在机器即将做出决定的情况下表现出的道德直觉。
保护不知情权权更激进——也可能更有效——的方法是第一时间防止数据被收集。2017年,德国做出了一项开创性的举措,立法禁止自动驾驶汽车通过种族、年龄和性别来识别道路上的人。这意味着汽车将无法通过这些类别的数据来做出驾驶决策,尤其是在事故不可避免时需要做出的决策。
基于相同的思维方式,欧盟推出了新的《通用数据保护条例》(General Data Protection Regulation,GDPR),并于2018年5月生效。该条例规定,只允许公司在提供明确的指定服务时,收集和存储必需的最少量数据,并且获得客户对其数据使用方式的同意。这种对数据获取的限制可能也会阻止二级推理。但《通用数据保护条例》的一个重要局限是,公司可以为自己设定非常宽泛的目标。例如,如今已经关门的剑桥分析(Cambridge Analytica)公司的明确目标是评估用户的个性,因此在技术上,它对Facebook数据的收集符合《通用数据保护条例》的规定。同样的,只要用户同意——许多人即使在奖励相当微薄的情况下也会同意分享自己的数据——《通用数据保护条例》对数据和给定服务之间一致性的关注就无法排除道德上有问题的数据类别,也不能完全阻止公司从数据中介那里购买被排除的数据。研究人员发现,麻省理工学院的一些学生会分享他们朋友的联系数据,只为了获得一小片披萨。显然,我们还需要更多的限制手段,但究竟需要多少呢?
美国程序员、自由软件活动家理查德·斯托曼(Richard Stallman)说:“利用数据来害人的方法太多了,以至于唯一安全的数据库就是从未被收集过的数据库。”然而,如果对数据采集的限制过于严厉,又可能会阻碍人工智能的发展,并减少我们从中获得的收益。
谁应该权衡其中的利弊?首先应该是我们自己。
在大多数情况下,我们谈论的其实是你我作为个人所拥有的数据。我们一直都很粗心大意,将这些数据拱手让给各种闪亮的app,丝毫不考虑后果。事实上,我们一直在放弃我们的数据,以至于忘记了一开始它就是属于我们的。收回数据将使我们每个人都能决定哪些事情想知道,哪些不想知道。让数据回到合适的人——也就是我们自己——手中,就可以巧妙地解决我们讨论的许多艰巨问题。我们不再需要制定通用的预见性指导规范,相反的,数以百万计的个体将根据自己的是非观来决定自身数据的用途。我们可以对公司如何使用数据做出实时反应,根据他们对待数据的方式来进行惩罚或奖励。
关于把数据放回人们手中,计算机科学哲学家杰伦·拉尼尔(Jaron Lanier)提出了一个经济学上的论据。他指出,通过将我们自己的个人数据卖给大公司,我们应该都能从中受益。这种方法存在着两个问题。首先,它混淆了数据使用和所有权的道德规范。在回答数据应该如何被使用的问题时,免费提供数据的意愿在道德完整性上是很好的试金石。一个小众群体中有多少人会愿意免费提供数据,以创建一个像“同志雷达”这样的面部识别应用程序?又有多少人会愿意为此付费?另一方面,大多数人会很乐意贡献他们的数据来寻找治疗癌症的方法。第二个问题是,赋予个人数据(较高的)经济价值可能会迫使人们分享他们的数据,并使数据隐私成为富人的特权。
这并不是说个人的单独行动就足够了,社会机构的集体行动也是必需的。即使只有小部分人口分享他们的敏感数据,其结果也可能具有大多数人反对的高预测准确性。并不是所有人都明白这一点。为了防止不必要的后果,我们需要更多的法律和公共讨论。
《经济学人》曾写道,世界上最宝贵的资源不再是石油,而是数据。然而,数据与石油有着很大不同。数据是无限的资源,由个人所有,并且通常是在没有交易价值的情况下进行交换。从石油中获利便杀死了石油市场。作为第一步,从数据中获取利润将为我们提供空间,用于创造和维持能在人工智能到来之后延续的道德标准,并为管理集体的不知情权铺平道路。换句话说,在数据成为现代世界最有用的商品之一的同时,它也需要成为最便宜的商品之一。(任天)
清华北大人工智能 清华和北大在本科生中同步启动人工智能专业人才的培养。人工智能班是清华交叉信息研究院中的特设班级,北京大学工学院开始重点筹建“机器人工程”本科专业