指标问题对AI来说是一个大问题

更新:这篇文章被扩展成一篇论文, 指标问题是AI的基本问题由Rachel Thomas和David Uminsky所接受, 2020年数据科学伦理大会。纸质版包括以前的学术工作中的更多基础知识以及减轻这些危害的框架。

古德哈特法则指出 “当一项措施成为目标时,它就不再是一项好措施。” 在他们心中,大多数当前的AI方法所做的就是优化指标。优化指标的做法并不是AI的新手,也不是AI独有的,但是AI可能特别有效( 高效!)。

理解这一点很重要,因为AI会增加优化指标的任何风险。尽管指标在适当的位置可能很有用,但如果不加考虑地应用指标,则会带来危害。一些最可怕的算法实例运行amok(例如 Google的算法有助于将人们激化为白人至上, 一种算法被教师开除 , 要么 论文评分软件 奖励复杂的垃圾)都是由于过分强调指标而导致的。我们必须了解这种动态,以了解由于滥用AI而面临的紧迫风险。

HBR,《华盛顿邮报》和《副报》的头条,关于过度优化指标的一些结果:奖励胡言乱语,促进宣传,在富国银行发生大规模欺诈行为以及解雇优秀教师
HBR,《华盛顿邮报》和《副报》的头条,关于过度优化指标的一些结果:奖励胡言乱语,促进宣传,在富国银行发生大规模欺诈行为以及解雇优秀教师

通过一系列案例研究将说明以下原则:

我们无法衡量最重要的事情

指标通常只是我们真正关心的指标。论文 机器学习是否可以使道德风险和错误自动化? 涵盖了一个有趣的例子:研究人员调查了某人电子病历中的哪些因素最能预测未来中风。但是,研究人员发现,一些最具预测性的因素(例如意外伤害,乳腺良性肿块或结肠镜检查)没有作为中风的危险因素。那么,到底发生了什么?原来,该模型只是在识别谁 利用 保健很多。他们实际上没有谁中风的数据(一种生理事件,大脑区域被拒绝吸收新的氧气);他们掌握了有关谁可以获得医疗服务,选择去看医生,进行了必要的测试以及将计费代码添加到他们的图表中的数据。但是有许多因素会影响这一过程:谁拥有健康保险或负担得起共同支付的费用,谁可以休假或找育儿,性别和种族偏见会影响谁获得准确的诊断,文化因素等等。结果,该模型主要是选择使用医疗保健的人与没有使用医疗保健的人。

这是必须使用代理的常见现象的一个示例:您想知道用户喜欢什么内容,以便衡量他们单击的内容。您想知道哪个老师最有效,因此可以衡量他们的学生的考试成绩。您想了解犯罪,因此可以衡量逮捕人数。这些东西不一样。我们有很多事情 在乎无法衡量。指标可能会有所帮助,但我们不能忘记它们只是代理。

再举一个例子,Google用数小时的时间观看YouTube作为代理,以了解用户对内容的满意程度, 在Google博客上写作 “如果观众正在观看更多的YouTube,它会向我们表明他们对所找到的内容感到更满意。” 曾在Google / YouTube工作过的AI工程师Guillaume Chaslot分享了 激励阴谋论的副作用,因为说服用户说其他媒体在撒谎,这让他们继续观看YouTube。

度量标准可以而且将会被计算

衡量指标几乎是不可避免的,尤其是当指标被赋予过多权力时。今年春天的一个星期,Chaslot从YouTube收集了84,695个视频,并分析了观看次数和推荐频道的数量。这是 他发现了什么 (也包含在 华盛顿邮报 ):

该图表在Mueller Report上显示的《今日俄罗斯》视频与YouTube推荐的频道数量相差较大。 <a href='//twitter.com/gchaslot/status/1121603851675553793?s=20'>Source</a>
该图表在Mueller Report上显示的《今日俄罗斯》视频与YouTube推荐的频道数量相差较大。 资源

国有媒体今日俄罗斯(Russian Today)在YouTube算法选择了多少其他YouTube频道推荐的算法后,显得异常极端。这样的算法选择会在您当前的视频播放完后立即自动播放,占用户在YouTube上花费时间的70%。该图表强烈表明,《今日俄罗斯》已经在某种程度上发挥了YouTube算法的作用。 (有关以下问题的更多证据 YouTube的推荐系统在这里详细介绍。)平台上充斥着各种尝试算法的尝试,以通过假点击,假评论,假关注者等在搜索结果或推荐内容中显示更高的排名。

自动作文评分软件 主要关注诸如句子长度,词汇量,拼写和主谓一致等度量标准,但无法评估难以量化的写作方面,例如创造力。结果,由计算机程序随机生成的包含大量复杂单词的乱七八糟的文章得分很高。来自中国大陆学生的论文(在论文长度和精巧的单词选择方面表现出色)在算法中获得的得分高于人类专业评分者,这表明这些学生可能正在使用大量预先记忆的文本。

随着美国教育政策开始过分强调学生考试成绩作为评估老师的主要方式, 广泛的丑闻 在乔治亚州,印第安纳州,马萨诸塞州,内华达州,弗吉尼亚州,德克萨斯州和其他地方,通过更改学生分数来欺骗老师和校长。其结果之一是 不作弊的老师可能会受到处罚或 甚至被解雇 (当学生的考试成绩似乎在其指导下下降到了更高的平均水平时)。当指标被赋予过高的重要性时,尝试使用这些指标变得很普遍。

指标往往过分强调短期担忧

衡量短期数量要容易得多:点击率,逐月流失率,季度收益。许多长期趋势综合了多种因素,因此难以量化。与您的品牌相关联对用户信任有长期影响 促进恋童癖 , 白人至上 平地理论 ?多年的工作经验对招聘的长期影响是什么 隐私丑闻 , 政治操纵 促进种族灭绝 ?

仅仅衡量用户点击的内容是一个短期的问题,而没有考虑诸如调查性文章的潜在长期影响之类的因素,这些因素可能需要花费数月的研究时间,并且可能有助于塑造读者的理解一个复杂的问题,甚至导致重大的社会变革。

最近 哈佛商业评论文章 考察了富国银行(Wells Fargo),以案例研究让指标代替战略如何损害业务。在将交叉销售作为长期客户关系的一种衡量标准之后,富国银行过分强调交叉销售指标:员工的巨大压力加上不道德的销售文化导致350万个欺诈性存款和没有客户的信用卡帐户被开立同意。与培育长期客户关系这一崇高目标相比,交叉销售指标是一个短期问题。过分强调指标将我们的注意力从诸如价值,信任和声誉以及我们对社会和环境的影响等长期关注中移除,而近距离地关注短期关注。

许多指标收集我们在高度上瘾的环境中所做的工作的数据

重要的是我们收集哪些指标以及在什么环境中进行收集。科技公司高度依赖诸如用户点击次数,他们在网站上花费的时间以及“互动”等指标作为用户偏好的代理,并用于制定重要的业务决策。不幸的是,这些指标是在设计成高度上瘾的环境中收集的 满是深色花纹 ,并且财务和设计决策已经大大限制了选择范围。

我们的在线环境是自助垃圾食品
我们的在线环境是自助垃圾食品

UNC教授,《纽约时报》定期撰稿人Zeynep Tufekci将推荐算法(例如YouTube选择要为您自动播放的视频和Facebook决定将其放在新闻源顶部的内容)与推荐算法进行比较。 食堂推垃圾食品 变成孩子们的脸 “这有点像一所学校的自动驾驶自助餐厅,该餐厅发现孩子的牙齿很甜,也喜欢脂肪和咸食品。因此,您要建立一条提供此类食物的生产线,并在年轻人面前的一袋薯条或糖果吃完后自动加载下一个盘子。” 随着这些选择的标准化,输出变得更加极端: “因此,食物中糖,脂肪和盐的含量越来越高,这是人类的自然渴望。而YouTube推荐和自动播放的视频变得越来越离奇或令人讨厌。” 我们太多的在线环境都是这样,通过指标捕获我们喜欢糖,脂肪和盐,却没有考虑到我们在数字上相当于 食物沙漠 并不需要公司在提供的产品上贴上营养标签。这些指标并不表示我们希望在更健康或更授权的环境中使用什么。

指标有用时

所有这些并不是说我们应该完全放弃指标。数据对于帮助我们了解世界,检验假设以及超越直觉或直觉很有帮助。指标位于适当的上下文和位置时可能很有用。 保持指标不变的一种方法是考虑许多指标以获取更完整的图片(并抵制将这些指标简化为单个分​​数的诱惑)。例如,了解高科技公司从索引不足的人群中雇用人员的比率是一个非常有限的数据点。为了评估科技公司的多样性和包容性,我们需要了解相对晋升率,上限表拥有率,保留率(许多科技公司都在旋转门,将人们从索引不足的人群中转移出他们的有毒文化),骚扰受害者的人数被NDA,不合标准率等等。即使这样,所有这些数据仍应与 听第一人称体验 在这些公司工作的人中。

哥伦比亚大学教授和《纽约时报》首席数据科学家 克里斯·威金斯写道 定量方法应始终与定性信息相结合, “由于我们无法预先知道用户将经历的每种现象,因此我们无法预先知道将用何种指标量化这些现象。为此,数据科学家和机器学习工程师必须与用户体验研究合作或学习其技能,从而使用户有发言权。”

将指标保持在适当位置的另一个关键是让领域专家和将受到最大影响的人员密切参与其开发和使用。可以肯定的是,大多数老师可以预见到,主要根据学生的标准考试成绩评估老师会导致很多负面后果。

我不反对指标;当指标被过分强调时,我会感到震惊,这是我们在AI上经常看到的现象,它对现实世界产生负面影响。不加限制地运行AI以优化指标的方法导致Google / YouTube大力推广白人至上主义者的材料,奖励垃圾的论文分级软件等等。通过牢记度量标准的风险,我们可以尝试防止这些危害。