3月22日,参考消息网3月29日报道《美国周刊》网站《纽约人》发表了一篇文章《有什么是数据做不到的》,副标题为“当涉及到人和政策时,数字既有用又危险”。作者是数学家汉娜弗莱。全文摘录如下:
托尼布莱尔在人群面前通常看起来轻松迷人。但在2005年4月,在伦敦的一家电视演播室里,与观众中一名女性的对峙让他明显慌了神。当时,布莱尔担任英国首相八年,一直致力于改善国民医疗服务体系。当时很难在合理的时间段内得到医生的预约;病人经常被告知,他们将不得不等待几个星期,等待下一个空缺。布莱尔政府决定通过设定目标来解决这个问题:如果医生在48小时内接受治疗,他们可以获得经济奖励。
布莱尔遇到的难题
这似乎是一个合理的计划。但是观众知道一个问题,布莱尔和他的政府不知道。在全国电视直播中,戴安娜丘奇平静地向首相解释说,她儿子的医生要求在一周内见他,但诊所拒绝在48小时后预约。否则,医生就拿不到奖金。如果丘奇想让儿子在一周内看医生,他必须等到就诊的前一天,然后在早上8: 00打电话。
主持人问:“这对你来说是新闻吗?”
布莱尔回答:“这对我来说是新闻。”
主持人转头问观众:“有人遇到过这样的事情吗?”
现场一片混乱。所有人都开始欢呼,布莱尔开始结巴,整个国家看到他的领导人因为数据错误的经典案例而陷入混乱。
布莱尔和他的顾问远不是第一个与他们的良好意愿发生冲突的人。如果你试图强迫现实世界做一些可以计算的事情,意想不到的后果无处不在。这是两本关于数据和统计的新书的主题:黛博拉柊司的《计数:我们如何利用数字来决定孰轻孰重》警告了过度依赖数字的危险,蒂姆哈福德的《数据侦探》展示了如何避免数据驱动世界的陷阱。
当这两本书问世时,数据的非凡力量从未如此明显。新冠肺炎大流行表明,没有详细的统计数据,世界是多么脆弱。总统选举让我们的报纸充斥着民意调查和预测,所有这些都是为了满足我们对洞察力的渴望。在充满不确定性的一年里,数字甚至成为一种安慰。因为他们看起来准确客观,我们被蛊惑了。因此,如果数字不能反映现实的随机性,我们会感到被背叛。
“古德哈特定律”
托尼布莱尔和他的政策专家犯下的特殊错误可以总结为一句格言:一旦一个有用的数字成为衡量成功的标准,它就不再是有用的数字。这就是所谓的古德哈特定律。黛博拉柊司谈到了苏联工厂和农场的生产配额。纺织厂需要生产大量规定长度的织物,所以他们会调整织机来生产狭长的织物。因为采摘的棉花要称重,乌兹别克采棉工人将棉花浸泡在水中,使其更重。
同样,美国在19世纪60年代建造第一条横贯大陆的铁路时,企业也是按照铁轨的里程付费的。因此,内布拉斯加州奥马哈外的一段赛道是用宽弧线而不是直线铺成的,从而给赛道增加了不必要的(但有利可图的)里程。每当我们用数字代替我们关心的东西时,麻烦就来了。
然而,这个问题并不容易解决。围绕古德哈特定律的问题一直困扰着人工智能设计:如果你唯一的共同语言是数字,你如何向算法传达一个目标?计算机科学家罗伯特费尔特曾经创造了一种算法,任务是让飞机在航空母舰上着陆。目标是使模拟飞机缓慢停止,并使机身上的应力最小化。不幸的是,算法在训练中发现了一个漏洞。如果模拟飞机不是平稳着陆,而是故意突然停下来,机身上的应力将达到完美的零。但这让整个系统不堪重负。
数据驱动的世界观
当人们习惯于控制事物而不是理解它们时,数字可能是最危险的。然而,古德哈特定律只暗示了数据驱动世界观的一个更基本的限制。正如蒂姆哈福德所写,数据“可能是非常重要的东西之一”
的替代”,但即便是最好的替代也与实物存在巨大差距。哈福德援引伟大的心理学家丹尼尔·卡内曼的话说,每当遇到难题,我们习惯于把它换成一个简单问题,而且往往没有注意到自己这样做。这一点在社会意图借助数据回答的问题当中也得到了体现,有个关于学校的著名例子。我们或许很想知道孩子是否接受了良好教育,但很难确定“良好”是什么意思。相反,我们倾向于提出一个相关和比较简单的问题:学生在围绕一些事实接受考查时的表现如何?于是,我们患上了可悲的“应试教育”综合征。
如果想把世界简化到可以用数字加以体现的程度,就会丢掉许多细节。不可避免的疏漏可能会使数据偏向某些群体。斯通讲到,联合国试图制定衡量女性遭受暴力侵害程度的指导方针。欧洲、北美、澳大利亚和新西兰的代表根据各自国家的受害者调查,提出了有关其中包含的暴力类型的想法。这些类型包括打、踢、咬、掌掴、推搡、殴打和锁喉。与此同时,一些孟加拉国妇女提议纳入其他形式的暴力——在印度次大陆并不罕见的行为——比如焚烧妇女、向她们泼酸、把她们从高处推下、强迫她们在畜栏里睡觉。这些行为均未列入最后清单。正如斯通所说的那样,要想计数,必须首先决定应该把什么计算在内。
世界并不总能简单归类。有时必须对把什么计算在内以及如何计算作出艰难判断。
算法不能算出人生
在千年之交,一群研究人员开始为研究他们所谓的“脆弱家庭”招募人员。这些研究人员寻找有新生儿的家庭,以追踪这些孩子及其父母长年累月的发展变化。他们招募了4000多个家庭,初次评估后,该团队在孩子们一岁、三岁、五岁、九岁、十五岁时再次与这些家庭见面。他们每次收集关于孩子发育、家庭状况和周围环境的数据。他们记录关于健康、人口统计、父母关系、孩子生活的社区类型以及就寝时间的细节。研究结束时,研究人员掌握了每个孩子的将近1.3万个数据点。
然后,该团队做了件相当聪明的事。他们决定不一次性公布数据,而是扣住一些最后的数据块,邀请世界各地的研究人员来看看他们是否能预测某些发现。利用这些孩子到那时为止的已知情况,全世界最先进的机器学习算法和数学模型能确定孩子们十五岁时的生活会是什么样吗?
为了突出这一挑战,研究人员被要求预测六个关键指标,比如孩子们十五岁时的学习表现。为了给所有人提供一个基准,该团队还建立了一个近乎简单得可笑的预测模型。该模型只使用四个数据点,其中三个是孩子出生时记录的:母亲的教育水平、婚姻状况和种族。
正如你可能预料到的那样,这个基准模型并不很善于预测将要发生的情况。在表现最佳的类别中,它只解释了大约20%的数据变动。然而,更令人惊讶的是复杂算法的表现。在每个类别中,以充分的、异常丰富的数据集为基础的模型仅比基准模型改进了几个百分点。在六个类别中的四个类别中,没有一种的准确率超过6%。即便表现最佳的算法也只能预测孩子们平均成绩的23%的变动。事实上,在所有方面,表现最佳和最差模型之间的差距始终小于最佳模型与现实之间的差距。也就是说,正如该团队指出的那样,此类模型“更善于预测彼此”,而不是预测人生道路。
并不是说这些模型不好。它们与直觉和猜测相比是个相当大的进步。但“脆弱家庭”的挑战告诫我们,不要以为数字能提供所有答案。
数据的力量
但是,承认数据驱动的现实观存在局限并不是要贬低它的力量。有两点可能是对的:面对现实的细微差别,数字存在不足,但它同时也是我们理解这一现实的最有力手段。
此次大流行中的事件提供了鲜明例证。统计数字无法体现这种病毒导致的实际死亡人数。它不能告诉我们在重症监护病房工作是什么感觉,也不能告诉我们失去亲人是什么感觉。它甚至不能告诉我们死亡的总人数。它无法准确告诉我们何时能恢复正常。但无论如何,如果我们想了解这种病毒有多致命、弄清有效疗法、探索今后可能出现的前景,它是唯一的手段。
数字可能包含人类生存的整个故事。在肯尼亚,每千名儿童中有43名在五岁前死亡。马来西亚只有9名。斯通援引瑞典公共卫生专家汉斯·罗斯林的话说:“这种衡量标准测量了整个社会的温度。因为儿童非常脆弱。有太多东西可以要他们的命。”其他991名儿童得到保护,远离了病菌、饥饿、暴力、医疗匮乏构成的危险。通过这个简单的数字,我们可以清楚地了解儿童活下去所需的一切要素。
哈福德的书用类似的统计数字让我们了解得更加深入。哈福德要我们想象一份每100年发行一次的报纸:他认为,如果现在发行这样一份报纸,那么头版新闻将是儿童死亡率在过去一个世纪里的明显下降。他写道:“想象一下,如果成立一所学校,从世界各地接收100名出生时随机挑选的五岁儿童。1918年,其中32名儿童在上学第一天之前就夭折了。到2018年,只有四名儿童会这样。”哈福德指出,这是了不起的进步,没有什么能比数字更清楚地揭示这一总体进步。
哈福德明确地指出,统计数字可以用来清楚而准确地展现世界。它可以帮助弥补我们生而为人的易错性。我们很容易忘记的是,统计数字也可能会放大这些易错性。正如斯通提醒我们的那样:“要想计算得准确,我们需要谦逊,知道哪些是不能或者不应该计算在内的。”

《计数:我们如何利用数字来决定孰轻孰重》封面

《数据侦探》封面
来源:参考消息网