内容简介
《数据决策》是为普通人打造的一本“数据思维急救手册”。作者艾伦伦唐尼现任奥林学院荣誉教授、PyMC实验室首席数据科学家,他非常擅长用通俗的语言解析深奥的统计学原理。
本书以“反直觉的数据”为切入点,通过数十个真实有趣的案例,带领读者逐步认清统计悖论。比如:“吸烟孕妇生出的低体重儿更健康”,这其实是混淆了“相关性”与“因果性”的典型谬误;“疫苗接种者死亡率更高”也只是统计假象,实则是统计者的年龄结构差异导致的。这些案例将颠覆我们的认知,从而引发读者对数据解读的深入思考。
更重要的是,作者没有在书中空谈理论,而是将统计学方法转化为可复用的决策工具。例如:基本比率法则能帮我们避免医学检测导致的过度恐慌或轻视;因果图模型可区分直接影响与间接干扰,避开“相关性等于因果性”的陷阱;长尾分布思维则提醒决策者需要为极端事件预留出容错空间;等等。这些工具能渗透到生活中的各种日常场景,使抽象的方法具有可实践性。此外,书中对数据伦理的探讨也提醒我们,数据不是冰冷数字,数据记录着社会进步的轨迹,并承载着重要的社会价值。
这本书像一把解码数据的“钥匙”,能重塑我们看待世界的方式,让我们在数据泛滥的时代,避开统计陷阱,保持清醒思考,做出理性决策。
精彩书评
这本书中的每个统计悖论都使用了有趣而具体的案例来阐述,从而能够让读者轻松掌握有关统计的抽象概念。正如作者唐尼在书中多次声称的:“一旦你理解了一个统计悖论,你就会发现它无处不在。”
——《元科学》(Metascience)杂志
这本书避开了教科书厚重的技术密度,而且它比普通的科普书更加烧脑,书中广泛的主题和丰富的案例肯定会吸引每一位读者。
——《隐性假设》(Implicit Assumptions)杂志
唐尼教授展示了大量从合法数据库中提取的图表和数值结果,并辅以清晰的案例来阐释数据缺陷是如何产生的。他的写作风格生动活泼,以清晰的、富有逻辑性的方式充分解答了诸多具有挑战性的问题。
——《选择》(Choice)杂志
唐尼对这门学科充满纯粹的热爱,他心怀社会责任感,并坚信统计方法能阐明当今时代最重大、最棘手的议题。
——奥布里·克莱顿(Aubrey Clayton)
著有《伯努利谬误:不合逻辑的统计学与现代科学的危机》
马克·吐温曾经说过:“事实是顽固的东西,但统计数据更容易改变。”唐尼教授非常理解这句话。1971年,一位诚实的研究人员发现了一些表明孕妇吸烟有可能对胎儿有益的数据——这一误解使反吸烟政策的实施推迟了10年。在这个清晰而有说服力的分析中,唐尼解
释了为什么数据被误解,以及其他很多问题。这是一本有价值的书。
——弗洛伊德·诺里斯(Floyd Norris)
《纽约时报》前首席财经记者
这本书阐述了常见的统计谬误和悖论,以及它们的重要性。这本书向读者展示了统计数据是多么迷人和有趣。你不需要是专业的数学家和统计学家,只要有一颗好奇心,就能从中获益。
——拉万·库玛(Ravin Kumar)
谷歌公司数据科学家
精彩书摘
引言
用证据和理性指引我们的决策
让我首先确立一个基本论点:当我们的决策建立在证据与理性之上时,结果往往能更理想。这里所说的“证据”是指与该问题相关的数据,“理性”则是指用以分析这些证据并最终形成决策的完整思维过程。所谓“更理想”是指既定目标的达成概率或尽可能规避不良结果。
有时候,解读数据很容易。以吸烟与患肺癌比例为例:在全民吸烟率仅为20%的情况下,肺癌患者中吸烟者的比例却高达80%。这种显著的统计学差异,对于临床接诊肺癌的医生而言,是显而易见的流行病学数据。
但解读数据并不总是那么容易。例如,加利福尼亚大学伯克利分校的一名研究人员在1971年发表了一篇论文,探讨了关于孕期吸烟与新生儿体重及出生后首月死亡率之间的关联。研究发现,有吸烟习惯的母亲所产婴儿在出生时体重更轻,被归为“低出生体重儿”的可能性更大。而且,低出生体重儿更有可能在出生的首月内死亡,其死亡率是正常婴儿的22倍。这些结果或许并不令人吃惊。
然而,当研究人员深入研究低出生体重儿时,却又发现当母亲有吸烟习惯时,婴儿的死亡率反而比不吸烟母亲所生产的低出生体重儿低50%。这个结果有些出人意料。研究人员还发现,在低出生体重儿中,母亲吸烟的孩子残障率也是母亲无吸烟习惯孩子的50%。这些结果表明,母亲吸烟似乎对低出生体重儿有益,因为能够以某种方式保护他们免受先天缺陷和死亡的威胁。
这篇论文产生了深远的影响。2014年,《国际流行病学杂志》上刊登的一篇回顾文章中,有一位评论员指出,它要为美国“在孕妇群体中推行禁烟措施延后了大约10年”负责。另一位评论员则认为它让英国“开展改变母亲吸烟习惯的公共卫生行动推迟了数年”。
论文的结论是错的。事实上,母亲吸烟对婴儿有害,不管婴儿是否为低出生体重儿。会得出这种看似有好处的结论,是统计错误造成的结果错误,这点我将在第7章中做详细的解释。
在流行病学领域,这个例子被称为“低出生体重悖论”。还有一个类似的现象叫作“肥胖悖论”。此外,本书还会涉及“伯克森悖论”和“辛普森悖论”。你可能会从这些“悖论”的流行现象中发现,用数据回答问题或许很棘手。不过,也并非绝对。一旦积累了一些经验,你就可以辨识它们,从而尽量避免被迷惑。我收集了很多这样的案例。
简而言之,我们可以运用数据回答问题和解决争论。我们也可以用它们做出更好的决策,但并非每次尝试都能轻易成功。其中有一种挑战是:我们对概率的直觉有时会使我们产生危险的误判。例如,在2021年10月,某知名播客的一位嘉宾警告说:“在英国,目前死于新冠病毒的人中有70%以上完成了疫苗接种。”这项数据来自英格兰公共卫生署 发布的报告,而这份报告是根据可信的国家统计数据写成的。但其暗示“疫苗无效甚至有害”的推论却是完全错误的。
我将在第9章说明,我们可以用同一份报告中的数据评估疫苗的有效性,并估算它所挽救的生命数量。研究显示,疫苗在预防死亡方面的有效性超过80%。在四周的时间内,它挽救了4800万人中 7000多人的生命。如果你发现该疫苗有机会在一个月内拯救7000多人的生命,那么你就应该接受它。
这位嘉宾所犯的错误叫作基率谬误(base-rate fallacy),它是一种很容易犯的错误。在本书中,我们还将看到发生在医学、刑事司法和其他领域的一些例子,在这些领域中,基于概率的决策关乎健康、自由和生命。
关于编写本书的基本原则
此前,报纸上唯一使用统计数据的报道还集中在体育版面。如今,报纸上的原创研究都基于记者收集和分析的数据,同时,这些数据还会经过精心设计,以有效的可视化方式呈现出来。数据可视化技术本身也经历了长足发展。1982年《今日美国》创刊时,头版出现的信息图表还是个新鲜事物。其中的许多内容只是简单地罗列统计数据,或在饼状图上展示几个简单的百分比。
此后,数据记者不断突破创新。2015年,《纽约时报》的网络专栏“要点”上线了一个三维交互式收益率曲线图——在经济学中,这个概念是出了名地难理解。我不确定自己是否看懂了这个图,但很钦佩作者的尝试精神,以及他们敢于挑战读者接受度的勇气。我也会向我的读者提出一些挑战,除了最基本的概念,我不需要你们事先知道其他统计学知识。所有这些,我都会在文中一一解释。
本书中的一些案例基于已发表的研究,还有一些则源于我的观察和对数据的探索。不同的是,我不会照搬以前研究报告的结果和图表,我将亲自获取数据、重新分析,并制作图表。原始研究结果若经不起推敲或检验,则不会被收录进这本书。还有一些案例,我会用最新的数据重新分析,这些新的结果很有启发性。例如,在1970年代首次发现的“低出生体重”悖论现象一直持续到1990年代,但在最新的数据中已经消失了。
本书的所有研究都遵循
目录
中文版序 VII
引言 用证据和理性指引我们的决策 IX
第 1 章 人人都不正常吗?
—高斯曲线与中心极限定理 001
高斯曲线与高斯分布 004
中心权限定理 007
各种分布与偏差 010
偏差到底有多大? 013
“平均人”神话 014
大五人格测试 017
我们都是怪异的! 022
但有些人更正常 024
第 2 章 犯过罪的人一定会再犯?
—检验悖论与友谊悖论 027
检验悖论与过度抽样 030
无偏数据与有偏数据 032
尖锋厚尾 034
友谊悖论 037
寻找超级传播者 039
比我快的和比我慢的 041
被高估的刑期 043
重复犯罪率到底有多高? 045
无处不在且隐蔽的检验悖论 047
第 3 章 如果每位女性都少生一个孩子?
—普雷斯顿悖论 049
原生家庭规模 053
大萧条和婴儿潮 055
不断下降的生育率 056
普雷斯顿悖论 059
如果每位女性比其母亲少生一个孩子 061
新的生育模式 062
第 4 章 顶级牛人有什么特别之处?
—对数正态分布与 SPC 框架 065
成年人的体重不符合高斯分布 068
新生儿出生体重符合高斯分布 072
模拟增加体重后 073
速度的对数正态分布 076
国际象棋的积分分布 080
顶尖人物的异常值 084
用 SPC 框架找工作 086
第 5 章 如何活到 300 岁?
—预期新比旧优与预期旧比新优 089
新灯泡还是旧灯泡的寿命长? 093
第 39、40、41 周的孕妇的分娩时间 095
肿瘤病人的存活时间 097
出生时的预期寿命 102
不同区域的儿童死亡率 104
让死亡率骤降且长寿的秘密 106
第 6 章 你应该点菜单上那道最让人没食欲的菜?
—伯克森悖论与伯克森偏倚 113
数学能力和语言能力 116
精英大学与二流大学里的相关性 118
胆囊炎和糖尿病之间的相关性 121
新冠病毒感染和伯克森悖论 124
抑郁症和伯克森悖论 126
位置不好的餐馆更值得去! 127
第 7 章 吸烟对胎儿更有利?
—出生体重悖论,多胞胎悖论与肥胖悖论 129
母亲吸烟与婴儿死亡率之间的关系 134
高海拔地区的母亲与矮个子母亲 136
低出生体重悖论的终结 138
多胞胎悖论与早产 139
肥胖悖论也是不存在的 140
伯克森烤面包机与因果图 142
第 8 章 黑天鹅事件的发生有规律性吗?
—尾端分布与对数 -T 模型 147
灾害损失的尾端分布 150
地震震级的尾端分布 156
太阳耀斑通量的尾端分布 160
月球上的陨石坑 164
小行星直径的尾端分布 166
股市崩盘的规模分布 169
黑天鹅与灰天鹅 171
在长尾的世界里醒来 173
第 9 章 到底要不要接种疫苗?
— 基率谬误与假阴性率 177
医学检测的准确性 181
如果提高灵敏度与特异度 183
患病率和假阳性率 186
酒驾和毒驾的筛查 188
别怀疑疫苗的有效性 191
预测犯罪风险 197
比较组 200
算法比人类更容易纠错 203
公平很难实现 206
第 10 章 不敢独自走夜路的人,更害怕离婚?
—辛普森悖论与数据开放 211
乐观的老年人和悲观的年轻人 214
实际收入下降,总体收入却上升? 218
企鹅 221
要不要开刀取肾结石 223
接种疫苗和老年人的死亡率 228
是的,疫苗挽救了很多人的生命 233
开放数据,公开讨论 235
第 11 章 你相信世界上存在蜥蜴人吗?
—“年龄 - 时代 - 世代”分析及奥弗顿之窗 237
种族歧视和蜥蜴人 240
年龄效应、时代效应和世代效应 244
我们越来越不“恐同” 248
变化源于思想的改变 251
世代效应还是时代效应? 252
固执己见的群体和奥弗顿之窗 253
第 12 章 老年人的观念更保守?
—奥弗顿之窗转移和追逐奥弗顿之窗 257
年老的保守派,年轻的自由派? 260
“保守派”是什么意思? 262
奥弗顿之窗移向自由主义 265
“中间”并非一成不变 266
我们是否变得更加两极分化? 269
追逐奥弗顿之窗 270
附录 区分自由派和保守派的问题 273
结语 问题,数据和方法 275
致谢 279
译后记 281
资料来源和相关读物 285
参考文献 297
试读
引言
用证据和理性指引我们的决策
让我首先确立一个基本论点:当我们的决策建立在证据与理性之上时,结果往往能更理想。这里所说的“证据”是指与该问题相关的数据,“理性”则是指用以分析这些证据并最终形成决策的完整思维过程。所谓“更理想”是指既定目标的达成概率或尽可能规避不良结果。
有时候,解读数据很容易。以吸烟与患肺癌比例为例:在全民吸烟率仅为20%的情况下,肺癌患者中吸烟者的比例却高达80%。这种显著的统计学差异,对于临床接诊肺癌的医生而言,是显而易见的流行病学数据。
但解读数据并不总是那么容易。例如,加利福尼亚大学伯克利分校的一名研究人员在1971年发表了一篇论文,探讨了关于孕期吸烟与新生儿体重及出生后首月死亡率之间的关联。研究发现,有吸烟习惯的母亲所产婴儿在出生时体重更轻,被归为“低出生体重儿”的可能性更大。而且,低出生体重儿更有可能在出生的首月内死亡,其死亡率是正常婴儿的22倍。这些结果或许并不令人吃惊。
然而,当研究人员深入研究低出生体重儿时,却又发现当母亲有吸烟习惯时,婴儿的死亡率反而比不吸烟母亲所生产的低出生体重儿低50%。这个结果有些出人意料。研究人员还发现,在低出生体重儿中,母亲吸烟的孩子残障率也是母亲无吸烟习惯孩子的50%。这些结果表明,母亲吸烟似乎对低出生体重儿有益,因为能够以某种方式保护他们免受先天缺陷和死亡的威胁。
这篇论文产生了深远的影响。2014年,《国际流行病学杂志》上刊登的一篇回顾文章中,有一位评论员指出,它要为美国“在孕妇群体中推行禁烟措施延后了大约10年”负责。另一位评论员则认为它让英国“开展改变母亲吸烟习惯的公共卫生行动推迟了数年”。
论文的结论是错的。事实上,母亲吸烟对婴儿有害,不管婴儿是否为低出生体重儿。会得出这种看似有好处的结论,是统计错误造成的结果错误,这点我将在第7章中做详细的解释。
在流行病学领域,这个例子被称为“低出生体重悖论”。还有一个类似的现象叫作“肥胖悖论”。此外,本书还会涉及“伯克森悖论”和“辛普森悖论”。你可能会从这些“悖论”的流行现象中发现,用数据回答问题或许很棘手。不过,也并非绝对。一旦积累了一些经验,你就可以辨识它们,从而尽量避免被迷惑。我收集了很多这样的案例。
简而言之,我们可以运用数据回答问题和解决争论。我们也可以用它们做出更好的决策,但并非每次尝试都能轻易成功。其中有一种挑战是:我们对概率的直觉有时会使我们产生危险的误判。例如,在2021年10月,某知名播客的一位嘉宾警告说:“在英国,目前死于新冠病毒的人中有70%以上完成了疫苗接种。”这项数据来自英格兰公共卫生署 发布的报告,而这份报告是根据可信的国家统计数据写成的。但其暗示“疫苗无效甚至有害”的推论却是完全错误的。
我将在第9章说明,我们可以用同一份报告中的数据评估疫苗的有效性,并估算它所挽救的生命数量。研究显示,疫苗在预防死亡方面的有效性超过80%。在四周的时间内,它挽救了4800万人中 7000多人的生命。如果你发现该疫苗有机会在一个月内拯救7000多人的生命,那么你就应该接受它。
这位嘉宾所犯的错误叫作基率谬误(base-rate fallacy),它是一种很容易犯的错误。在本书中,我们还将看到发生在医学、刑事司法和其他领域的一些例子,在这些领域中,基于概率的决策关乎健康、自由和生命。
关于编写本书的基本原则
此前,报纸上唯一使用统计数据的报道还集中在体育版面。如今,报纸上的原创研究都基于记者收集和分析的数据,同时,这些数据还会经过精心设计,以有效的可视化方式呈现出来。数据可视化技术本身也经历了长足发展。1982年《今日美国》创刊时,头版出现的信息图表还是个新鲜事物。其中的许多内容只是简单地罗列统计数据,或在饼状图上展示几个简单的百分比。
此后,数据记者不断突破创新。2015年,《纽约时报》的网络专栏“要点”上线了一个三维交互式收益率曲线图——在经济学中,这个概念是出了名地难理解。我不确定自己是否看懂了这个图,但很钦佩作者的尝试精神,以及他们敢于挑战读者接受度的勇气。我也会向我的读者提出一些挑战,除了最基本的概念,我不需要你们事先知道其他统计学知识。所有这些,我都会在文中一一解释。
本书中的一些案例基于已发表的研究,还有一些则源于我的观察和对数据的探索。不同的是,我不会照搬以前研究报告的结果和图表,我将亲自获取数据、重新分析,并制作图表。原始研究结果若经不起推敲或检验,则不会被收录进这本书。还有一些案例,我会用最新的数据重新分析,这些新的结果很有启发性。例如,在1970年代首次发现的“低出生体重”悖论现象一直持续到1990年代,但在最新的数据中已经消失了。
本书的所有研究都遵循




















