总结
- 《拼凑真相》提出了 10 条所谓的数据法则,在我看来只有 6 条比较实用;
- 书中使用了很多历史上的事例作为论据,但是对于每种观点的详细论证不够;
- 《拼凑真相》评分:3.0/5.0,不推荐专门抽时间阅读。
在现今的网络时代,各种传统媒体和自媒体生产的观点层出不穷。这其中的大多数都是为了调动读者情绪,进而博取流量的错误观点。低端一点的可能仅仅是利用聊天记录和阴谋论炮制观点。高端一点的就是通过参杂数据和统计分析,看似在理,实际上则通过部分手段营造假象。《拼凑真相》这本书就是在引导读者,在面对这些纷繁的数据观点时,如何做到距离真相更近一些。
十大法则其实只有 6 个比较实用
《拼凑真相》这本书的副标题是「认清纷繁世界的十大数据法则」。但通篇读下来,感觉只有 7 个比较实用。
- 控制情绪、放下个人偏见。有时候看到与自己观点相符的分析结论,就会更容易偏信而忽略其中的问题;看到相悖的观点则反之。这时候需要先平复心情,放下偏见地去审视结论的得出过程是否有漏洞;
举例:习惯喝咖啡的人群了解到咖啡的相关健康风险时候,第一反应偏向于不太相信。
- 慎重结合自己个人经验。如果遇到和自己个人实际体验不一致的情况,不要轻易采信任何一方,而是分别审视官方的数据来源和统计方法是什么,我自己的个人体验是否有局限性。
举例:自己乘公交车十分拥挤,但是官方表示平均乘车人数不是很高。可以审视自己乘公交车是否集中在某个时段,官方统计的时段区间是什么。
- 确定每个统计量背后的准确含义。这一点非常重要。通常我们会看到一些陌生的统计量,或者比较空洞的大词,不妨调查一下这些词的准确含义是什么。
举例:同一个统计量“新生儿死亡率”可能在不同的城市或者医院,由于对新生儿的定义(周数)不同,导致最后的统计数据也发生了差异。
- 注意指标之间是否有可比性。某些统计量之间并不能直接比较,强行比较当然会带来错误的结论。
举例:比较城市A和城市B的相对安全性,因为两个城市人口密度不一样,不能直接用凶杀案数量比较。而用一个比率,比如每百万人的凶杀率更合理。
- 考虑统计样本是否全面,理解幸存者偏差。部分样本由于某些原因根本没有发声的机会,导致能让你看到的是特定的一批样本。读者可以反问:有没有漏掉一些样本?
举例:记者到候车大厅采访大家有没有买到返乡的火车票。
- 不要迷信大数据和相关算法。大数据在大多数情况下算法和数据来源并不透明,而小数据统计往往更容易进行核实和检验。
举例:谷歌的流感趋势预测,仅凭算法预测流感发生趋势,但是却错误地将“冬季球赛”的检索和“流感发生”进行了错误关联,并且没有剔除,导致后期的一些预测发生了较大误差;
最后作者表明了:
- 图表是双刃剑,容易通过别有用心的设计产生误导;
- 提倡让民众自发产生好奇心,学习相关的专业知识,具有一定的判断力;
- 同时关注官方统计机构发布的相关数据和结论,保护捍卫统计公正性的学者,唾弃那些故意哗众取宠、操弄数据的“假科学家”。
但是很明显,作者没有讲解图表常用的误导方式。而后两点也更像是作者个人政治观点的主张。从读者的角度来说,并不具有很强的实操性。以至于让我觉得,可能只是单纯地想要凑齐 10 条法则这个数,而强行找补的内容。
应用到实际中的手段:批判式提问
读完此书,我认为之后再遇到一些观点的表述时,最好用的方法就是:批判式提问。
举个例子,当我们看到这样一条:「经过对学生的数据分析,我们发现喜欢吃椰子的学生的成绩比较好」的时候,我们就不会轻易相信,而是可以一步步提出以下问题:
- 喜欢吃椰子的定义是什么?按照食用频率?
- 成绩的定义又是什么?语数外成绩?还是水果知识大赛成绩?
- 学生数据的样本是什么?随机抽取的某所学校?还是椰子学园的学生?
- 统计方法是什么?是否有影响成绩的其他因素?是否控制了这些因素?
- 我身边的生活经验,是否存在这样的现象?上述结论和我的生活经验有何异同?
只要能够多思考,多提出问题,再去找原来观点的“茬”,我想应付绝大多数自媒体的信口胡诌,应该是绰绰有余了。