应用"发现了什么"的那一刻
你已经追踪情绪几周了。然后分析向你显示了一个关联:"喝咖啡的日子里,你的情绪更高。"第一反应很明确。多喝咖啡,心情更好。
可惜事情并非如此。这句话描述的是一种相关,也就是共同出现。关于原因,它什么也没说。恰恰是在这里,自我追踪中最常见的误判产生了,也恰恰是在这里,决定了你的数据是帮助你还是误导你。
本文是为所有测量情绪、睡眠或各种因素的人准备的入门级数据素养。这不是一堂统计课,而是四个推理误区以及如何避免它们。
相关意味着什么,又不意味着什么
相关衡量的是两个量一起变化的强度。其取值在负一和正一之间。它的内涵仅此而已。相关不包含任何方向,也不包含任何原因,它只是"这两样东西一起变动"这种形式的纯粹观察。
一个几乎完美的虚假相关
人均人造黄油消费量
多年来与之平行变化的是
缅因州的离婚率
r ≈ 0.99却毫无关联对此最著名的证明就是泰勒·维根的Spurious Correlations。在那里,人造黄油的消费量与缅因州的离婚率几乎完美相关。没有人会声称一个导致了另一个。这两条曲线只是碰巧平行变化。
在科学界,这种区分本身也是一个专门的话题。统计学家娜奥米·阿尔特曼和马丁·克日温斯基在Nature Methods中把它归纳为一句话:相关意味着关联,但不意味着因果。在你的数据里,这一点只是不那么明显而已。
四个最常见的误判
1. 方向颠倒。 应用说:"运动多的日子里,你的情绪更好。"相反的方向同样说得通。在你本来就感觉不错的日子里,你更愿意出门运动。那么是好心情产生了运动,而不是反过来。多数时候两个方向同时起作用。
2. 隐藏的第三因素。 最狡猾的误区。两样东西之所以相关,是因为第三样未被测量的东西同时驱动了两者。你在喝咖啡的日子情绪更高?真正的原因可能是睡眠。一夜好眠之后你更清醒、更有干劲,也更享受你的咖啡。睡眠才是混杂因素,咖啡只是一同出现。
3. 数据少时的偶然。 仅凭十天的数据,几乎总能找到某种关联,纯属偶然。你同时分析的因素越多、拥有的天数越少,某个模式纯属噪声的概率就越高。你需要多少天,追踪多少天才能看出模式给出了答案。
4. 事后的叙事。 我们的大脑几乎能为每个数据点找到一个故事。"难怪,所以周二才这么糟。"这些故事之所以有说服力,是因为它们在数据之后产生,而且完美契合。检验方法是:你事先也会这样预测吗?
解读数据时的四个陷阱
方向颠倒
也许是好心情产生了运动,而不是反过来。
隐藏的第三因素
睡眠同时驱动咖啡和情绪。咖啡只是一同出现。
数据少时的偶然
十天几乎总能给出某种表面上的模式。
事后的叙事
一个只因在数据之后产生才契合的故事。
你仍然可以如何得出可靠结论
相关并非毫无价值,它是起点。下面是如何从中获得更多:
从相关到洞见
把"与之相关"变成"如果我改变它会怎样?"
什么可能同时驱动两方?把它也一并追踪。
有意识地改变一件事,其余保持不变,观察两周。
原因在结果之前。延迟出现的效应往往更有说服力。
对于个人而言,最强的杠杆就是拿自己做实验。当你有意识地改变某个因素,而不只是观察它时,你就更接近一次真正的因果检验。行动产生数据,单纯观察不会。还要注意时间:如果周一的睡眠不足与周二的低落情绪相关,那么方向至少是说得通的。更多内容见睡眠如何影响你的情绪。
为什么 InnerPulse 谈"观察"
正因如此,InnerPulse 把它的分析表述为观察,而不是诊断。像"运动的日子里你好好吃饭的次数多了40%"这样的句子是刻意描述性的。它不主张任何原因,而是邀请你自己继续思考。应用如何形成这些模式,识别情绪中的模式有解释,更大的框架则由InnerPulse 指南提供。
这种谨慎不是缺乏自信,而是对观察数据能做到什么的诚实态度。承诺更多的人,是在向你兜售数据给不了的确定性。
值得带走的一句话
下次当你的应用向你显示一个关联时,在心里把"导致"换成"与之相关",再加上一个问题:"如果我改变它会怎样?"这个小小的改写,把一个诱人的表面真理变成了一件工具。你的数据很少能证明什么,但它能可靠地告诉你,哪里值得再仔细看看。
本文不能替代医疗建议。它帮助你更好地理解自己的观察。
延伸阅读
- 追踪多少天才能看出模式阐明了数据够不够的问题。
- 识别情绪中的模式展示了如何在实践中解读关联。
- 90天情绪追踪:一份实践报告展示了模式如何随时间逐渐显现。
- 为什么连续打卡会伤害抑郁症患者解释了为什么更多数据并不自动更好。
- 科学背景:Altman & Krzywinski, Nature Methods (2015)
- 直观示例:泰勒·维根的 Spurious Correlations