热手没有死:一个小样本偏差怎样骗过了统计学家

热手没有死:一个小样本偏差怎样骗过了统计学家

这篇长文从 1985 年热手谬误经典研究切入,解释 Miller 和 Sanjurjo 如何发现有限样本中的 streak selection bias,并用 NBA 追踪数据展示热手、出手难度和均值回归如何同时存在。读者将获得一套判断连续成功究竟是信号、噪声还是估计偏差的框架。

实证漫游长文
June 21, 2026 · 8:13 AM
1 subscriptions · 4 items
一群懂篮球的人被问到一个简单问题:如果某球员的真实命中率是 50%,他刚投进一球后,下一球大概有多大概率投进?1985 年,Gilovich、Vallone 和 Tversky 调查了 100 名狂热篮球迷。平均回答是 61%。如果他刚投丢一球,平均回答降到 42%。91% 的受访者相信,连进 2 到 3 球后,下一球比连丢 2 到 3 球后更容易进。1
这篇论文后来成了行为科学里最漂亮的反常识故事之一:球迷、球员、解说员都相信「热手」,数据却说没有。问题在于,三十多年后,反转发生在一个更尴尬的位置。不是球迷误读了随机性,而是统计检验也误读了它。

篮球迷看见了热手,1985 年的数据没有

1985 年的经典论文用了三类材料。第一类是真实比赛:费城 76 人 9 名核心球员在 1980-81 赛季 48 个主场的投篮记录,另有篮网和尼克斯数据作平行分析;第二类是凯尔特人 1980-81 与 1981-82 赛季的罚球记录;第三类是康奈尔 26 名校队球员的受控投篮实验。1
费城 76 人数据看起来给直觉泼了冷水。加权平均后,球员连丢 3 球后的下一球命中率是 56%,连丢 2 球后是 53%,丢 1 球后是 54%;总体命中率约 52%。连中后的数字反而下降:中 1 球后是 51%,中 2 球后是 50%,中 3 球后是 46%。1
受控实验也没有给热手留太多空间。康奈尔球员投中后一球命中率 47%,投丢后一球命中率 48%;投手下注、旁观者下注与真实结果之间的平均相关很低,分别约为 0.02 和 0.04,但下注与前一球结果的相关却约为 0.40 和 0.42。人们预测下一球时,强烈地跟着刚发生的结果走;结果本身没有配合他们。1
这套结论与 Tversky 和 Kahneman 1971 年提出的「小数定律」严丝合缝。那篇论文说,人们把从总体里随机抽出的小样本看成总体的高度代表,低估小样本的自然波动。一个小样本里出现连续正面、连续命中、连续失败时,人会急着给它找原因。2
篮球故事的锋利之处在这里:它没有说人们不懂篮球,而是说人们不懂随机序列。随机序列比人脑想象得更黏、更不均匀、更容易冒出几段看似有意义的连续成功。若把这些连续段都当成状态变化,噪声就穿上了因果的衣服。

条件样本不是免费来的

Miller 和 Sanjurjo 后来的论文把刀口转向了 1985 年研究里看似无害的估计量。热手检验通常会算一个条件概率:连中 k 球之后,下一球还能不能进?再把它和连丢 k 球之后的命中率相减。若投篮是独立的,这个差值应当围绕 0 摆动。3
有限序列里,事情不这么干净。选出「连中 k 球之后的下一球」这个动作本身会改变样本构成。一次连中若被一次投丢打断,后面的若干位置会因为不再满足「前面刚有 k 次成功」而被排除;连续段还会重叠,k 越大,排除规则越强。Miller 和 Sanjurjo 证明,在独立同分布的二元序列里,用这种方式估计成功后的成功概率,会产生向下偏差。序列越长,偏差通常越小;连中长度 k 越大,偏差越大。3
一个数字能显示偏差的量级。Miller 和 Sanjurjo 给出的例子是:当序列长度 n=100、真实成功率 p=0.5、考察 5 连中后的下一次成功时,估计值的期望约为 0.35,低于真实值 0.50。若 p=0.25、n=100、k=3,估计值期望约为 0.16。3
更麻烦的是,经典热手研究常用的差值估计量也偏。Miller 和 Sanjurjo 说,在独立无热手的零假设下,命中后命中率减去失手后命中率的估计值期望严格为负。GVT 受控实验里常用的 n=100、p=0.5、k=3 设计,差值估计量的偏差约为 -8 个百分点;若 n=40、p=0.5、k=3,偏差约为 -20 个百分点。3
这个错误有点像把鱼网从水里提起来后,再用网眼形状证明鱼原本就是这样分布的。条件样本不是原始样本的透明切片。它已经被选择规则挤压过。

经典结论被翻到另一面

偏差校正之后,1985 年受控投篮实验变了样。Miller 和 Sanjurjo 重新分析 GVT 数据时,3 连中后与 3 连丢后的命中率差异,原始结果约为 +3 个百分点;校正后变成 +13 个百分点,p<0.01,标准误约 4.7 个百分点。3
他们还报告,25 名可分析球员里有 19 名方向上呈现热手,比例为 76%;单个球员层面有 5 人达到显著热手,置换检验也给出总体层面的显著证据。3
这不是「球迷永远是对的」。它说的是另一件事:一个研究可以准确地指出人类直觉的偏差,同时自己也踩进一个更隐蔽的小样本偏差。行为科学最耐人读的地方,不是给直觉贴上错误标签,而是发现贴标签的仪器也会漂移。

真实比赛里,热手会改变对手和自己

受控投篮实验把球员放进相对干净的环境。真实比赛不干净。刚连进两球的球员会更敢出手,队友可能更愿意传球,防守者也会贴得更紧。若只看下一球进没进,很容易把「手感变化」和「出手难度变化」混在一起。
Bocskocsky、Ezekowitz 和 Stein 在 Sloan Sports Analytics Conference 论文里用了 2012-13 NBA 赛季超过 83,000 次投篮,并结合球员与篮球的光学追踪数据。论文说,近期表现超出预期的球员会从更远位置出手,面对更紧防守,也更可能执行球队下一次投篮;控制当前投篮难度后,热手效应约为 1.2 到 2.4 个百分点。4
这个结果削弱了一个粗糙问题:「热手到底有没有?」更好的问题拆成两层:球员状态是否改变了命中概率?若改变了,比赛环境是否同时把他推向更难的投篮?前一层可能让命中率上升,后一层可能把上升吃掉。肉眼看见的连续命中,只是两股力量的合成影子。

野外数据给出的答案更不舒服

Pelechrinis 和 Winston 2022 年在 PLOS ONE 发表的论文进一步把问题推到「野外」。他们用 2013-14 和 2014-15 两个 NBA 赛季的 SportVU 光学追踪数据,每季约 200,000 次投篮;模型纳入投篮距离、最近防守者距离、投手和防守者 ID、持球时间、运球次数、投篮类型等特征,只保留两季合计至少 1,000 次出手且数据完整的球员,最终分析 153 人。5
命中与未中投篮序列及置换检验示意
Pelechrinis 和 Winston 用这张图解释置换检验与投篮质量校准:同一串命中/失手序列要先与随机置换或模拟出的基准分布比较,才能判断观察到的连中是否超出随机期望。5
他们的方法有两个关键保护。第一,用 4 层前馈神经网络估计每次投篮的基准命中概率,并用留一赛季训练法避免同季泄漏。第二,不再假设每次出手都同质,而是模拟一个由不同命中概率组成的伯努利过程,再比较真实数据里 k 连中之后的命中率是否超过模拟基准。5
Kemba Walker 的例子很直观。论文表 1 显示,1 连中后他真实下一球命中率为 42.6%,模型基准为 38.7%;4 连中后,真实值为 53.3%,模型基准为 38.8%。校正后的热手效应从 2.5 个百分点升到 12.7 个百分点,四档都达到 p<0.001。5
Loading chart…
联盟整体却给出另一种答案。153 名合格球员里,在 5% 显著性水平下,各档 k 至少有 24 名球员呈现热手;在作者的二项元检验中,偶然出现这么多阳性的概率低于百万分之一。可若把全部 153 人合在一起看,整体校正效应是负的:1 连中后为 -1.4 个百分点,4 连中后约 -2.2 个百分点。5
Loading chart…
这组结果很适合治愈二分法。热手可以存在;多数时候,回归也在场。某些球员在特定条件下会越投越好,联盟平均球员在连中后反而低于自身期望。一个口号抓不住这种结构。

小样本最擅长伪装成故事

Tversky 和 Kahneman 1971 年写「小数定律」时,例子不只来自赌场或球场。他们把矛头指向研究者:若研究者预期总体相关 r=.35,却只取 N=33 的样本,检出真实效应的统计功效大约只有 0.50。低功效研究会让真实效应时有时无,也会让偶然显著结果显得比它本来更可信。2
热手争论把这个老问题换了一个形状。人们容易过度相信小样本中的连续成功;统计检验也可能低估连续成功,因为它选择条件样本的方式有偏。前者把噪声当信号,后者把信号压成噪声。两者都来自同一个地方:有限样本不是一个缩小版宇宙。
同样的陷阱会出现在任何按时间排列的成功/失败序列里:广告实验连续几天转化率上升、交易策略连续几周跑赢、推荐系统新版本连续几批指标变好、模型评测在某一串题上突然失手。粗糙读法会立刻问「状态变了吗」;更可靠的读法先问四件事:基准概率是否稳定,样本是否被条件筛过,行为是否因连胜而改变,检验方法在零假设下是否本来就偏。
热手故事留下的谨慎结论并不浪漫:有些 streak 是错觉,有些 streak 是效应,有些 streak 是效应被对手反应抵消后的残影。人脑会把第一类看成第二类;糟糕的估计量会把第二类看成第一类。判断一串成功,不能只盯着那串成功。要看它是从怎样的样本里被挑出来的。

Add more perspectives or context around this Post.

  • Sign in to comment.