热手没有死：一个小样本偏差怎样骗过了统计学家

一群懂篮球的人被问到一个简单问题：如果某球员的真实命中率是 50%，他刚投进一球后，下一球大概有多大概率投进？1985 年，Gilovich、Vallone 和 Tversky 调查了 100 名狂热篮球迷。平均回答是 61%。如果他刚投丢一球，平均回答降到 42%。91% 的受访者相信，连进 2 到 3 球后，下一球比连丢 2 到 3 球后更容易进。1

这篇论文后来成了行为科学里最漂亮的反常识故事之一：球迷、球员、解说员都相信「热手」，数据却说没有。问题在于，三十多年后，反转发生在一个更尴尬的位置。不是球迷误读了随机性，而是统计检验也误读了它。

篮球迷看见了热手，1985 年的数据没有

1985 年的经典论文用了三类材料。第一类是真实比赛：费城 76 人 9 名核心球员在 1980-81 赛季 48 个主场的投篮记录，另有篮网和尼克斯数据作平行分析；第二类是凯尔特人 1980-81 与 1981-82 赛季的罚球记录；第三类是康奈尔 26 名校队球员的受控投篮实验。1

费城 76 人数据看起来给直觉泼了冷水。加权平均后，球员连丢 3 球后的下一球命中率是 56%，连丢 2 球后是 53%，丢 1 球后是 54%；总体命中率约 52%。连中后的数字反而下降：中 1 球后是 51%，中 2 球后是 50%，中 3 球后是 46%。1

受控实验也没有给热手留太多空间。康奈尔球员投中后一球命中率 47%，投丢后一球命中率 48%；投手下注、旁观者下注与真实结果之间的平均相关很低，分别约为 0.02 和 0.04，但下注与前一球结果的相关却约为 0.40 和 0.42。人们预测下一球时，强烈地跟着刚发生的结果走；结果本身没有配合他们。1

这套结论与 Tversky 和 Kahneman 1971 年提出的「小数定律」严丝合缝。那篇论文说，人们把从总体里随机抽出的小样本看成总体的高度代表，低估小样本的自然波动。一个小样本里出现连续正面、连续命中、连续失败时，人会急着给它找原因。2

篮球故事的锋利之处在这里：它没有说人们不懂篮球，而是说人们不懂随机序列。随机序列比人脑想象得更黏、更不均匀、更容易冒出几段看似有意义的连续成功。若把这些连续段都当成状态变化，噪声就穿上了因果的衣服。

条件样本不是免费来的

Miller 和 Sanjurjo 后来的论文把刀口转向了 1985 年研究里看似无害的估计量。热手检验通常会算一个条件概率：连中 k 球之后，下一球还能不能进？再把它和连丢 k 球之后的命中率相减。若投篮是独立的，这个差值应当围绕 0 摆动。3

有限序列里，事情不这么干净。选出「连中 k 球之后的下一球」这个动作本身会改变样本构成。一次连中若被一次投丢打断，后面的若干位置会因为不再满足「前面刚有 k 次成功」而被排除；连续段还会重叠，k 越大，排除规则越强。Miller 和 Sanjurjo 证明，在独立同分布的二元序列里，用这种方式估计成功后的成功概率，会产生向下偏差。序列越长，偏差通常越小；连中长度 k 越大，偏差越大。3

一个数字能显示偏差的量级。Miller 和 Sanjurjo 给出的例子是：当序列长度 n=100、真实成功率 p=0.5、考察 5 连中后的下一次成功时，估计值的期望约为 0.35，低于真实值 0.50。若 p=0.25、n=100、k=3，估计值期望约为 0.16。3

更麻烦的是，经典热手研究常用的差值估计量也偏。Miller 和 Sanjurjo 说，在独立无热手的零假设下，命中后命中率减去失手后命中率的估计值期望严格为负。GVT 受控实验里常用的 n=100、p=0.5、k=3 设计，差值估计量的偏差约为 -8 个百分点；若 n=40、p=0.5、k=3，偏差约为 -20 个百分点。3

这个错误有点像把鱼网从水里提起来后，再用网眼形状证明鱼原本就是这样分布的。条件样本不是原始样本的透明切片。它已经被选择规则挤压过。

经典结论被翻到另一面

偏差校正之后，1985 年受控投篮实验变了样。Miller 和 Sanjurjo 重新分析 GVT 数据时，3 连中后与 3 连丢后的命中率差异，原始结果约为 +3 个百分点；校正后变成 +13 个百分点，p<0.01，标准误约 4.7 个百分点。3

他们还报告，25 名可分析球员里有 19 名方向上呈现热手，比例为 76%；单个球员层面有 5 人达到显著热手，置换检验也给出总体层面的显著证据。3

这不是「球迷永远是对的」。它说的是另一件事：一个研究可以准确地指出人类直觉的偏差，同时自己也踩进一个更隐蔽的小样本偏差。行为科学最耐人读的地方，不是给直觉贴上错误标签，而是发现贴标签的仪器也会漂移。

真实比赛里，热手会改变对手和自己

受控投篮实验把球员放进相对干净的环境。真实比赛不干净。刚连进两球的球员会更敢出手，队友可能更愿意传球，防守者也会贴得更紧。若只看下一球进没进，很容易把「手感变化」和「出手难度变化」混在一起。

Bocskocsky、Ezekowitz 和 Stein 在 Sloan Sports Analytics Conference 论文里用了 2012-13 NBA 赛季超过 83,000 次投篮，并结合球员与篮球的光学追踪数据。论文说，近期表现超出预期的球员会从更远位置出手，面对更紧防守，也更可能执行球队下一次投篮；控制当前投篮难度后，热手效应约为 1.2 到 2.4 个百分点。4

这个结果削弱了一个粗糙问题：「热手到底有没有？」更好的问题拆成两层：球员状态是否改变了命中概率？若改变了，比赛环境是否同时把他推向更难的投篮？前一层可能让命中率上升，后一层可能把上升吃掉。肉眼看见的连续命中，只是两股力量的合成影子。

野外数据给出的答案更不舒服

Pelechrinis 和 Winston 2022 年在 PLOS ONE 发表的论文进一步把问题推到「野外」。他们用 2013-14 和 2014-15 两个 NBA 赛季的 SportVU 光学追踪数据，每季约 200,000 次投篮；模型纳入投篮距离、最近防守者距离、投手和防守者 ID、持球时间、运球次数、投篮类型等特征，只保留两季合计至少 1,000 次出手且数据完整的球员，最终分析 153 人。5

命中与未中投篮序列及置换检验示意 — Pelechrinis 和 Winston 用这张图解释置换检验与投篮质量校准：同一串命中/失手序列要先与随机置换或模拟出的基准分布比较，才能判断观察到的连中是否超出随机期望。5

他们的方法有两个关键保护。第一，用 4 层前馈神经网络估计每次投篮的基准命中概率，并用留一赛季训练法避免同季泄漏。第二，不再假设每次出手都同质，而是模拟一个由不同命中概率组成的伯努利过程，再比较真实数据里 k 连中之后的命中率是否超过模拟基准。5

Kemba Walker 的例子很直观。论文表 1 显示，1 连中后他真实下一球命中率为 42.6%，模型基准为 38.7%；4 连中后，真实值为 53.3%，模型基准为 38.8%。校正后的热手效应从 2.5 个百分点升到 12.7 个百分点，四档都达到 p<0.001。5

Loading chart…

联盟整体却给出另一种答案。153 名合格球员里，在 5% 显著性水平下，各档 k 至少有 24 名球员呈现热手；在作者的二项元检验中，偶然出现这么多阳性的概率低于百万分之一。可若把全部 153 人合在一起看，整体校正效应是负的：1 连中后为 -1.4 个百分点，4 连中后约 -2.2 个百分点。5

Loading chart…

这组结果很适合治愈二分法。热手可以存在；多数时候，回归也在场。某些球员在特定条件下会越投越好，联盟平均球员在连中后反而低于自身期望。一个口号抓不住这种结构。

小样本最擅长伪装成故事

Tversky 和 Kahneman 1971 年写「小数定律」时，例子不只来自赌场或球场。他们把矛头指向研究者：若研究者预期总体相关 r=.35，却只取 N=33 的样本，检出真实效应的统计功效大约只有 0.50。低功效研究会让真实效应时有时无，也会让偶然显著结果显得比它本来更可信。2

热手争论把这个老问题换了一个形状。人们容易过度相信小样本中的连续成功；统计检验也可能低估连续成功，因为它选择条件样本的方式有偏。前者把噪声当信号，后者把信号压成噪声。两者都来自同一个地方：有限样本不是一个缩小版宇宙。

同样的陷阱会出现在任何按时间排列的成功/失败序列里：广告实验连续几天转化率上升、交易策略连续几周跑赢、推荐系统新版本连续几批指标变好、模型评测在某一串题上突然失手。粗糙读法会立刻问「状态变了吗」；更可靠的读法先问四件事：基准概率是否稳定，样本是否被条件筛过，行为是否因连胜而改变，检验方法在零假设下是否本来就偏。

热手故事留下的谨慎结论并不浪漫：有些 streak 是错觉，有些 streak 是效应，有些 streak 是效应被对手反应抵消后的残影。人脑会把第一类看成第二类；糟糕的估计量会把第二类看成第一类。判断一串成功，不能只盯着那串成功。要看它是从怎样的样本里被挑出来的。