A/Bテストの落とし穴
要点
- A/Bテストは強力だが、運用を誤ると「改善した」という誤った結論を量産する。
- 代表的な落とし穴は、途中で覗く(peeking)、多重比較、新奇性効果の三つだ。
- いずれも、偶然のゆらぎを本物の効果と取り違える点で共通している。
- もっとも、これらは手法の欠陥ではなく、運用の規律で大半が防げる。
あるチームが、ボタンの色を変える小さな改修をA/Bテストにかけた。初日、新しい色のクリック率は明らかに高い。チームは勝利を宣言し、全面適用を決めた。数週間後、効果は消えていた——。この種の話は、現場で珍しくない。A/Bテストは客観的な検証手段とされるが、運用を誤れば、存在しない効果を「確かめて」しまう。本稿では、よく踏まれる落とし穴を順に見ていく。
途中で覗く誘惑
第一の落とし穴は、結果を途中で覗き、良さそうな時点で打ち切ることだ。データには偶然のゆらぎがある。十分なサンプルがたまる前は、AとBの差は大きく揺れ動く。覗き続け、たまたまBが勝った瞬間に止めれば、偶然のピークを実力と取り違える。統計的検定は、あらかじめ決めた標本サイズで一度だけ判定することを前提に組まれている。何度も覗いて都合のよい瞬間を選ぶ運用は、その前提を崩す。冒頭のボタンの例は、初日の偶然のゆらぎを捉えてしまった可能性が高い。
多重比較というからくり
第二は、一度にたくさんの変更を試す多重比較だ。色、文言、配置、サイズ——同時に二十通りを比べれば、そのうちのどれかが偶然「有意」に見えることは、ほぼ確実に起きる。二十回くじを引けば、当たりが出ても不思議はないのと同じだ。問題は、その当たりを本物の効果と思い込み、再現性を確かめないまま採用してしまうことにある。過剰最適化と同じく、偶然のパターンへの過剰な忠実さが、ここでも誤りを生む。
新奇性効果という時間差
第三は、新奇性効果である。新しい表示は、それが新しいというだけで、当初は注目を集めやすい。利用者は珍しさにつられて反応するが、慣れれば反応は元に戻る。短期のテストでは、この一時的な反応を恒常的な改善と読み違える。推薦の設計で触れた「短期の勝者が長期に負ける」現象の一因も、ここにある。効果が新奇性によるものか実質によるものかは、観測期間を延ばさなければ切り分けられない。
規律で大半は防げる
これらの落とし穴に共通するのは、偶然のゆらぎを本物の効果と取り違える点だ。そして重要なのは、いずれも手法そのものの欠陥ではなく、運用の規律で大半が防げることである。標本サイズを事前に決めて途中で覗かない、同時に試す仮説を絞る、観測期間を新奇性が薄れるまで延ばす——どれも派手ではないが、結論の信頼性を支える地味な作法だ。
もっとも、規律を守れば真実が必ず分かるわけではない。A/Bテストが答えるのは「どちらの数字が高いか」であって、「どちらが良いか」ではない。何を測るかという指標選びが間違っていれば、どれだけ厳密に検定しても、間違った問いに正確に答えるだけになる。裏を返せば、A/Bテストの最大の落とし穴は、統計の手前にある指標設計そのものなのかもしれない。
出典・参考
- オンライン実験における逐次的検定(peeking)と多重比較の問題に関する統計的議論
- A/Bテストにおける新奇性効果と観測期間に関する一般的な実務知見
関連するガイドと選択肢を、まとめて確認できます。
選択肢を見る