仮説検定 — p値・α・棄却域を可視化

検定は裁判の構造をしている。H₀ は「無罪推定」、棄却域は「有罪宣告ライン」。z 値がどちら側に立つかで判決が決まる。

I.04 / HYPOTHESIS TESTING

仮説検定 — 棄却か、棄却できないか

信頼区間が「幅として」不確実性を出す道具なら、仮説検定は「YES/NO として」それを使う道具。帰無仮説の世界でこのデータは起こりえるか？起こりにくいなら reject——同じ分布、同じ σ／n、質問が違うだけ。

検定 = 裁判だと思うと超わかりやすい。
「H₀（帰無仮説）：この薬は効かない（＝無罪）」をいったん仮置きし、データから計算した 検定統計量 z が 事前に決めた棄却域 に落ちたら有罪宣告 — つまり H₀ を棄却 する。
ここでは2画面で攻める：① z値と棄却域の幾何学（両側・右側・左側）・ ② 冤罪(α)と見逃し(β)のトレードオフ。

実験ガイド — 順番に試してみよう

Step 1: ① で z=1.96, α=0.05, 両側 → ギリギリ棄却域の境界。p値≈0.05。ここが分水嶺。
α（有意水準）＝「これより極端なら偶然じゃないと判断する」基準線。α が棄却域の広さを決める。
Step 2: z を 2.5 に → 棄却域に深く入り、p値が小さくなる。「強い証拠」。
Step 3: 検定タイプを「右側」に切替 → 同じ z=1.96 でも棄却域が片側に集中し、p値が半分に。

▶ ① 基本：z値と棄却域

観測 z = 1.96

α = 0.05

検定タイプ

検定統計量 z—

臨界値—

p値—

判定—

実験ガイド — α・β・検出力

Step 1: 効果量 δ を 0 に → H₁ が H₀ と重なり、検出力ゼロ。差がなければ見つけられない。
Step 2: δ を 2→3 にスライド → 紫の曲線(H₁)が右に離れ、検出力が上がる。
Step 3: α を 0.01 に下げる → 冤罪は減るが、見逃し(β)が増える。トレードオフを実感。

▶ ② 2つの誤り：α・β・検出力

ここは α（第1種の誤り）/ β（第2種の誤り）/ 検出力のトレードオフを触って体感する場。
気になったら戻ってきてOK。深い概念整理（2×2マトリクス・α と β が「別の世界」の確率である理由など）は『過誤の2×2』コラムでまとめています。
Tip: グラフ上を左右にドラッグすると、臨界値（α の境界）を直接動かせる。

効果量 δ = 2.0

α = 0.050

α (第1種の誤り)—

臨界値—

β (第2種の誤り)—

検出力 1−β—

// ここで使われる公式

左の式を日本語にすると
・「この薬に本当は効果がない（H₀: μ=μ₀）としたら、今回のデータの平均が μ₀ からこんなにずれるのは、標準誤差の何個分か？」

各パーツの役割
・X̄ − μ₀：実験結果と「効果なし」のズレ ← これが大きいほど疑わしい
・÷ σ/√n：「そのズレ、σ何個分？」に変換 ← σ1個分ならよくあること、3個分なら滅多にない

右の式：p値（両側検定）
・「H₀ が正しい世界で、今回の |z| 以上に極端な値が出る確率」← これが知りたい
・p値 ≤ α（有意水準）→ 棄却。「こんな極端な結果は偶然とは思えない」
・p値 > α → 棄却できない。「偶然でも十分ありえる範囲」

⚠️ p値 ≠「H₀ が正しい確率」
・p値は「H₀ が正しいと仮定した上で」計算している。H₀ の真偽そのものは分からない
・ここはよくハマるポイント

// 検定の5ステップ — 毎回この順番で考える

仮説を立てる：H₀:「差はない」 vs H₁:「差がある」
有意水準 α を決める：実験前に決める数（例: 0.05）
検定統計量を計算：z, t, χ² など。「データが H₀ からどれだけずれたか」を1つの数字にまとめる
p値を求める：統計量から確率を引く
判定：p ≤ α なら棄却。p > α なら棄却できない

// 裁判のたとえ — もう一歩踏み込む

H₀ =「被告は無罪」、H₁ =「被告は有罪」
H₀ 棄却 = 有罪判決：「無罪なのにこんな証拠が出るのは不自然すぎる」
棄却できない = 証拠不十分：「無罪を証明した」のではなく「有罪にする証拠が足りなかった」
だから「H₀ を採択する」とは言わず「H₀ を棄却できない」と言う

// 信頼区間との対応

95%信頼区間に μ₀ が入っている ⟺ α=0.05 で H₀ を棄却できない。同じ計算を「幅」で見るか「YES/NO」で見るかの違い。結論は必ず一致する。

// α と β のトレードオフ

α・β・検出力の整理は『過誤の2×2』コラムで詳しく扱っています。

// よくある誤解

❌「p値が小さい = 効果が大きい」

p値は「データが珍しいかどうか」であって「効果の大きさ」ではない。n=100万なら、ほんの少しの差でもp<0.001 になる。効果の大きさは別途確認が必要。

過誤・検出力にまつわる誤解（「有意でない＝差がない」「α を小さくすればするほど良い」など）は『過誤の2×2』コラムのFAQでまとめて整理しています。

// よく出会う形

仮説検定のまわりでは、p値と α の比較、両側／片側の選び方、二種類の誤りの整理、という同じ役者が繰り返し顔を出します。

p値と α の比較の形：p=0.03, α=0.01 なら 0.03 > 0.01 なので棄却できない側。「観測されたp値が α 以下に入っているか」という同じ判定の形が、検定のたびに現れる
両側と片側の使い分け：「平均が上がるか」を見たい場面は片側、「上下どちらでもいいから変わるか」を見たい場面は両側、という形で問いの向きが分かれる
誤りの2×2の形：H₀ が正しいのに棄却したら第1種、H₀ が間違っているのに棄却できなかったら第2種。検定のあるところには必ずこの2×2の表がついて回る
検出力の位置づけ：1 − β =「本当に差があるときに、ちゃんと検出できる確率」。第2種の裏側として、いつもこの形で顔を出す

臨界値の確認はインタラクティブ確率分布表で — z値・t値をグラフと同期しながら調べられる

// もっと読む

第一種・第二種の過誤って何が違うの？ — 2×2の表で全部見える第一種・第二種の誤りと検出力を、別々ではなく同じ 2×2 上で同時に追える

« 全コラム一覧を見る

次は —平均から比率へ ▸ I5 母比率の検定と推定