メインコンテンツへスキップ

仮説検定 — p値・α・棄却域を可視化

検定は裁判の構造をしている。H₀ は「無罪推定」、棄却域は「有罪宣告ライン」。z 値がどちら側に立つかで判決が決まる。

I.04 / HYPOTHESIS TESTING

仮説検定 — 棄却か、棄却できないか

信頼区間が「幅として」不確実性を出す道具なら、仮説検定は「YES/NO として」それを使う道具。帰無仮説の世界でこのデータは起こりえるか? 起こりにくいなら reject——同じ分布、同じ σ/n、質問が違うだけ

検定 = 裁判だと思うと超わかりやすい。
H₀帰無仮説):この薬は効かない(=無罪)」をいったん仮置きし、データから計算した 検定統計量 z事前に決めた棄却域 に落ちたら有罪宣告 — つまり H₀ を棄却 する。
ここでは2画面で攻める:① z値と棄却域の幾何学(両側・右側・左側)② 冤罪(α)と見逃し(β)のトレードオフ

実験ガイド — 順番に試してみよう
  1. Step 1: ① で z=1.96, α=0.05, 両側 → ギリギリ棄却域の境界。p値≈0.05。ここが分水嶺。
    α(有意水準)=「これより極端なら偶然じゃないと判断する」基準線。α が棄却域の広さを決める。
  2. Step 2: z を 2.5 に → 棄却域に深く入り、p値が小さくなる。「強い証拠」。
  3. Step 3: 検定タイプを「右側」に切替 → 同じ z=1.96 でも棄却域が片側に集中し、p値が半分に。

▶ ① 基本:z値と棄却域

検定統計量 z
臨界値
p値
判定
実験ガイド — α・β・検出力
  1. Step 1: 効果量 δ を 0 に → H₁ が H₀ と重なり、検出力ゼロ。差がなければ見つけられない。
  2. Step 2: δ を 2→3 にスライド → 紫の曲線(H₁)が右に離れ、検出力が上がる。
  3. Step 3: α を 0.01 に下げる → 冤罪は減るが、見逃し(β)が増える。トレードオフを実感。

▶ ② 2つの誤り:α・β・検出力

ここは α(第1種の誤り)/ β(第2種の誤り)/ 検出力 のトレードオフを触って体感する場
気になったら戻ってきてOK。深い概念整理(2×2マトリクス・α と β が「別の世界」の確率である理由など)は 『過誤の2×2』コラムでまとめています。
Tip: グラフ上を左右にドラッグすると、臨界値(α の境界)を直接動かせる。

α (第1種の誤り)
臨界値
β (第2種の誤り)
検出力 1−β

// ここで使われる公式

左の式を日本語にすると
・「この薬に本当は効果がない(H₀: μ=μ₀)としたら、今回のデータの平均が μ₀ からこんなにずれるのは、標準誤差の何個分か?」

各パーツの役割
・X̄ − μ₀:実験結果と「効果なし」のズレ ← これが大きいほど疑わしい
・÷ σ/√n:「そのズレ、σ何個分?」に変換 ← σ1個分ならよくあること、3個分なら滅多にない

右の式:p値(両側検定)
・「H₀ が正しい世界で、今回の |z| 以上に極端な値が出る確率」← これが知りたい
・p値 ≤ α(有意水準)→ 棄却。「こんな極端な結果は偶然とは思えない」
・p値 > α → 棄却できない。「偶然でも十分ありえる範囲」

⚠️ p値 ≠「H₀ が正しい確率」
・p値は「H₀ が正しいと仮定した上で」計算している。H₀ の真偽そのものは分からない
・ここはよくハマるポイント

// 検定の5ステップ — 毎回この順番で考える

  1. 仮説を立てる:H₀:「差はない」 vs H₁:「差がある」
  2. 有意水準 α を決める:実験前に決める数(例: 0.05)
  3. 検定統計量を計算:z, t, χ² など。「データが H₀ からどれだけずれたか」を1つの数字にまとめる
  4. p値を求める:統計量から確率を引く
  5. 判定:p ≤ α なら棄却。p > α なら棄却できない

// 裁判のたとえ — もう一歩踏み込む

  • H₀ =「被告は無罪」、H₁ =「被告は有罪」
  • H₀ 棄却 = 有罪判決:「無罪なのにこんな証拠が出るのは不自然すぎる」
  • 棄却できない = 証拠不十分:「無罪を証明した」のではなく「有罪にする証拠が足りなかった」
  • だから「H₀ を採択する」とは言わず「H₀ を棄却できない」と言う

// 信頼区間との対応

95%信頼区間に μ₀ が入っている ⟺ α=0.05 で H₀ を棄却できない。同じ計算を「幅」で見るか「YES/NO」で見るかの違い。結論は必ず一致する。

// α と β のトレードオフ

α・β・検出力の整理は 『過誤の2×2』コラムで詳しく扱っています。

// よくある誤解

❌「p値が小さい = 効果が大きい」

p値は「データが珍しいかどうか」であって「効果の大きさ」ではない。n=100万なら、ほんの少しの差でもp<0.001 になる。効果の大きさは別途確認が必要。

過誤・検出力にまつわる誤解(「有意でない=差がない」「α を小さくすればするほど良い」など)は 『過誤の2×2』コラムのFAQでまとめて整理しています。

// よく出会う形

仮説検定のまわりでは、p値と α の比較、両側/片側の選び方、二種類の誤りの整理、という同じ役者が繰り返し顔を出します。

  • p値と α の比較の形:p=0.03, α=0.01 なら 0.03 > 0.01 なので棄却できない側。「観測されたp値が α 以下に入っているか」という同じ判定の形が、検定のたびに現れる
  • 両側と片側の使い分け:「平均が上がるか」を見たい場面は片側、「上下どちらでもいいから変わるか」を見たい場面は両側、という形で問いの向きが分かれる
  • 誤りの2×2の形:H₀ が正しいのに棄却したら第1種、H₀ が間違っているのに棄却できなかったら第2種。検定のあるところには必ずこの2×2の表がついて回る
  • 検出力の位置づけ:1 − β =「本当に差があるときに、ちゃんと検出できる確率」。第2種の裏側として、いつもこの形で顔を出す

臨界値の確認はインタラクティブ確率分布表で — z値・t値をグラフと同期しながら調べられる

次は —平均から比率へ I5 母比率の検定と推定