メインコンテンツへスキップ

中心極限定理を目で見てイメージを掴む

もとの分布がどれだけ歪んでいても、その平均はベル型に化ける。他のトピックの裏で繰り返し顔を出す通底装置。

I.01 / CENTRAL LIMIT THEOREM

中心極限定理 — なぜ正規分布は最強なのか

正規分布の基礎を掴んだ。ここからは推測統計。1つのデータから平均を取ったらどんな形になる? ——ここで中心極限定理が効いてくる。サイコロでもポアソンでも、出発点は何でもいい。平均にした瞬間、世界はあの正規曲線に吸い込まれていく。

ちょっとヤバい事実 — もとの分布がどんなに歪んでいても、 そこから n個 取って平均する操作を繰り返すと、その平均たちの分布は勝手に ベル型(正規分布)に化ける。
下のラボでは 左=もとの分布(めっちゃ歪んでいる)右=標本平均の分布(正規に化けていく)を並べて見せている。 n を大きくするほど、右のベルがシュッと細くなる(SE = σ/√n)。

実験ガイド — 順番に試してみよう
  1. Step 1: 元の分布を「指数分布」にして n=1 で ▶ → 右に歪んだまま。まだ全然ベルじゃない。
  2. Step 2: n を 5 にして ▶ → 少しベルっぽくなるが、まだ歪み。
  3. Step 3: n を 30 にして ▶ → ほぼ正規分布。「n≥30」は定理が保証する値ではなく、経験的な目安。元の分布が極端に歪んでいると、もっと必要なこともある。
  4. Step 4: 「二峰分布」に切り替えて同じことをやる → 山2つのやつですらベルに化ける衝撃。
試行回数0
標本平均の平均
標本平均の標準偏差
理論SE = σ/√n

// ここで使われる公式

この式が言っていること(日本語に直す)
・「n人分のテストの平均点を出して、真の平均との差を標準誤差で割ると、もとの点数がどんな分布でも、n が大きければ標準正規分布に従う」

各パーツの役割
・X̄ₙ − μ:標本平均と真の平均のズレ ← 生の値だと単位やスケールに引きずられる
・÷ σ/√n:ズレを標準誤差(SE)で"標準化"する → 「σ何個分ずれてるか」に変換
・→d N(0,1):n→∞ でこの値の分布が標準正規分布に近づく

なぜこれで信頼区間も検定もぜんぶ作れるのか
・中心極限定理のおかげで「X̄ はだいたい N(μ, σ²/n) に従う」と言い切れる
・信頼区間 X̄ ± 1.96·σ/√n は「X̄ が正規分布するから ±1.96σ で95%カバーできる」が根拠
・検定の z = (X̄−μ₀)/(σ/√n) も、中心極限定理があるから N(0,1) の表で判定できる
・つまり 中心極限定理は「正規分布の道具が何にでも使える理由」

// なぜ「平均を取る」と正規分布に化けるのか

直感的に言えば——平均を取ると、たまたま大きかった値と小さかった値が打ち消し合う。n 個のプラスのズレとマイナスのズレが相殺されて、極端な平均は出にくくなる。この「出にくさ」の度合いが、ちょうど正規分布のベル型に一致する。

上のシミュレーションで確かめよう:
・指数分布(右に歪んでいる)を選んで n=5 → 平均の分布はまだ歪んでいる
・n=30 にする → もうかなりベル型。元の分布がどんなに歪んでいても、平均を取れば正規に近づく

// 「n ≥ 30 ならOK」は本当?

よく参考書に「n ≥ 30 なら 中心極限定理が使える」と書いてあるけど、実はこれ、数学的な閾値じゃなくてただの経験則。

  • 一様分布(左右対称)なら n=12 でもかなり正規に見える
  • 指数分布(強い歪み)なら n=40〜50 でようやく
  • 二峰分布なら n=30 でもまだ凸凹が残ることがある

// σ と SE の違い — ここ、混同しやすい

  • σ(標準偏差):個々のデータのバラつき。データそのものの性質
  • SE = σ/√n(標準誤差):標本平均のバラつき。サンプル数で決まる
  • n を4倍にすると SE は半分(√4=2で割るから)。精度を2倍にするにはデータが4倍必要。これが「調査のコスト」の正体

// よくある誤解

❌「中心極限定理は元のデータが正規分布になると言っている」

元のデータの形は何も変わらない。正規分布に化けるのは「標本平均の分布」。指数分布から取ったデータは相変わらず右に歪んだまま。

❌「n=30 は絶対的な基準」

上に書いたとおり、元の分布次第。シミュレーションで分布と n を変えて実際に確かめるのが一番。

❌「中心極限定理があれば母集団の情報は要らない」

中心極限定理の成立には「分散 σ² が有限」という条件がある。コーシー分布(分散が無限)では標本平均を取っても正規分布に収束しない。

// よく出会う形

中心極限定理は、ここだけで完結する話ではなく、他のトピックの裏で繰り返し顔を出す通底装置です。同じ √n の構造が、別の道具に姿を変えて再登場します。

  • 信頼区間の幅に再登場:母平均の CI は X̄ ± 1.96·σ/√n。幅が σ/√n で決まるのは、中心極限定理が「X̄ は N(μ, σ²/n) に近い」と保証してくれるから
  • 母比率の検定で再登場:1標本z検定の SE = √(p₀(1−p₀)/n) も、形を読み替えると σ/√n と同じ「ばらつき / √n」の構造。proptest の正規近似条件 np ≥ 5 は、中心極限定理が成り立つラインを比率の世界に翻訳したもの
  • 回帰の傾きの SE で再登場:β₁ の標準誤差 SE(β̂₁) も、誤差項の標準偏差を「説明変数のばらつき × √n」で割る形。n が増えると傾きの推定が締まっていくのは、ここでも √n が効いているから
  • 「n を 4 倍にして精度が 2 倍」:√n が分母にいる以上、精度はサンプル数の平方根でしか伸びない。これが推定全般に共通する「調査コストの形」

CLT が保証する「平均は正規」の上に建つ区間の幅は 信頼区間

次は —平均は本当に真値に近づく? I2 大数の法則