中心極限定理を目で見てイメージを掴む
もとの分布がどれだけ歪んでいても、その平均はベル型に化ける。他のトピックの裏で繰り返し顔を出す通底装置。
中心極限定理 — なぜ正規分布は最強なのか
ちょっとヤバい事実 — もとの分布がどんなに歪んでいても、
そこから n個 取って平均する操作を繰り返すと、その平均たちの分布は勝手に
ベル型(正規分布)に化ける。
下のラボでは 左=もとの分布(めっちゃ歪んでいる)、右=標本平均の分布(正規に化けていく)を並べて見せている。
n を大きくするほど、右のベルがシュッと細くなる(SE = σ/√n)。
- Step 1: 元の分布を「指数分布」にして n=1 で ▶ → 右に歪んだまま。まだ全然ベルじゃない。
- Step 2: n を 5 にして ▶ → 少しベルっぽくなるが、まだ歪み。
- Step 3: n を 30 にして ▶ → ほぼ正規分布。「n≥30」は定理が保証する値ではなく、経験的な目安。元の分布が極端に歪んでいると、もっと必要なこともある。
- Step 4: 「二峰分布」に切り替えて同じことをやる → 山2つのやつですらベルに化ける衝撃。
// ここで使われる公式
この式が言っていること(日本語に直す)
・「n人分のテストの平均点を出して、真の平均との差を標準誤差で割ると、もとの点数がどんな分布でも、n が大きければ標準正規分布に従う」
各パーツの役割
・X̄ₙ − μ:標本平均と真の平均のズレ ← 生の値だと単位やスケールに引きずられる
・÷ σ/√n:ズレを標準誤差(SE)で"標準化"する → 「σ何個分ずれてるか」に変換
・→d N(0,1):n→∞ でこの値の分布が標準正規分布に近づく
なぜこれで信頼区間も検定もぜんぶ作れるのか
・中心極限定理のおかげで「X̄ はだいたい N(μ, σ²/n) に従う」と言い切れる
・信頼区間 X̄ ± 1.96·σ/√n は「X̄ が正規分布するから ±1.96σ で95%カバーできる」が根拠
・検定の z = (X̄−μ₀)/(σ/√n) も、中心極限定理があるから N(0,1) の表で判定できる
・つまり 中心極限定理は「正規分布の道具が何にでも使える理由」
// なぜ「平均を取る」と正規分布に化けるのか
直感的に言えば——平均を取ると、たまたま大きかった値と小さかった値が打ち消し合う。n 個のプラスのズレとマイナスのズレが相殺されて、極端な平均は出にくくなる。この「出にくさ」の度合いが、ちょうど正規分布のベル型に一致する。
上のシミュレーションで確かめよう:
・指数分布(右に歪んでいる)を選んで n=5 → 平均の分布はまだ歪んでいる
・n=30 にする → もうかなりベル型。元の分布がどんなに歪んでいても、平均を取れば正規に近づく
// 「n ≥ 30 ならOK」は本当?
よく参考書に「n ≥ 30 なら 中心極限定理が使える」と書いてあるけど、実はこれ、数学的な閾値じゃなくてただの経験則。
- 一様分布(左右対称)なら n=12 でもかなり正規に見える
- 指数分布(強い歪み)なら n=40〜50 でようやく
- 二峰分布なら n=30 でもまだ凸凹が残ることがある
// σ と SE の違い — ここ、混同しやすい
- σ(標準偏差):個々のデータのバラつき。データそのものの性質
- SE = σ/√n(標準誤差):標本平均のバラつき。サンプル数で決まる
- n を4倍にすると SE は半分(√4=2で割るから)。精度を2倍にするにはデータが4倍必要。これが「調査のコスト」の正体
// よくある誤解
元のデータの形は何も変わらない。正規分布に化けるのは「標本平均の分布」。指数分布から取ったデータは相変わらず右に歪んだまま。
上に書いたとおり、元の分布次第。シミュレーションで分布と n を変えて実際に確かめるのが一番。
中心極限定理の成立には「分散 σ² が有限」という条件がある。コーシー分布(分散が無限)では標本平均を取っても正規分布に収束しない。
// よく出会う形
中心極限定理は、ここだけで完結する話ではなく、他のトピックの裏で繰り返し顔を出す通底装置です。同じ √n の構造が、別の道具に姿を変えて再登場します。
- 信頼区間の幅に再登場:母平均の CI は X̄ ± 1.96·σ/√n。幅が σ/√n で決まるのは、中心極限定理が「X̄ は N(μ, σ²/n) に近い」と保証してくれるから
- 母比率の検定で再登場:1標本z検定の SE = √(p₀(1−p₀)/n) も、形を読み替えると σ/√n と同じ「ばらつき / √n」の構造。proptest の正規近似条件 np ≥ 5 は、中心極限定理が成り立つラインを比率の世界に翻訳したもの
- 回帰の傾きの SE で再登場:β₁ の標準誤差 SE(β̂₁) も、誤差項の標準偏差を「説明変数のばらつき × √n」で割る形。n が増えると傾きの推定が締まっていくのは、ここでも √n が効いているから
- 「n を 4 倍にして精度が 2 倍」:√n が分母にいる以上、精度はサンプル数の平方根でしか伸びない。これが推定全般に共通する「調査コストの形」
CLT が保証する「平均は正規」の上に建つ区間の幅は 信頼区間。