中心極限定理を目で見てイメージを掴む

もとの分布がどれだけ歪んでいても、その平均はベル型に化ける。他のトピックの裏で繰り返し顔を出す通底装置。

I.01 / CENTRAL LIMIT THEOREM

中心極限定理 — なぜ正規分布は最強なのか

正規分布の基礎を掴んだ。ここからは推測統計。1つのデータから平均を取ったらどんな形になる？ ——ここで中心極限定理が効いてくる。サイコロでもポアソンでも、出発点は何でもいい。平均にした瞬間、世界はあの正規曲線に吸い込まれていく。

ちょっとヤバい事実 — もとの分布がどんなに歪んでいても、そこから n個取って平均する操作を繰り返すと、その平均たちの分布は勝手に ベル型（正規分布）に化ける。
下のラボでは 左＝もとの分布（めっちゃ歪んでいる）、右＝標本平均の分布（正規に化けていく）を並べて見せている。 n を大きくするほど、右のベルがシュッと細くなる（SE = σ/√n）。

実験ガイド — 順番に試してみよう

Step 1: 元の分布を「指数分布」にして n=1 で ▶ → 右に歪んだまま。まだ全然ベルじゃない。
Step 2: n を 5 にして ▶ → 少しベルっぽくなるが、まだ歪み。
Step 3: n を 30 にして ▶ → ほぼ正規分布。「n≥30」は定理が保証する値ではなく、経験的な目安。元の分布が極端に歪んでいると、もっと必要なこともある。
Step 4: 「二峰分布」に切り替えて同じことをやる → 山2つのやつですらベルに化ける衝撃。

元の分布（歪んでるやつ）

サンプルサイズ n = 30

試行回数0

標本平均の平均—

標本平均の標準偏差—

理論SE = σ/√n—

// ここで使われる公式

この式が言っていること（日本語に直す）
・「n人分のテストの平均点を出して、真の平均との差を標準誤差で割ると、もとの点数がどんな分布でも、n が大きければ標準正規分布に従う」

各パーツの役割
・X̄ₙ − μ：標本平均と真の平均のズレ ← 生の値だと単位やスケールに引きずられる
・÷ σ/√n：ズレを標準誤差（SE）で"標準化"する → 「σ何個分ずれてるか」に変換
・→d N(0,1)：n→∞ でこの値の分布が標準正規分布に近づく

なぜこれで信頼区間も検定もぜんぶ作れるのか
・中心極限定理のおかげで「X̄ はだいたい N(μ, σ²/n) に従う」と言い切れる
・信頼区間 X̄ ± 1.96·σ/√n は「X̄ が正規分布するから ±1.96σ で95%カバーできる」が根拠
・検定の z = (X̄−μ₀)/(σ/√n) も、中心極限定理があるから N(0,1) の表で判定できる
・つまり中心極限定理は「正規分布の道具が何にでも使える理由」

// なぜ「平均を取る」と正規分布に化けるのか

直感的に言えば——平均を取ると、たまたま大きかった値と小さかった値が打ち消し合う。n 個のプラスのズレとマイナスのズレが相殺されて、極端な平均は出にくくなる。この「出にくさ」の度合いが、ちょうど正規分布のベル型に一致する。

上のシミュレーションで確かめよう：
・指数分布（右に歪んでいる）を選んで n=5 → 平均の分布はまだ歪んでいる
・n=30 にする → もうかなりベル型。元の分布がどんなに歪んでいても、平均を取れば正規に近づく

// 「n ≥ 30 ならOK」は本当？

よく参考書に「n ≥ 30 なら中心極限定理が使える」と書いてあるけど、実はこれ、数学的な閾値じゃなくてただの経験則。

一様分布（左右対称）なら n=12 でもかなり正規に見える
指数分布（強い歪み）なら n=40〜50 でようやく
二峰分布なら n=30 でもまだ凸凹が残ることがある

// σ と SE の違い — ここ、混同しやすい

σ（標準偏差）：個々のデータのバラつき。データそのものの性質
SE = σ/√n（標準誤差）：標本平均のバラつき。サンプル数で決まる
n を4倍にすると SE は半分（√4=2で割るから）。精度を2倍にするにはデータが4倍必要。これが「調査のコスト」の正体

// よくある誤解

❌「中心極限定理は元のデータが正規分布になると言っている」

元のデータの形は何も変わらない。正規分布に化けるのは「標本平均の分布」。指数分布から取ったデータは相変わらず右に歪んだまま。

❌「n=30 は絶対的な基準」

上に書いたとおり、元の分布次第。シミュレーションで分布と n を変えて実際に確かめるのが一番。

❌「中心極限定理があれば母集団の情報は要らない」

中心極限定理の成立には「分散 σ² が有限」という条件がある。コーシー分布（分散が無限）では標本平均を取っても正規分布に収束しない。

// よく出会う形

中心極限定理は、ここだけで完結する話ではなく、他のトピックの裏で繰り返し顔を出す通底装置です。同じ √n の構造が、別の道具に姿を変えて再登場します。

信頼区間の幅に再登場：母平均の CI は X̄ ± 1.96·σ/√n。幅が σ/√n で決まるのは、中心極限定理が「X̄ は N(μ, σ²/n) に近い」と保証してくれるから
母比率の検定で再登場：1標本z検定の SE = √(p₀(1−p₀)/n) も、形を読み替えると σ/√n と同じ「ばらつき / √n」の構造。proptest の正規近似条件 np ≥ 5 は、中心極限定理が成り立つラインを比率の世界に翻訳したもの
回帰の傾きの SE で再登場：β₁ の標準誤差 SE(β̂₁) も、誤差項の標準偏差を「説明変数のばらつき × √n」で割る形。n が増えると傾きの推定が締まっていくのは、ここでも √n が効いているから
「n を 4 倍にして精度が 2 倍」：√n が分母にいる以上、精度はサンプル数の平方根でしか伸びない。これが推定全般に共通する「調査コストの形」

CLT が保証する「平均は正規」の上に建つ区間の幅は信頼区間。

// もっと読む

標準化って何？ — 世界中の「ふつう」を比べる翻訳機身長 182cm と TOEIC 860、どっちが「ふつう」から遠い？ z で単位を超えて比べる

« 全コラム一覧を見る

次は —平均は本当に真値に近づく？ ▸ I2 大数の法則