メインコンテンツへスキップ

大数の法則 — 試行回数と真の平均

コインで10連続の表が出ても珍しくない。1万回投げれば必ず半々に近づく。データが「証拠」になり得る根拠がここにある。

I.02 / LAW OF LARGE NUMBERS

大数の法則 — 試行を重ねれば真値に近づく

中心極限定理で「平均を取ると正規分布になる」と分かった。でもそもそも 標本平均 は、n を増やすと本当の平均に近づくのか? それを保証するのが大数の法則。中心極限定理が「形」の話なら、LLN は「中心が動かない」話。

コイン投げで最初の10回連続で表が出た — これ、別に珍しいことじゃない。 でも 1万回投げたら、表の割合はほぼ ぴったり 0.5 に収まる。
これが大数の法則。サンプルを増やすほど、観測値は"真の値"に吸い寄せられていく。 統計が"なんとなく"じゃなく"証拠"になる理由がここにある。

実験ガイド — 順番に試してみよう
  1. Step 1: p=0.5 で ▶ シミュレート → 最初は暴れるが、右に行くほど 0.5 に吸い寄せられる。
  2. Step 2: RESET して、もう一度 ▶ → 序盤の軌道は毎回違うが、終盤は毎回同じ場所に収束する。
  3. Step 3: p を 0.8 に変えてシミュレート → 赤線が 0.8 に引き寄せられることを確認。
  4. Step 4: p を 0.05(レアイベント)に → 最初はゼロ付近で張り付くが、やはり p に収束する。
試行回数0
現在の平均
理論値0.50

// ここで使われる公式

左辺を日本語にすると
・「n人の平均身長が、日本人全体の平均身長から ε cm 以上ずれちゃう確率」

右辺の意味
・σ²/nε²:この確率の上限。実際にはもっと小さいかもしれないけど、少なくともこれ以下
・分母に n がある → n を大きくすれば上限がどんどんゼロに近づく
・つまり「サンプルを増やせば、平均はいくらでも真値に近づけられる」← これが大数の法則

具体例(コイン投げ)
・p=0.5(表の確率)、σ²=0.25、ε=0.01(1%以内のズレ)のとき——
・n=100:P ≤ 0.25/(100×0.0001) = 25 → 上限が25じゃ何も言えない(確率は1以下なので)
・n=100,000:P ≤ 0.025 → 2.5%以下に抑えられる
・n=1,000,000:P ≤ 0.0025 → 0.25%以下。ほぼ真値に張り付く
・チェビシェフの不等式は"ゆるい"上限なので、実際にはもっと速く収束する

// なぜこの定理が統計学の「免許証」なのか

地味に見える定理だが、大数の法則がないと「サンプルから全体を推測する」が正当化できない。つまり統計の根っこが折れる。

  • 世論調査で1000人に聞いて「支持率48%」と出ても、それが全体に近い保証がない
  • 新薬の治験で「改善率が高い」と出ても、偶然かもしれない
  • 保険会社が過去データから事故率を見積もって保険料を決める、あれも成り立たない

LLN が「n を大きくすれば標本平均は母平均に近づく」と保証してくれてるから、上のぜんぶが正当化される。地味だけど、ないと困る定理。

// 「ギャンブラーの誤謬」に注意

コインで5回連続で表が出ても、6回目に裏が出る確率は 0.5 のまま。LLN は「次の1回を当てられる」とは言っていない。「何万回も平均すれば 0.5 に近づく」と言っているだけ。個々の試行は相変わらずランダム。

// LLN と 中心極限定理の違い — ここは混同しやすい

LLN(大数の法則)中心極限定理
何の話?平均のが真値に近づく平均の分布の形が正規分布に近づく
一言で「どこに向かうか」「途中でどう散らばるか」
必要な条件平均が存在すること平均と分散が存在すること

ざっくり言えば:LLN が「ゴールの場所」を教えてくれて、中心極限定理が「ゴールまでの道の形」を教えてくれる。

// よくある誤解

❌「100回投げれば表がちょうど50回出る」

LLN が言っているのは"割合"が 0.5 に近づくこと。回数の(|表の回数 − 50|)はむしろ広がることがある。100回で48回(割合48%、差2)、10000回で4950回(割合49.5%、差50)。割合は近づいたけど差は広がっている。

❌「大数の法則があれば中心極限定理は要らない」

LLN は「平均が真値に近づく」としか言わない。「どれくらいの精度で?」「誤差の分布は?」には答えられない。それを教えてくれるのが中心極限定理。両方必要。

❌「どんな分布でも LLN は成り立つ」

「平均が存在する」ことが条件。コーシー分布のように平均が定義できない分布では、サンプルをどれだけ増やしても平均は収束しない。

// よく出会う形

大数の法則のまわりでは、上限の式と「双子の定理」との対比が繰り返し顔を出します。

  • チェビシェフの上限の形:σ²=4, n=100 のとき P(|X̄−μ|≥1) ≤ 4/(100×1) = 0.04 と並ぶ。「分散 ÷(n × ε²)」の形が、n が大きいほど上限を細らせていく構造になっている
  • LLN が答える問い:「標本平均は母平均に近づくのか?」 — この問いに対する答えとして、LLN が顔を出す。「どこに向かうか」を保証する定理という形
  • LLN と中心極限定理の住み分け:「平均の値が真値に近づく」のが LLN、「平均の分布の形が正規になる」のが中心極限定理。役割の違いがこの一対の形で見えてくる
次は —有限サンプルで不確実性をどう表す? I3 信頼区間