大数の法則 — 試行回数と真の平均
コインで10連続の表が出ても珍しくない。1万回投げれば必ず半々に近づく。データが「証拠」になり得る根拠がここにある。
大数の法則 — 試行を重ねれば真値に近づく
コイン投げで最初の10回連続で表が出た — これ、別に珍しいことじゃない。
でも 1万回投げたら、表の割合はほぼ ぴったり 0.5 に収まる。
これが大数の法則。サンプルを増やすほど、観測値は"真の値"に吸い寄せられていく。
統計が"なんとなく"じゃなく"証拠"になる理由がここにある。
- Step 1: p=0.5 で ▶ シミュレート → 最初は暴れるが、右に行くほど 0.5 に吸い寄せられる。
- Step 2: RESET して、もう一度 ▶ → 序盤の軌道は毎回違うが、終盤は毎回同じ場所に収束する。
- Step 3: p を 0.8 に変えてシミュレート → 赤線が 0.8 に引き寄せられることを確認。
- Step 4: p を 0.05(レアイベント)に → 最初はゼロ付近で張り付くが、やはり p に収束する。
// ここで使われる公式
左辺を日本語にすると
・「n人の平均身長が、日本人全体の平均身長から ε cm 以上ずれちゃう確率」
右辺の意味
・σ²/nε²:この確率の上限。実際にはもっと小さいかもしれないけど、少なくともこれ以下
・分母に n がある → n を大きくすれば上限がどんどんゼロに近づく
・つまり「サンプルを増やせば、平均はいくらでも真値に近づけられる」← これが大数の法則
具体例(コイン投げ)
・p=0.5(表の確率)、σ²=0.25、ε=0.01(1%以内のズレ)のとき——
・n=100:P ≤ 0.25/(100×0.0001) = 25 → 上限が25じゃ何も言えない(確率は1以下なので)
・n=100,000:P ≤ 0.025 → 2.5%以下に抑えられる
・n=1,000,000:P ≤ 0.0025 → 0.25%以下。ほぼ真値に張り付く
・チェビシェフの不等式は"ゆるい"上限なので、実際にはもっと速く収束する
// なぜこの定理が統計学の「免許証」なのか
地味に見える定理だが、大数の法則がないと「サンプルから全体を推測する」が正当化できない。つまり統計の根っこが折れる。
- 世論調査で1000人に聞いて「支持率48%」と出ても、それが全体に近い保証がない
- 新薬の治験で「改善率が高い」と出ても、偶然かもしれない
- 保険会社が過去データから事故率を見積もって保険料を決める、あれも成り立たない
LLN が「n を大きくすれば標本平均は母平均に近づく」と保証してくれてるから、上のぜんぶが正当化される。地味だけど、ないと困る定理。
// 「ギャンブラーの誤謬」に注意
コインで5回連続で表が出ても、6回目に裏が出る確率は 0.5 のまま。LLN は「次の1回を当てられる」とは言っていない。「何万回も平均すれば 0.5 に近づく」と言っているだけ。個々の試行は相変わらずランダム。
// LLN と 中心極限定理の違い — ここは混同しやすい
| LLN(大数の法則) | 中心極限定理 | |
|---|---|---|
| 何の話? | 平均の値が真値に近づく | 平均の分布の形が正規分布に近づく |
| 一言で | 「どこに向かうか」 | 「途中でどう散らばるか」 |
| 必要な条件 | 平均が存在すること | 平均と分散が存在すること |
ざっくり言えば:LLN が「ゴールの場所」を教えてくれて、中心極限定理が「ゴールまでの道の形」を教えてくれる。
// よくある誤解
LLN が言っているのは"割合"が 0.5 に近づくこと。回数の差(|表の回数 − 50|)はむしろ広がることがある。100回で48回(割合48%、差2)、10000回で4950回(割合49.5%、差50)。割合は近づいたけど差は広がっている。
LLN は「平均が真値に近づく」としか言わない。「どれくらいの精度で?」「誤差の分布は?」には答えられない。それを教えてくれるのが中心極限定理。両方必要。
「平均が存在する」ことが条件。コーシー分布のように平均が定義できない分布では、サンプルをどれだけ増やしても平均は収束しない。
// よく出会う形
大数の法則のまわりでは、上限の式と「双子の定理」との対比が繰り返し顔を出します。
- チェビシェフの上限の形:σ²=4, n=100 のとき P(|X̄−μ|≥1) ≤ 4/(100×1) = 0.04 と並ぶ。「分散 ÷(n × ε²)」の形が、n が大きいほど上限を細らせていく構造になっている
- LLN が答える問い:「標本平均は母平均に近づくのか?」 — この問いに対する答えとして、LLN が顔を出す。「どこに向かうか」を保証する定理という形
- LLN と中心極限定理の住み分け:「平均の値が真値に近づく」のが LLN、「平均の分布の形が正規になる」のが中心極限定理。役割の違いがこの一対の形で見えてくる