大数の法則 — 試行回数と真の平均

コインで10連続の表が出ても珍しくない。1万回投げれば必ず半々に近づく。データが「証拠」になり得る根拠がここにある。

I.02 / LAW OF LARGE NUMBERS

大数の法則 — 試行を重ねれば真値に近づく

中心極限定理で「平均を取ると正規分布になる」と分かった。でもそもそも 標本平均 は、n を増やすと本当の平均に近づくのか？それを保証するのが大数の法則。中心極限定理が「形」の話なら、LLN は「中心が動かない」話。

コイン投げで最初の10回連続で表が出た — これ、別に珍しいことじゃない。でも 1万回投げたら、表の割合はほぼ ぴったり 0.5 に収まる。
これが大数の法則。サンプルを増やすほど、観測値は"真の値"に吸い寄せられていく。 統計が"なんとなく"じゃなく"証拠"になる理由がここにある。

実験ガイド — 順番に試してみよう

Step 1: p=0.5 で ▶ シミュレート → 最初は暴れるが、右に行くほど 0.5 に吸い寄せられる。
Step 2: RESET して、もう一度 ▶ → 序盤の軌道は毎回違うが、終盤は毎回同じ場所に収束する。
Step 3: p を 0.8 に変えてシミュレート → 赤線が 0.8 に引き寄せられることを確認。
Step 4: p を 0.05（レアイベント）に → 最初はゼロ付近で張り付くが、やはり p に収束する。

確率 p = 0.5

試行回数0

現在の平均—

理論値0.50

// ここで使われる公式

左辺を日本語にすると
・「n人の平均身長が、日本人全体の平均身長から ε cm 以上ずれちゃう確率」

右辺の意味
・σ²/nε²：この確率の上限。実際にはもっと小さいかもしれないけど、少なくともこれ以下
・分母に n がある → n を大きくすれば上限がどんどんゼロに近づく
・つまり「サンプルを増やせば、平均はいくらでも真値に近づけられる」← これが大数の法則

具体例（コイン投げ）
・p=0.5（表の確率）、σ²=0.25、ε=0.01（1%以内のズレ）のとき——
・n=100：P ≤ 0.25/(100×0.0001) = 25 → 上限が25じゃ何も言えない（確率は1以下なので）
・n=100,000：P ≤ 0.025 → 2.5%以下に抑えられる
・n=1,000,000：P ≤ 0.0025 → 0.25%以下。ほぼ真値に張り付く
・チェビシェフの不等式は"ゆるい"上限なので、実際にはもっと速く収束する

// なぜこの定理が統計学の「免許証」なのか

地味に見える定理だが、大数の法則がないと「サンプルから全体を推測する」が正当化できない。つまり統計の根っこが折れる。

世論調査で1000人に聞いて「支持率48%」と出ても、それが全体に近い保証がない
新薬の治験で「改善率が高い」と出ても、偶然かもしれない
保険会社が過去データから事故率を見積もって保険料を決める、あれも成り立たない

LLN が「n を大きくすれば標本平均は母平均に近づく」と保証してくれてるから、上のぜんぶが正当化される。地味だけど、ないと困る定理。

// 「ギャンブラーの誤謬」に注意

コインで5回連続で表が出ても、6回目に裏が出る確率は 0.5 のまま。LLN は「次の1回を当てられる」とは言っていない。「何万回も平均すれば 0.5 に近づく」と言っているだけ。個々の試行は相変わらずランダム。

// LLN と中心極限定理の違い — ここは混同しやすい

	LLN（大数の法則）	中心極限定理
何の話？	平均の値が真値に近づく	平均の分布の形が正規分布に近づく
一言で	「どこに向かうか」	「途中でどう散らばるか」
必要な条件	平均が存在すること	平均と分散が存在すること

ざっくり言えば：LLN が「ゴールの場所」を教えてくれて、中心極限定理が「ゴールまでの道の形」を教えてくれる。

// よくある誤解

❌「100回投げれば表がちょうど50回出る」

LLN が言っているのは"割合"が 0.5 に近づくこと。回数の差（|表の回数 − 50|）はむしろ広がることがある。100回で48回（割合48%、差2）、10000回で4950回（割合49.5%、差50）。割合は近づいたけど差は広がっている。

❌「大数の法則があれば中心極限定理は要らない」

LLN は「平均が真値に近づく」としか言わない。「どれくらいの精度で？」「誤差の分布は？」には答えられない。それを教えてくれるのが中心極限定理。両方必要。

❌「どんな分布でも LLN は成り立つ」

「平均が存在する」ことが条件。コーシー分布のように平均が定義できない分布では、サンプルをどれだけ増やしても平均は収束しない。

// よく出会う形

大数の法則のまわりでは、上限の式と「双子の定理」との対比が繰り返し顔を出します。

チェビシェフの上限の形：σ²=4, n=100 のとき P(|X̄−μ|≥1) ≤ 4/(100×1) = 0.04 と並ぶ。「分散 ÷（n × ε²）」の形が、n が大きいほど上限を細らせていく構造になっている
LLN が答える問い：「標本平均は母平均に近づくのか？」 — この問いに対する答えとして、LLN が顔を出す。「どこに向かうか」を保証する定理という形
LLN と中心極限定理の住み分け：「平均の値が真値に近づく」のが LLN、「平均の分布の形が正規になる」のが中心極限定理。役割の違いがこの一対の形で見えてくる

// もっと読む

標準化って何？ — 世界中の「ふつう」を比べる翻訳機身長 182cm と TOEIC 860、どっちが「ふつう」から遠い？ z で単位を超えて比べる

« 全コラム一覧を見る

次は —有限サンプルで不確実性をどう表す？ ▸ I3 信頼区間