信頼区間 — 95%の意味を誤解なく掴む
「95%の確率で真の値が入る」── 実はこれ、誤り。100本の区間を並べたとき、初めて本当の意味が見えてくる。
信頼区間 — 95%の本当の意味
95% 信頼区間って実はよく誤解される概念。
「真の値が95%の確率でここに入る」 …ではなくて、
「同じサンプリングを何百回も繰り返すと、そのうち約95%の区間が真の値を掴む」が正しい。
下のラボではそれをゴリ押しで実演する。ピンクの細い線が"捕まえられなかった不運な区間"。
全体のピンク比率が ちゃんと5%前後に落ち着くのを確認できたら、もう信頼区間は分かったも同然。
- Step 1: 信頼度95%, n=30 で ▶ 300回生成 → ピンク(外した区間)がちょうど5%前後になることを確認。
- Step 2: 信頼度を 80% に下げて再生成 → ピンクが増える。幅を狭めた分、当たりにくい。
- Step 3: 信頼度95%に戻し、n を 200 にする → 区間の幅がグッと狭くなる。サンプル数の力。
- Step 4: n を 5 にする → 幅がめちゃ広い。少ないサンプルでは"掴む網"が大きくないと当たらない。
// ここで使われる公式
各パーツの役割
・x̄(標本平均):区間の中心。「今回の調査結果で一番もっともらしい値」
・zα/2:信頼度に応じた"幅の倍率"。95%なら1.96、99%なら2.576
・σ/√n(標準誤差):推定のブレ幅。σ が大きいほど広がり、n が大きいほど縮む
組み立ての直感
・「中心 ± 倍率 × ブレ幅」で"網"を張る
・n を4倍にすると √n が2倍 → 区間の幅が半分に。精度を2倍にするにはデータが4倍要る
・信頼度を上げると zα/2 が大きくなり、網は広がるが「当たる確率」が上がる
σ が分からないときは?
上の公式は母標準偏差 σ が既知の場合。実際には σ が分からないことがほとんどで、その場合は σ の代わりに標本標準偏差 s を使い、z の代わりに t 分布の臨界値を使う。n が大きくなると t 分布は標準正規分布に近づくので、z で代用しても差は小さくなる。t 分布の詳細はt分布セクションで扱う。
// よくある誤解
真値 μ は固定された定数。この区間に入っているか入っていないかのどちらか。「確率95%」は「この方法で100回区間を作ったら、約95回は真値を含む」という手続きの性能の話。上のシミュレーションで300本の区間を作って、ピンク(真値を逃した区間)が5%前後であることを確認してみよう。
狭いのは「精度が高い」ことの現れだが、真値を含んでいるかは別問題。信頼度を下げれば幅は狭くなるけど、外す確率が上がる。
分散、比率、回帰係数、差の検定など、あらゆる推定量に対して信頼区間が作れる。構造は同じ:「推定値 ± 倍率 × 標準誤差」。
// よく出会う形
信頼区間の場面では、同じ部品が並び替わって何度も顔を出します。
- 「中心 ± 倍率 × 標準誤差」の形:x̄=50, σ=10, n=25, 95%CI なら 50 ± 1.96×(10/5) = [46.08, 53.92]。数値が変わっても、組み立てはこの三層構造のまま
- 幅と n の関係:幅は 1/√n に比例して縮む。幅を半分にしたいときは n が4倍という比例関係が、いつもこの形で現れる
- 検定とCIの双子関係:95%CI = [2.1, 4.3] のとき、μ₀=2 は外側にいる → α=0.05 の両側検定では棄却される側。「区間に入っているか/棄却域に入っているか」は表裏で同じ判定になっている
- 信頼度と倍率の対応:信頼度を 95% → 99% に上げると、倍率も 1.96 → 2.576 に広がり、それが幅にそのまま反映される
z = 1.96 や 2.576 の根拠はインタラクティブ確率分布表の両側モードで確認できる