同じ「ばらつき」と呼ばれる、別の量
標準偏差(SD)と標準誤差(SE)。字も式もそっくりで、どちらも「ばらつき」と呼ばれる。それなのに、文脈によって急に主役が入れ替わる場面に出会うこと、ありませんか。
字も式も似ていて、両方「ばらつき」と呼ばれて、文章の中では区別なしに混ざる。n を増やしても下の絵はほとんど動かないのに、上の絵だけが √n で痩せていく ── そんな非対称が、同じデータから不意に現れる場面がある。下の階に「個々のデータ」、上の階に「もし同じ実験をもう一度やったら平均はどれくらい揺れるか」。「2階建て」 として並べ直してみると、似ていた 2 つは別のフロアに住んでいた、と見え方が変わってくることがあります。
本文では一貫して、SD(個々の広がり)と SE(平均の精度)を別々の色で塗り分けています。2色の対比として眺めながら読んでもらえると、後半のインタラクティブが触りやすくなるかもしれません。
このコラムが届きたい場所は、SD と SE の違いを 1 文で言えるところです。「式が似ている」「両方ばらつき」と並んでいた 2 つを別の役割の量として置き直してみると、参考書に戻ったときに同じ場所で詰まりにくくなることがあります。
// 二階建てで考える — データの世界と、平均の世界
SD と SE は、住んでいる「世界」が違う量です。
下の階(1 階)には 個々のデータが散らばっている。生徒30人の身長を測れば、ここに30個の点が並ぶ。広がりの目安が SD。
上の階(2 階)には 標本平均 が並ぶ。「30人の身長を測って平均を取る」という実験を何回も繰り返したとき、その平均がどう散らばるか。広がりの目安が SE。同じデータから派生しているのに、扱っている量のフロアが違う — このコラムは、この見え方をひたすら追いかけてみます。
(記号の読み方: σ =「シグマ」、母集団の標準偏差を表すギリシャ文字。√n =「n の平方根」。≈ は「ほぼ等しい」。)
式だけ見ると 1 文字違いに見えます。でも、その 1 文字(√n)のところで「データの世界」と「平均の世界」のフロアが分かれている、という見方をしてみると、後の節が辿りやすくなります。
// 触ってみる — n を動かすと、どこが縮む?
題材は 生徒30人の身体測定(身長)。母集団は μ=172cm, σ=6cm の正規分布(μ=「ミュー」、母集団の平均値を表すギリシャ文字)。スライダーで n(1回に集める人数 = サンプル数)を動かしてみてください。
注目してほしいのは 下の絵(個々のデータ)の散らばりはほぼ変わらないのに、上の絵(標本平均)の山だけが √n で痩せていくこと。SD と SE が「別の方向に動く」とはこのことです。
触ってみると、こんな動きが目に入ってくるはずです。
- 下のドットの広がり(SD)は、n を動かしてもほぼ変わらない(σ ≈ 6cm)。これは「身長そのものの散らばり」の話だから、サンプル数では縮まない。
- 上のヒストグラム(標本平均)の山は、n を増やすと √n で痩せる。中心は μ のままで、幅だけが縮んでいく。
- 横並びの SD/SE バーで見ると、SD バーはほぼ固定、SE バーだけが n=30→100→900 と段々短くなる。SD/SE = √n がそのまま読み取れる関係です。
// √n の正体 — 増やしたぶん、まるごと効くわけではない
SE = σ/√n の √n は、「サンプルを増やしたとき、平均の精度がどれくらい上がるか」のレートを決める部分。具体的に値を入れてみると、効き方の感覚が掴みやすい。
n=100 → SE ≈ 6/√100 ≈ 0.60 cm
n=900 → SE ≈ 6/√900 ≈ 0.20 cm
n を 10 → 100(10倍)にすると、SE は 1.90 → 0.60、つまり 3倍ぶんしか縮まない。10倍縮めたければ n を 100倍(10 → 1000)にする必要がある。SE を半分にしたいなら n を4倍、というのが√n の効き方の核です。
「データを増やせば精度が上がる」という直感は正しい。けれど サンプル数に比例しては縮まない。2倍にしても精度は √2 ≈ 1.4倍ぶんしか上がらない、という性質が背後にあります。アンケートの対象を 30 → 100 → 1000 と増やしてみるとき、ここで一度立ち止まることになる場面です。
// 触ってみる — 同じ「SEバー」が、区間推定にも検定にも住んでいる
SE は単独で使うことはほぼなくて、たいてい 区間推定か 検定のどちらかの中に部品として入っています。
左が区間推定(中心 ± 1.96·SE)、右が検定(z = (x̄ − μ₀)/SE。x̄=「エックスバー」=標本(手元の n 個)の平均、μ₀=「ミュー・ゼロ」=検定で「これだろう」と置いた仮説の値)。同じ太さのSEバーが、両方の絵の中に並んで現れています。
左の区間推定は 「中心 x̄ から ±1.96·SE 伸ばしたバンド」。右の検定は 「x̄ と μ₀ のズレを、SE 何個ぶんか」で測る。両者で n を動かしてみると、どちらの絵の中の SE バーも同じだけ細くなる動きが現れます。区間推定の幅が狭くなり、同時に検定統計量 z は(同じズレでも)大きくなる。SE が共有部品なので、二つは連動して動いていく。
「区間推定と検定は別の道具」と覚えがちな2つですが、構造を眺めると SE という同じ部品の上に組まれている双子のようにも見えてきます。
// ひとことに畳むなら
SD はデータそのものに刻まれた性質で、SE は推定がどれくらい当てになりそうかの目安。同じ式に見えていた 2 つは、n を動かしてみると別の方向に動き出す ── そこに、両者の役割の差が現れます。
// よくある質問
最初は「両方 0 に縮む」と読みたくなる場面ですが、式に戻すと別々の行き先に着きます。
SD = √( (1/n) · Σᵢ (xᵢ − μ)² ) は個体差そのもの。n = N まで増やしても 180 cm と 165 cm の人は両方残るので、SD = σ に着地するだけで、0 には縮まない。
一方 SE = √ Var(x̄) は標本平均のぶれ。全員測れば x̄ は確定値(毎回 μ)になり、Var(x̄) = 0 ⇒ SE = 0。ランダムに揺れる余地そのものが消えます。
SD は データそのものの性質、SE は 推定の確からしさ。SE = σ/√n の √n は、この 2 つを分けるフロアの境目に置かれた記号、と見ることができます。
目的次第で答えが分かれます。「データそのものが、どのくらいばらついているか」を伝えたいときは SD。「推定した平均が、もう一度データを取り直したらどれくらいぶれそうか」を伝えたいときは SE。論文のエラーバーで意味が二通りに割れる原因はここに当たっていて、本文かキャプションに「SD なのか SE なのか」を書き添えておくと、読み手の混乱がだいぶ減るのを見かけます。
ならない、というのが √n の効きどころです。SE = σ/√n なので、n を10倍にしても SE は √10 ≈ 3.16 倍ぶんしか縮みません。SE を半分にしたいなら n を4倍に、10分の1にしたいなら n を100倍に増やす必要がある。「サンプルを増やせば精度が上がる」という直感は正しいけれど、増えるコストはリニアでも、得られる精度はサブリニアです。
σ の代わりに標本標準偏差 s を入れて SE = s/√n とします。これだけで終わりではなく、区間推定や検定で使う倍率も z(標準正規)から t(t 分布)に乗り換えます。t は n が小さいほど裾が太く、区間推定の幅が広くなる。SE は同じ「σ/√n の推定値」でも、その上に乗る倍率の出所が標準正規から t 分布に切り替わる、というのがこの段の急所です。
続きは、信頼区間の中で動く SE バーを触ってみるところへ。
SE は単独で使う量というよりは、区間推定の幅や検定の分母として実際に働き出します。
触って動かす区間推定で、信頼水準を変えると ±k·SE がそのまま伸び縮みする様子を辿ってみてください。