「身長160cm」と「年収500万円」—— どちらが「普通」から遠いだろう?
そもそも cm と円を比べるなんて、意味がなさそうに見える。
でも統計学には、あらゆる数値を同じ土俵に乗せる翻訳機がある。
それが「標準化」だ。
// 比べられない、を比べたい
たとえば、あなたの友人がこう言ったとする。
「俺、身長182cmなんだよね」
「私、TOEIC 860点だよ」
どちらも「すごい」のはなんとなくわかる。
でも「どっちがより珍しいか」は、このままじゃ答えられない。
なぜなら——
- 身長の単位は cm、TOEICの単位は 点
- 身長の平均は約 171cm(成人男性)、TOEICの平均は約 610点
- 身長のばらつきは 小さい、TOEICのばらつきは 大きい
単位も平均もばらつきも全部違う。りんごとオレンジだ。
この「比較不可能」を「比較可能」に変えるのが、標準化の仕事。
// 翻訳機の正体
標準化の式は、これだけ。
やっていることは2ステップだけだ。
Step 1:平均を引く
(X − μ) で「平均からどれだけ離れているか」を出す。
これで基準点がゼロに揃う。
Step 2:標準偏差で割る
σ で割ることで「cm」「点」「円」といった単位が消える。
残るのは「σ 何個分」という無次元の数だけ。
この2ステップで、どんなデータも「平均0・標準偏差1」の共通言語に翻訳される。
翻訳後の値を Z スコアと呼ぶ。
// 翻訳してみよう
さっきの「身長182cm」と「TOEIC 860点」を実際に標準化してみる。
▼ 身長(成人男性)
▼ TOEIC
TOEIC 860点 は平均から1.47σ上。
→ 同じ「すごい」でも、身長182cmのほうが統計的にはレア。
cm も点も消えた。残ったのは「σ 何個分」だけ。
これが標準化の力だ——りんごとオレンジを、同じ天秤に乗せた。
// なぜこれが「面白い」のか
標準化が面白いのは、単なる計算テクニックじゃないからだ。
よく考えてみてほしい。
「ふつう」とは何か?
標準化は暗に「平均がふつうで、そこからの距離が珍しさだ」と定義している。
つまり標準化は、「ふつう」の数学的定義を与えている。
単位が消える、ということ
cm を σ で割ると、cm が約分されて消える。
残るのは純粋な比率。物理学で言う「無次元量」。
標準化は、データから「意味」だけを抽出する蒸留器だ。
統計学の「共通語」になっている
z検定、t検定、偏差値、信頼区間——
統計学の重要な道具のほとんどが、裏側で標準化を使っている。
標準化を理解すれば、それらが「全部同じことをやっている」と気づく。
// 偏差値の正体、ふたたび
ところで、日本人なら誰でも知っている「偏差値」。
あれの正体は、標準化に化粧をしただけだ。
標準化した値(Zスコア)に10を掛けて50を足す。それだけ。
なぜこんな変換をするかというと——
- Zスコアは「-1.5」「+0.8」のように小数でマイナスもある
- 偏差値なら「45」「58」のように整数で直感的
- 平均が50なので「50より上か下か」で即判断できる
つまり偏差値は、標準化のユーザーフレンドリー版。
本質は同じ。「平均からσ何個分か」を測っているだけだ。
| Z スコア | 偏差値 | |
|---|---|---|
| 平均 | 0 | 50 |
| +1σ | +1.0 | 60 |
| +2σ | +2.0 | 70 |
| -1σ | -1.0 | 40 |
| -2σ | -2.0 | 30 |
// 3問クイズ — ここまでの理解を確認
Q1. 標準化すると、元の単位(cm、点、円)はどうなる?
Q2. Z = -0.5 は「平均より上」?「平均より下」?
Q3. 偏差値60は、Zスコアでいくつ?
// KEY TAKEAWAY
- 標準化 Z=(X−μ)/σ は、あらゆるデータを「σ何個分」に翻訳する
- 平均を引いて基準をゼロにし、σで割って単位を消す——たった2ステップ
- 偏差値は標準化に 50+10×Z の化粧をしただけ。本質は同じ
- z検定、t検定、信頼区間——統計学の主要ツールは全部、裏で標準化を使っている
// よくある質問
Z = (X − μ) ÷ σ。データから平均を引いて標準偏差で割る変換のこと。単位や尺度が異なるデータを「平均からσ何個分離れているか」という共通の物差しに変換する操作。
Zスコアは平均0・標準偏差1のスケール。偏差値は平均50・標準偏差10のスケール。偏差値 = 50 + 10 × Z なので、偏差値は標準化にスケール変換を加えたもの。本質的に同じ操作をしている。
標準化は「cm」「円」「点」といった元の単位を消し去り、すべてを「σ何個分」という無次元の共通言語に変換する。これにより、身長と年収のように本来比較できないものも「どちらがより珍しいか」を比較できるようになる。
仮説検定(z検定・t検定)、機械学習の前処理(特徴量スケーリング)、偏差値の計算、異なる指標間の比較など、統計学のあらゆる場面で使われる。統計検定2級では正規分布の確率計算で必ず登場する。
変わらない。標準化は「平行移動(平均を引く)」と「拡大縮小(σで割る)」だけなので、分布の形はそのまま保存される。歪んだ分布を標準化しても、歪んだまま。正規分布を標準化すると、標準正規分布 N(0,1) になる。
標準化は、統計学の「ロゼッタストーン」だ。
この共通言語を使って、正規分布の確率計算や仮説検定がどう動くのかを体感しよう。
StatPlay のインタラクティブ教材で、数式の向こう側を触れる。