あなたの年収は、統計でどこまで当てられるか

統計で年収を当てると聞くと、占いみたいに感じるかもしれません。
でも、年齢・性別・住んでいる地域という3つの情報だけで、かなりのところまで言える。

「ピンポイントで当てる」のではなく「幅で示す」というのが、統計の正直なやり方です。

実際に動かしてみてください。

// 年収予測シミュレーター

あなたの属性を選んでください。グラフと数値がリアルタイムで連動します。

年齢 35歳

性別

都道府県

学歴

企業規模

予測年収（平均） —万円

95%予測区間 —

95%信頼区間 —

予測区間（広い帯）：同じ属性の人を1人選んだとき、その人の年収がこの範囲に入る確率が95%。
信頼区間（狭い帯）：同じ属性の全員の「真の平均年収」がこの範囲にある確率が95%。
100人の平均点を推定するのは比較的簡単でも、次に来る1人の点数を当てるのは難しい。個人のばらつきがあるぶん、予測区間は常に信頼区間より広くなります（信頼区間そのものを動かす）。

// どうやって予測しているか

重回帰分析という統計手法を使っています。複数の説明変数（年齢・性別・都道府県・学歴・企業規模）から、 1つの目的変数（年収）を予測するモデルです。

ŷ = f(年齢) + β_性別 + β_都道府県 + β_学歴 + β_企業規模

各変数の「効果」を足し合わせるだけのシンプルな線形モデルです。
以下が、このシミュレーターで使っているパラメーターの一覧です。

年齢別ベース年収（万円）

年齢	22	25	30	35	40	45	50	55	60	65
年収	280	340	420	480	540	590	620	640	580	480

中間の年齢は線形補間で算出。

性別効果（万円）

性別	効果
男性（基準）	±0
女性	−120

学歴効果（万円）

学歴	効果
大学院卒	+80
大卒（基準）	±0
専門・短大卒	−40
高卒	−80

企業規模効果（万円）

企業規模	効果
大手（1000人以上）	+60
大企業（100〜999人・基準）	±0
中企業（30〜99人）	−20
小企業（10〜29人）	−60

都道府県効果（万円・抜粋）

都道府県	効果	都道府県	効果	都道府県	効果
東京都	+130	神奈川県	+80	大阪府	+50
愛知県	+40	千葉県	+30	福岡県	+5
北海道	−30	宮崎県	−60	青森県	−70
沖縄県	−80	…全47都道府県に対応

重回帰分析の仕組みをもっと詳しく知りたい方は、重回帰分析のトピックページでインタラクティブに学べます。

このコラムは厚生労働省「令和5年賃金構造基本統計調査」をベースにしています。
出典: https://www.mhlw.go.jp/toukei/itiran/roudou/chingin/kouzou/z2023/ ↗

公開データから抽出した代表値をハードコードしており、リアルタイムにAPIから取得しているわけではありません。データの正確性は調査時点のものです。

// 「平均」と「あなた個人」は違う

さっきの予測結果をもう一度見てみます。

「あなたと同じ属性の人の年収は、平均 ○○万円」
「95%の人が △△万円〜 □□万円」

ここで重要なのは、この幅は「同じ属性の人の中での散らばり」だということです。

あなた個人がこの中のどこにいるかは、統計だけではわかりません。
職種・勤続年数・運・努力——
モデルに入っていない要素が、いくらでもあるからです。

だから統計が言えるのは、こういうことです。

あなたと同じ属性の人を100人集めたら、
そのうち95人は △△万円〜□□万円のどこかにいる。

ピンポイントで当てているわけじゃない。
でも、占いより誠実な答え方だと思いませんか。

// 信頼区間と予測区間の違い

グラフの広い帯と狭い帯。これは答えている「問い」が違います。

予測区間が答える問い：
「同じ属性の人を1人ランダムに選んだら、その人の年収はどのあたり？」

信頼区間が答える問い：
「同じ属性の人を全員集めたとき、その全員の平均年収は本当はいくら？」

イメージしてみてください。
あなたと同じ属性の人が1万人いるとします。

1万人の平均年収を推定する → たぶん580万円〜620万円のどこか（信頼区間、狭い）
1万人の中の1人を指さして年収を当てる → 404万円〜796万円（予測区間、ずっと広い）

平均はデータが増えるほど安定するけれど、個人は一人ひとり違うからばらつきが大きい。
だから「1人を当てる幅」は、「平均を推定する幅」より常に広くなります。

両者を混同したまま「95%信頼できる」と言っている解説は少なくありません。
ここをスッキリ区別できると、統計の読み方がワンランク上がります。

// 計算の根拠を開示する

このコラムで使っている計算は、すべて GitHub で公開しています。
github.com/sasai-lab/statplay-opensource ↗

データ:

年齢別平均年収（22〜65歳）
性別補正係数
都道府県別補正係数（47都道府県）
学歴別補正係数
企業規模別補正係数

これらをハードコードして、入力に応じて足し合わせるシンプルな線形モデルです。係数の詳細はセクション02に掲載しています。

また、係数の導出過程や予測関数の全体像、予測区間・信頼区間の計算方法など、このシミュレーターの裏側のロジックを Qiita で詳しく解説しています。
年齢・性別・都道府県で年収を予測する回帰式を、公開統計からたてる実験 — Qiita ↗

// KEY TAKEAWAY

統計は「ズバリ当てる」のではなく、幅で正直に示す
同じ属性の人の「平均」と、あなた個人の「予測」では幅が違う
信頼区間（狭い）は平均の推定幅、予測区間（広い）は個人の予測幅
「不確かさを正直に出す」ことが、ピンポイント予測よりずっと役に立つ

FAQ

// このコラムの計算について

厚生労働省「令和5年賃金構造基本統計調査」を出典としています。公開データから抽出した代表値をハードコードしており、最新データとは差異がある可能性があります。

はい、職種・勤続年数・業種など変数を増やせばモデルの精度は上がります。ただし、このコラムの目的は「信頼区間と予測区間の違いを体感してもらう」こと。現在の5変数（年齢・性別・都道府県・学歴・企業規模）は、概念を理解するのに十分な複雑さです。

いいえ。これは統計的な「同じ属性の人の分布」を示すものであり、個人の年収を保証・予測するものではありません。職種・勤続年数など、モデルに含まれない要素が年収に大きく影響します。

はい。計算ロジックはすべて GitHub で公開しています。係数・計算方法・コード全文を確認できます。

統計はピンポイントの占いではない。

「だいたいこのへんに何%の確率でいる」を、正直に幅で示してくれるツール。
「ズバリ当たる」より「不確かさを正直に出す」ことのほうが、本当はずっと役に立つ。
これがこのコラムで一番伝えたかったことです。

// 触って動かす

重回帰で年収のばらつきを変数ごとに切り分ける年齢・性別・都道府県の 3 変数を同時に動かして偏回帰係数と交絡の制御を観察すると、コラムの議論が予測区間として目に見える

// もっと読む

第一種・第二種の過誤って何が違うの？ — 2×2の表で全部見える回帰係数の有意性を判断する場面で第 1 種・第 2 種の枠組みが必ず動き出す、判定のロジックを共有する姉妹コラム

« 全コラム一覧を見る