±196万

年齢・性別・都道府県。
たった3つで、
年収の「幅」が見える。

統計は「ズバリ当てる」道具じゃない。
不確かさを正直に示すのが、統計の誠実さだ。

StatPlay コラム 年収予測

統計で年収を当てると聞くと、占いみたいに感じるかもしれません。
でも、年齢・性別・住んでいる地域という3つの情報だけで、 かなりのところまで言える。

「ピンポイントで当てる」のではなく「幅で示す」というのが、 統計の正直なやり方です。

実際に動かしてみてください。

01

// 年収予測シミュレーター

あなたの属性を選んでください。グラフと数値がリアルタイムで連動します。

35
予測年収(平均) 万円
95%予測区間
95%信頼区間
予測区間(広い帯):同じ属性の人を1人選んだとき、その人の年収がこの範囲に入る確率が95%。
信頼区間(狭い帯):同じ属性の全員の「真の平均年収」がこの範囲にある確率が95%。
100人の平均点を推定するのは比較的簡単でも、次に来る1人の点数を当てるのは難しい。個人のばらつきがあるぶん、予測区間は常に信頼区間より広くなります。
02

// どうやって予測しているか

重回帰分析という統計手法を使っています。 複数の説明変数(年齢・性別・都道府県・学歴・企業規模)から、 1つの目的変数(年収)を予測するモデルです。

ŷ = f(年齢) + β性別 + β都道府県 + β学歴 + β企業規模

各変数の「効果」を足し合わせるだけのシンプルな線形モデルです。
以下が、このシミュレーターで使っているパラメーターの一覧です。

年齢別ベース年収(万円)

年齢22253035404550556065
年収280340420480540590620640580480

中間の年齢は線形補間で算出。

性別効果(万円)

性別効果
男性(基準)±0
女性−120

学歴効果(万円)

学歴効果
大学院卒+80
大卒(基準)±0
専門・短大卒−40
高卒−80

企業規模効果(万円)

企業規模効果
大手(1000人以上)+60
大企業(100〜999人・基準)±0
中企業(30〜99人)−20
小企業(10〜29人)−60

都道府県効果(万円・抜粋)

都道府県効果都道府県効果都道府県効果
東京都+130神奈川県+80大阪府+50
愛知県+40千葉県+30福岡県+5
北海道−30宮崎県−60青森県−70
沖縄県−80…全47都道府県に対応

重回帰分析の仕組みをもっと詳しく知りたい方は、 重回帰分析のトピックページで インタラクティブに学べます。

このコラムは厚生労働省「令和5年 賃金構造基本統計調査」を ベースにしています。
出典: https://www.mhlw.go.jp/toukei/itiran/roudou/chingin/kouzou/z2023/ ↗

公開データから抽出した代表値をハードコードしており、 リアルタイムにAPIから取得しているわけではありません。 データの正確性は調査時点のものです。
03

// 「平均」と「あなた個人」は違う

さっきの予測結果をもう一度見てみます。

「あなたと同じ属性の人の年収は、平均 ○○万円」
「95%の人が △△万円 〜 □□万円」

ここで重要なのは、この幅は 「同じ属性の人の中での散らばり」だということです。

あなた個人がこの中のどこにいるかは、 統計だけではわかりません。
学歴・職種・勤続年数・運・努力——
3つの情報には入っていない要素が、いくらでもあるからです。

だから統計が言えるのは、こういうことです。

あなたと同じ属性の人を100人集めたら、
そのうち95人は △△万円〜□□万円 のどこかにいる。

ピンポイントで当てているわけじゃない。
でも、占いより誠実な答え方だと思いませんか。

04

// 信頼区間と予測区間の違い

グラフの広い帯狭い帯。 これは答えている「問い」が違います。

予測区間が答える問い:
「同じ属性の人を1人ランダムに選んだら、その人の年収はどのあたり?」

信頼区間が答える問い:
「同じ属性の人を全員集めたとき、その全員の平均年収は本当はいくら?」

イメージしてみてください。
あなたと同じ属性の人が1万人いるとします。

1万人の平均年収を推定する → たぶん580万円〜620万円のどこか(信頼区間、狭い
1万人の中の1人を指さして年収を当てる → 404万円〜796万円(予測区間、ずっと広い

平均はデータが増えるほど安定するけれど、 個人は一人ひとり違うからバラつきが大きい。
だから「1人を当てる幅」は、「平均を推定する幅」より常に広くなります。

両者を混同したまま「95%信頼できる」と言っている解説は少なくありません。
ここをスッキリ区別できると、統計の読み方がワンランク上がります。

05

// 計算の根拠を開示する

このコラムで使っている計算は、すべて GitHub で公開しています。
github.com/sasai-lab/statplay-opensource ↗

データ:

これらをハードコードして、入力に応じて足し合わせる シンプルな線形モデルです。 係数の詳細はセクション02に掲載しています。

また、係数の導出過程や予測関数の全体像、予測区間・信頼区間の計算方法など、 このシミュレーターの裏側のロジックを Qiita で詳しく解説しています。
年齢・性別・都道府県で年収を予測する回帰式を、公開統計からたてる実験 — Qiita ↗

// KEY TAKEAWAY

FAQ

// このコラムの計算について

厚生労働省「令和5年 賃金構造基本統計調査」を出典としています。公開データから抽出した代表値をハードコードしており、最新データとは差異がある可能性があります。

はい、職種・勤続年数・業種など変数を増やせばモデルの精度は上がります。ただし、このコラムの目的は「信頼区間と予測区間の違いを体感してもらう」こと。現在の5変数(年齢・性別・都道府県・学歴・企業規模)は、概念を理解するのに十分な複雑さです。

いいえ。これは統計的な「同じ属性の人の分布」を示すものであり、個人の年収を保証・予測するものではありません。学歴・職種・勤続年数など、モデルに含まれない要素が年収に大きく影響します。

はい。計算ロジックはすべて GitHub で公開しています。係数・計算方法・コード全文を確認できます。

統計はピンポイントの占いではない。

「だいたいこのへんに何%の確率でいる」を、正直に幅で示してくれるツール。
「ズバリ当たる」より「不確かさを正直に出す」ことのほうが、本当はずっと役に立つ。
これがこのコラムで一番伝えたかったことです。