統計で年収を当てると聞くと、占いみたいに感じるかもしれません。
でも、年齢・性別・住んでいる地域という3つの情報だけで、
かなりのところまで言える。
「ピンポイントで当てる」のではなく「幅で示す」というのが、 統計の正直なやり方です。
実際に動かしてみてください。
// 年収予測シミュレーター
あなたの属性を選んでください。グラフと数値がリアルタイムで連動します。
信頼区間(狭い帯):同じ属性の全員の「真の平均年収」がこの範囲にある確率が95%。
100人の平均点を推定するのは比較的簡単でも、次に来る1人の点数を当てるのは難しい。個人のばらつきがあるぶん、予測区間は常に信頼区間より広くなります。
// どうやって予測しているか
重回帰分析という統計手法を使っています。 複数の説明変数(年齢・性別・都道府県・学歴・企業規模)から、 1つの目的変数(年収)を予測するモデルです。
各変数の「効果」を足し合わせるだけのシンプルな線形モデルです。
以下が、このシミュレーターで使っているパラメーターの一覧です。
年齢別ベース年収(万円)
| 年齢 | 22 | 25 | 30 | 35 | 40 | 45 | 50 | 55 | 60 | 65 |
|---|---|---|---|---|---|---|---|---|---|---|
| 年収 | 280 | 340 | 420 | 480 | 540 | 590 | 620 | 640 | 580 | 480 |
中間の年齢は線形補間で算出。
性別効果(万円)
| 性別 | 効果 |
|---|---|
| 男性(基準) | ±0 |
| 女性 | −120 |
学歴効果(万円)
| 学歴 | 効果 |
|---|---|
| 大学院卒 | +80 |
| 大卒(基準) | ±0 |
| 専門・短大卒 | −40 |
| 高卒 | −80 |
企業規模効果(万円)
| 企業規模 | 効果 |
|---|---|
| 大手(1000人以上) | +60 |
| 大企業(100〜999人・基準) | ±0 |
| 中企業(30〜99人) | −20 |
| 小企業(10〜29人) | −60 |
都道府県効果(万円・抜粋)
| 都道府県 | 効果 | 都道府県 | 効果 | 都道府県 | 効果 |
|---|---|---|---|---|---|
| 東京都 | +130 | 神奈川県 | +80 | 大阪府 | +50 |
| 愛知県 | +40 | 千葉県 | +30 | 福岡県 | +5 |
| 北海道 | −30 | 宮崎県 | −60 | 青森県 | −70 |
| 沖縄県 | −80 | …全47都道府県に対応 | |||
重回帰分析の仕組みをもっと詳しく知りたい方は、 重回帰分析のトピックページで インタラクティブに学べます。
出典: https://www.mhlw.go.jp/toukei/itiran/roudou/chingin/kouzou/z2023/ ↗
公開データから抽出した代表値をハードコードしており、 リアルタイムにAPIから取得しているわけではありません。 データの正確性は調査時点のものです。
// 「平均」と「あなた個人」は違う
さっきの予測結果をもう一度見てみます。
「あなたと同じ属性の人の年収は、平均 ○○万円」
「95%の人が △△万円 〜 □□万円」
ここで重要なのは、この幅は 「同じ属性の人の中での散らばり」だということです。
あなた個人がこの中のどこにいるかは、
統計だけではわかりません。
学歴・職種・勤続年数・運・努力——
3つの情報には入っていない要素が、いくらでもあるからです。
だから統計が言えるのは、こういうことです。
あなたと同じ属性の人を100人集めたら、
そのうち95人は △△万円〜□□万円 のどこかにいる。
ピンポイントで当てているわけじゃない。
でも、占いより誠実な答え方だと思いませんか。
// 信頼区間と予測区間の違い
グラフの広い帯と狭い帯。 これは答えている「問い」が違います。
予測区間が答える問い:
「同じ属性の人を1人ランダムに選んだら、その人の年収はどのあたり?」
信頼区間が答える問い:
「同じ属性の人を全員集めたとき、その全員の平均年収は本当はいくら?」
イメージしてみてください。
あなたと同じ属性の人が1万人いるとします。
1万人の平均年収を推定する → たぶん580万円〜620万円のどこか(信頼区間、狭い)
1万人の中の1人を指さして年収を当てる → 404万円〜796万円(予測区間、ずっと広い)
平均はデータが増えるほど安定するけれど、
個人は一人ひとり違うからバラつきが大きい。
だから「1人を当てる幅」は、「平均を推定する幅」より常に広くなります。
両者を混同したまま「95%信頼できる」と言っている解説は少なくありません。
ここをスッキリ区別できると、統計の読み方がワンランク上がります。
// 計算の根拠を開示する
このコラムで使っている計算は、すべて GitHub で公開しています。
github.com/sasai-lab/statplay-opensource ↗
データ:
- 年齢別平均年収(22〜65歳)
- 性別補正係数
- 都道府県別補正係数(47都道府県)
- 学歴別補正係数
- 企業規模別補正係数
これらをハードコードして、入力に応じて足し合わせる シンプルな線形モデルです。 係数の詳細はセクション02に掲載しています。
また、係数の導出過程や予測関数の全体像、予測区間・信頼区間の計算方法など、
このシミュレーターの裏側のロジックを Qiita で詳しく解説しています。
年齢・性別・都道府県で年収を予測する回帰式を、公開統計からたてる実験 — Qiita ↗
// KEY TAKEAWAY
- 統計は「ズバリ当てる」のではなく、幅で正直に示す
- 同じ属性の人の「平均」と、あなた個人の「予測」では幅が違う
- 信頼区間(狭い)は平均の推定幅、予測区間(広い)は個人の予測幅
- 「不確かさを正直に出す」ことが、ピンポイント予測よりずっと役に立つ
// このコラムの計算について
厚生労働省「令和5年 賃金構造基本統計調査」を出典としています。公開データから抽出した代表値をハードコードしており、最新データとは差異がある可能性があります。
はい、職種・勤続年数・業種など変数を増やせばモデルの精度は上がります。ただし、このコラムの目的は「信頼区間と予測区間の違いを体感してもらう」こと。現在の5変数(年齢・性別・都道府県・学歴・企業規模)は、概念を理解するのに十分な複雑さです。
いいえ。これは統計的な「同じ属性の人の分布」を示すものであり、個人の年収を保証・予測するものではありません。学歴・職種・勤続年数など、モデルに含まれない要素が年収に大きく影響します。
はい。計算ロジックはすべて GitHub で公開しています。係数・計算方法・コード全文を確認できます。
統計はピンポイントの占いではない。
「だいたいこのへんに何%の確率でいる」を、正直に幅で示してくれるツール。
「ズバリ当たる」より「不確かさを正直に出す」ことのほうが、本当はずっと役に立つ。
これがこのコラムで一番伝えたかったことです。