メインコンテンツへスキップ

単回帰分析 — 最小二乗法をビジュアルで

点を1つ足すだけで直線がぴろんと動く。最小二乗法が幾何として見えてくると、β₁ も R² も暗号ではなくなる。

M.01 / SIMPLE REGRESSION

単回帰分析 — 最小二乗法で線を引く

ここまで 1つの変数の話。現実の問題は「身長と体重」「広告費と売上」のように関係を聞いてくる。単回帰は 2 変数に直線を 1 本引くだけ——でも、その傾き β̂ の背後にはさっきまでやった t 検定・信頼区間 がしっかり効いている。

説明変数が1つだけの回帰が単回帰。x が1増えると y は β₁ だけ動く、という線形関係を仮定する。 最小二乗法は、全ての点との縦方向の差(残差)の二乗和を最小化する直線を選ぶ方法。 キャンバスをクリックすると点が追加され、回帰直線が"ぴろん"と動く。 緑のバーが残差。R² は「どれだけ直線で説明できたか」の指標(0〜1)。

実験ガイド — 順番に試してみよう
  1. Step 1: 「ランダム20点」を押す → 回帰直線と R² が出る。緑のバー(残差)の大きさを見る。
  2. Step 2: 直線から遠い場所にクリックで 外れ値を1つ追加 → 直線がグイッと引っ張られる。外れ値の影響力。
  3. Step 3: CLEAR して、ほぼ一直線に 5点 だけ打つ → R²≈1.0。完全な線形関係。
  4. Step 4: CLEAR して、丸く(円形に)点を配置 → R²≈0。直線では捉えられない関係。
↑ キャンバスをクリックして点追加
n0
傾き β₁
切片 β₀
相関係数 r

// ここで使われる公式

ŷ = β₀ + β₁x(予測式)
・β₁(傾き):x が1単位増えたとき、y が平均的にいくつ変わるか
・β₀(切片):x = 0 のときの y の予測値。グラフと y 軸の交点

β₁ の計算式を分解
・分子 Σ(xᵢ − x̄)(yᵢ − ȳ):x と y が一緒に動く度合い(共変動)。両方平均より大きいとプラス、片方だけ大きいとマイナス
・分母 Σ(xᵢ − x̄)²:x 自体のバラつき(変動)
・割り算の意味:「x の変動1単位あたり、y がどれだけ共変動しているか」→ これが傾き
・x のバラつきが大きいほど傾きの推定が安定する(分母が大きい = ブレにくい)

// よくある誤解

❌「相関が高い = 因果関係がある」

アイスの売上と溺死者数は強い正の相関。でも「アイスが人を溺れさせている」わけではない。共通の原因「気温」が両方に影響している(交絡因子)。相関は「一緒に動く」を言うだけで「一方が原因」とは言わない。

❌「R² が高ければモデルは正しい」

R² は説明変数を追加すれば必ず上がる(下がることはない)。無関係な変数を入れても上がる。だから R² だけでモデルの良さを判断するのは危険。自由度調整済み R² を使う。

❌「回帰直線が引けた = データに直線関係がある」

どんなデータにも最小二乗法で直線は必ず引ける。円形に散らばったデータにも直線が出る。上のシミュレーションで「ランダム20点」を試して R² が低いことを確認してみよう。

// よく出会う形

単回帰のまわりでは、傾きの組み立てと R² の読み方が、いつもセットで顔を出します。

  • β₁ の組み立ての形:β₁ = Σ(x−x̄)(y−ȳ) / Σ(x−x̄)² = 共変動 / x の変動。「x のバラつきが大きいほど分母が大きく、傾きの推定が安定する」という形が、ここに織り込まれている
  • R² の読み方の形:R² = 0.64 のとき、「y の分散のうち 64% が x で説明されている」と読める形になっている
  • r と R² の対応:R² = 0.64 のとき r = ±0.8。符号は β₁ の向きと揃う、という形でいつも対応がついている
  • 残差の三条件:等分散性・正規性・独立性。この三つが揃っているときに、上の最小二乗の絵が信頼区間や検定の根拠として機能する
次は —他の影響を取り除く M2 重回帰分析