単回帰分析 — 最小二乗法をビジュアルで
点を1つ足すだけで直線がぴろんと動く。最小二乗法が幾何として見えてくると、β₁ も R² も暗号ではなくなる。
単回帰分析 — 最小二乗法で線を引く
説明変数が1つだけの回帰が単回帰。x が1増えると y は β₁ だけ動く、という線形関係を仮定する。 最小二乗法は、全ての点との縦方向の差(残差)の二乗和を最小化する直線を選ぶ方法。 キャンバスをクリックすると点が追加され、回帰直線が"ぴろん"と動く。 緑のバーが残差。R² は「どれだけ直線で説明できたか」の指標(0〜1)。
- Step 1: 「ランダム20点」を押す → 回帰直線と R² が出る。緑のバー(残差)の大きさを見る。
- Step 2: 直線から遠い場所にクリックで 外れ値を1つ追加 → 直線がグイッと引っ張られる。外れ値の影響力。
- Step 3: CLEAR して、ほぼ一直線に 5点 だけ打つ → R²≈1.0。完全な線形関係。
- Step 4: CLEAR して、丸く(円形に)点を配置 → R²≈0。直線では捉えられない関係。
// ここで使われる公式
ŷ = β₀ + β₁x(予測式)
・β₁(傾き):x が1単位増えたとき、y が平均的にいくつ変わるか
・β₀(切片):x = 0 のときの y の予測値。グラフと y 軸の交点
β₁ の計算式を分解
・分子 Σ(xᵢ − x̄)(yᵢ − ȳ):x と y が一緒に動く度合い(共変動)。両方平均より大きいとプラス、片方だけ大きいとマイナス
・分母 Σ(xᵢ − x̄)²:x 自体のバラつき(変動)
・割り算の意味:「x の変動1単位あたり、y がどれだけ共変動しているか」→ これが傾き
・x のバラつきが大きいほど傾きの推定が安定する(分母が大きい = ブレにくい)
// よくある誤解
アイスの売上と溺死者数は強い正の相関。でも「アイスが人を溺れさせている」わけではない。共通の原因「気温」が両方に影響している(交絡因子)。相関は「一緒に動く」を言うだけで「一方が原因」とは言わない。
R² は説明変数を追加すれば必ず上がる(下がることはない)。無関係な変数を入れても上がる。だから R² だけでモデルの良さを判断するのは危険。自由度調整済み R² を使う。
どんなデータにも最小二乗法で直線は必ず引ける。円形に散らばったデータにも直線が出る。上のシミュレーションで「ランダム20点」を試して R² が低いことを確認してみよう。
// よく出会う形
単回帰のまわりでは、傾きの組み立てと R² の読み方が、いつもセットで顔を出します。
- β₁ の組み立ての形:β₁ = Σ(x−x̄)(y−ȳ) / Σ(x−x̄)² = 共変動 / x の変動。「x のバラつきが大きいほど分母が大きく、傾きの推定が安定する」という形が、ここに織り込まれている
- R² の読み方の形:R² = 0.64 のとき、「y の分散のうち 64% が x で説明されている」と読める形になっている
- r と R² の対応:R² = 0.64 のとき r = ±0.8。符号は β₁ の向きと揃う、という形でいつも対応がついている
- 残差の三条件:等分散性・正規性・独立性。この三つが揃っているときに、上の最小二乗の絵が信頼区間や検定の根拠として機能する