単回帰分析 — 最小二乗法をビジュアルで

点を1つ足すだけで直線がぴろんと動く。最小二乗法が幾何として見えてくると、β₁ も R² も暗号ではなくなる。

M.01 / SIMPLE REGRESSION

単回帰分析 — 最小二乗法で線を引く

ここまで 1つの変数の話。現実の問題は「身長と体重」「広告費と売上」のように関係を聞いてくる。単回帰は 2 変数に直線を 1 本引くだけ——でも、その傾き β̂ の背後にはさっきまでやった t 検定・信頼区間 がしっかり効いている。

説明変数が1つだけの回帰が単回帰。x が1増えると y は β₁ だけ動く、という線形関係を仮定する。 最小二乗法は、全ての点との縦方向の差（残差）の二乗和を最小化する直線を選ぶ方法。キャンバスをクリックすると点が追加され、回帰直線が"ぴろん"と動く。緑のバーが残差。R² は「どれだけ直線で説明できたか」の指標（0〜1）。

実験ガイド — 順番に試してみよう

Step 1: 「ランダム20点」を押す → 回帰直線と R² が出る。緑のバー（残差）の大きさを見る。
Step 2: 直線から遠い場所にクリックで 外れ値を1つ追加 → 直線がグイッと引っ張られる。外れ値の影響力。
Step 3: CLEAR して、ほぼ一直線に 5点だけ打つ → R²≈1.0。完全な線形関係。
Step 4: CLEAR して、丸く（円形に）点を配置 → R²≈0。直線では捉えられない関係。

↑ キャンバスをクリックして点追加

傾き β₁—

切片 β₀—

R²—

相関係数 r—

// ここで使われる公式

ŷ = β₀ + β₁x（予測式）
・β₁（傾き）：x が1単位増えたとき、y が平均的にいくつ変わるか
・β₀（切片）：x = 0 のときの y の予測値。グラフと y 軸の交点

β₁ の計算式を分解
・分子 Σ(xᵢ − x̄)(yᵢ − ȳ)：x と y が一緒に動く度合い（共変動）。両方平均より大きいとプラス、片方だけ大きいとマイナス
・分母 Σ(xᵢ − x̄)²：x 自体のバラつき（変動）
・割り算の意味：「x の変動1単位あたり、y がどれだけ共変動しているか」→ これが傾き
・x のバラつきが大きいほど傾きの推定が安定する（分母が大きい = ブレにくい）

// よくある誤解

❌「相関が高い = 因果関係がある」

アイスの売上と溺死者数は強い正の相関。でも「アイスが人を溺れさせている」わけではない。共通の原因「気温」が両方に影響している（交絡因子）。相関は「一緒に動く」を言うだけで「一方が原因」とは言わない。

❌「R² が高ければモデルは正しい」

R² は説明変数を追加すれば必ず上がる（下がることはない）。無関係な変数を入れても上がる。だから R² だけでモデルの良さを判断するのは危険。自由度調整済み R² を使う。

❌「回帰直線が引けた = データに直線関係がある」

どんなデータにも最小二乗法で直線は必ず引ける。円形に散らばったデータにも直線が出る。上のシミュレーションで「ランダム20点」を試して R² が低いことを確認してみよう。

// よく出会う形

単回帰のまわりでは、傾きの組み立てと R² の読み方が、いつもセットで顔を出します。

β₁ の組み立ての形：β₁ = Σ(x−x̄)(y−ȳ) / Σ(x−x̄)² = 共変動 / x の変動。「x のバラつきが大きいほど分母が大きく、傾きの推定が安定する」という形が、ここに織り込まれている
R² の読み方の形：R² = 0.64 のとき、「y の分散のうち 64% が x で説明されている」と読める形になっている
r と R² の対応：R² = 0.64 のとき r = ±0.8。符号は β₁ の向きと揃う、という形でいつも対応がついている
残差の三条件：等分散性・正規性・独立性。この三つが揃っているときに、上の最小二乗の絵が信頼区間や検定の根拠として機能する

// もっと読む

あなたの年収は、統計でどこまで当てられるか年齢・性別・都道府県の3変数で年収の幅を読む、重回帰分析の物語版

« 全コラム一覧を見る

次は —他の影響を取り除く ▸ M2 重回帰分析