メインコンテンツへスキップ

相関係数 — 散布図と r を体感する

散布図を自由に描いて、相関係数 r が −1〜+1 でどう変わるかを体感。4象限の色分けで公式の意味が見える。アンスコムの例で「数字だけでは分からない」を実感する。

M.00 / CORRELATION

相関係数 — 2変数の「つながり」を測る

カイ二乗検定は「カテゴリ同士の関連」を数値化した。でも「身長と体重」「勉強時間とテストの点」のように連続な数値どうしの関係はどう測る? → 相関係数 r が「一緒に動く度合い」を −1 〜 +1 の1つの数字にまとめてくれる。

2つの変数が「一緒に動くかどうか」を測るのが相関係数 r。 +1 なら完全な正の直線関係、−1 なら完全な負の直線関係、0 なら直線的な関係がない。 キャンバスをクリックすると点が追加され、r がリアルタイムで変わる。 黄色い破線が平均線で、4つの象限に分かれる——緑の象限に点が多いほど正の相関、赤の象限に多いほど負の相関。 この色分けが、公式 Σ(x−x̄)(y−ȳ) の「符号の綱引き」そのもの。

実験ガイド — 相関係数を体感する
  1. Step 1: r = 0.80 で「生成」→ 右上がりの帯。緑の象限に点が集中している。
  2. Step 2: r = −0.60 に変えて「生成」→ 右下がり。赤の象限に点が多い。
  3. Step 3: r = 0.00 で「生成」→ 四象限にほぼ均等に散らばる。帯ではなく「雲」。
  4. Step 4: CLEAR して、U字型に手で点を配置 → r ≈ 0 なのに明らかに関係がある!
    → r は「直線関係」しか捉えられない。Panel 2 へ。
↑ キャンバスをクリックで点を追加
n0
相関係数 r
共分散 Cov

// ここで使われる公式

分子を分解——4象限の意味
・(xᵢ − x̄):各点の x が平均からどれだけズレているか
・(yᵢ − ȳ):各点の y が平均からどれだけズレているか
・掛け算:同じ方向にズレていれば(緑の象限)、逆方向なら(赤の象限)
・合計:正の寄与と負の寄与の綱引き。正が勝てば r > 0、負が勝てば r < 0

分母の役割
・x と y それぞれの標準偏差で割って −1 ≤ r ≤ 1 に正規化する
・単位に依存しない(cm でも inch でも同じ r が出る)

R² の意味
・「y の変動のうち、x との直線関係で説明できる割合」
・R² = 0.64 → y のバラつきの 64% が x で説明できる
・残りの 36% は x 以外の要因やランダムなバラつき

実験ガイド — 数字の裏をのぞく
  1. Step 1: アニメーションを見る。点が順に現れて、パターンが全然違うのに…
  2. Step 2: 各プロットの r ≈ 0.816 を確認。全部ほぼ同じ!
  3. Step 3: 回帰直線が出現 → 直線もほぼ同じ。でも II は曲線、III は外れ値、IV は1点が支配。
  4. Step 4: 「再生」で何度でも見直せる。数字だけでは見えないものがある。

▶ r の落とし穴 — アンスコムの例

// アンスコムの例が教えていること

1973年、統計学者フランシス・アンスコムが「同じ要約統計量でもデータの姿は全く違いうる」ことを示すために作ったデータセット。

  • I:理想的な直線関係。r がそのまま正しく機能している
  • II:二次関数的な関係。r は「直線としての相関」しか見ないので、曲線を捉えられない
  • III:1つの外れ値が r を引き下げている。外れ値に対して脆い
  • IV:x が1点だけ離れていて、その1点が r を「作っている」。レバレッジが高い

教訓:r や回帰式を計算する前に、必ず散布図を描く。これは統計分析の大原則。

// よくある誤解

❌「相関が高い = 因果関係がある」

アイスの売上と水難事故は強い正の相関。でもアイスが人を溺れさせているわけではない。共通の原因「気温」が両方を動かしている(交絡因子)。相関は「一緒に動く」と言うだけで「原因→結果」とは言わない。

❌「r = 0 なら関係がない」

U字型のデータは r ≈ 0 でも強い関係がある。r は「直線関係の強さ」を測るだけ。非線形な関係は見逃す。Step 4 で体験済み。

❌「r の値だけ見れば十分」

アンスコムの例が示す通り、r が同じでもデータの構造は全く違いうる。「まず散布図を描く」が統計分析の大原則。

// 試験での出方

  • r の手計算:Σ(xᵢ−x̄)(yᵢ−ȳ) / √{Σ(xᵢ−x̄)² · Σ(yᵢ−ȳ)²}
  • r と R² の換算:「R² = 0.49 → r = ±0.7」(符号は散布図の傾きで判断)
  • 無相関の検定:t = r√(n−2) / √(1−r²), df = n−2
  • 共分散と相関係数:r = Cov(X,Y) / (sx · sy)
次は —関係を「予測」に変える M.01 単回帰分析