相関係数 — 散布図と r を体感する
散布図を自由に描いて、相関係数 r が −1〜+1 でどう変わるかを体感。4象限の色分けで公式の意味が見える。アンスコムの例で「数字だけでは分からない」を実感する。
相関係数 — 2変数の「つながり」を測る
2つの変数が「一緒に動くかどうか」を測るのが相関係数 r。 +1 なら完全な正の直線関係、−1 なら完全な負の直線関係、0 なら直線的な関係がない。 キャンバスをクリックすると点が追加され、r がリアルタイムで変わる。 黄色い破線が平均線で、4つの象限に分かれる——緑の象限に点が多いほど正の相関、赤の象限に多いほど負の相関。 この色分けが、公式 Σ(x−x̄)(y−ȳ) の「符号の綱引き」そのもの。
- Step 1: r = 0.80 で「生成」→ 右上がりの帯。緑の象限に点が集中している。
- Step 2: r = −0.60 に変えて「生成」→ 右下がり。赤の象限に点が多い。
- Step 3: r = 0.00 で「生成」→ 四象限にほぼ均等に散らばる。帯ではなく「雲」。
- Step 4: CLEAR して、U字型に手で点を配置 → r ≈ 0 なのに明らかに関係がある!
→ r は「直線関係」しか捉えられない。Panel 2 へ。
// ここで使われる公式
分子を分解——4象限の意味
・(xᵢ − x̄):各点の x が平均からどれだけズレているか
・(yᵢ − ȳ):各点の y が平均からどれだけズレているか
・掛け算:同じ方向にズレていれば正(緑の象限)、逆方向なら負(赤の象限)
・合計:正の寄与と負の寄与の綱引き。正が勝てば r > 0、負が勝てば r < 0
分母の役割
・x と y それぞれの標準偏差で割って −1 ≤ r ≤ 1 に正規化する
・単位に依存しない(cm でも inch でも同じ r が出る)
R² の意味
・「y の変動のうち、x との直線関係で説明できる割合」
・R² = 0.64 → y のバラつきの 64% が x で説明できる
・残りの 36% は x 以外の要因やランダムなバラつき
- Step 1: アニメーションを見る。点が順に現れて、パターンが全然違うのに…
- Step 2: 各プロットの r ≈ 0.816 を確認。全部ほぼ同じ!
- Step 3: 回帰直線が出現 → 直線もほぼ同じ。でも II は曲線、III は外れ値、IV は1点が支配。
- Step 4: 「再生」で何度でも見直せる。数字だけでは見えないものがある。
▶ r の落とし穴 — アンスコムの例
// アンスコムの例が教えていること
1973年、統計学者フランシス・アンスコムが「同じ要約統計量でもデータの姿は全く違いうる」ことを示すために作ったデータセット。
- I:理想的な直線関係。r がそのまま正しく機能している
- II:二次関数的な関係。r は「直線としての相関」しか見ないので、曲線を捉えられない
- III:1つの外れ値が r を引き下げている。外れ値に対して脆い
- IV:x が1点だけ離れていて、その1点が r を「作っている」。レバレッジが高い
教訓:r や回帰式を計算する前に、必ず散布図を描く。これは統計分析の大原則。
// よくある誤解
アイスの売上と水難事故は強い正の相関。でもアイスが人を溺れさせているわけではない。共通の原因「気温」が両方を動かしている(交絡因子)。相関は「一緒に動く」と言うだけで「原因→結果」とは言わない。
U字型のデータは r ≈ 0 でも強い関係がある。r は「直線関係の強さ」を測るだけ。非線形な関係は見逃す。Step 4 で体験済み。
アンスコムの例が示す通り、r が同じでもデータの構造は全く違いうる。「まず散布図を描く」が統計分析の大原則。
// 試験での出方
- r の手計算:Σ(xᵢ−x̄)(yᵢ−ȳ) / √{Σ(xᵢ−x̄)² · Σ(yᵢ−ȳ)²}
- r と R² の換算:「R² = 0.49 → r = ±0.7」(符号は散布図の傾きで判断)
- 無相関の検定:t = r√(n−2) / √(1−r²), df = n−2
- 共分散と相関係数:r = Cov(X,Y) / (sx · sy)