
今日の板書はこれ!
2つのデータの関係を調べるには、まず点を打った散布図をかく。右上がりなら正の相関、右下がりなら負の相関がある。
相関の強さを数値にしたものが共分散と相関係数。
共分散:\(s_{xy}=\overline{xy}-\bar{x}\,\bar{y}\)(偏差の積の平均)
相関係数:\(r=\frac{s_{xy}}{s_x s_y}\)(\(-1\le r\le 1\)、1に近いほど強い正の相関)
5本の木の太さ \(x\)(cm)と高さ \(y\)(cm)について、相関係数 \(r\) を求めよ。
▼ 解答
平均は \(\bar{x}=26\)、\(\bar{y}=18\)。
| 番号 | \(x\) | \(y\) | \(x-\bar{x}\) | \(y-\bar{y}\) | \((x-\bar{x})^2\) | \((y-\bar{y})^2\) | \((x-\bar{x})(y-\bar{y})\) |
|---|---|---|---|---|---|---|---|
| 1 | 21 | 13 | -5 | -5 | 25 | 25 | 25 |
| 2 | 27 | 20 | 1 | 2 | 1 | 4 | 2 |
| 3 | 29 | 19 | 3 | 1 | 9 | 1 | 3 |
| 4 | 23 | 17 | -3 | -1 | 9 | 1 | 3 |
| 5 | 30 | 21 | 4 | 3 | 16 | 9 | 12 |
| 合計 | 130 | 90 | 0 | 0 | 60 | 40 | 45 |
分散は \(s_x^2=\frac{60}{5}=12\)、\(s_y^2=\frac{40}{5}=8\)、共分散は \(s_{xy}=\frac{45}{5}=9\)。
よって \(r=\frac{9}{2\sqrt{3}\times 2\sqrt{2}}=\frac{9}{4\sqrt{6}}\) ≒ 0.92

もっと詳しくお願いします!!
現役教員として数学を教えている「さん」と申します。
「人より勉強に時間がかかる」と感じていませんか?教科書や参考書を理解するには、「自分なりに噛み砕いて考える力」が必要です。
このサイトでは、私が受けた質問やつまずきポイントをもとに、意味から理解できるように解説していきます。
散布図と相関とは?

まずは2つのデータの関係を「目で見る」ことから始めよう。
2つの変量(たとえば身長と体重)を、一方を横軸、もう一方を縦軸にとって点を打った図を散布図といいます。
点の散らばり方を見ると、2つの変量の間に関係があるかどうかが分かります。
正の相関・負の相関
一方が増えると他方も増える傾向があるとき、2つの変量には正の相関があるといいます。
逆に、一方が増えると他方は減る傾向があるとき、負の相関があるといいます。
どちらの傾向もはっきりしないときは相関がないといいます。


右上がりが正、右下がりが負ってことですね!

その通り!散布図を見れば、正か負か、相関がないかをだいたい判断できるよ。
共分散とは?相関を数値で表す

でも「だいたい」じゃ物足りないよね。相関の強さを数値で表してみよう。
散布図を見ただけでは、相関の有無や強さがはっきり分からないこともあります。
そこで、相関を数値化することを考えます。
4つの領域に分けて考える
xの平均値 \(\bar{x}\) とyの平均値 \(\bar{y}\) で平面を4つの領域に分けます。
データに正の相関があれば右上と左下に点が多く、負の相関があれば左上と右下に点が多くなります。
各点について、xの偏差 \(x-\bar{x}\) とyの偏差 \(y-\bar{y}\) の積を考えると、右上と左下では積が正、左上と右下では積が負になります。

共分散の定義
そこで、xの偏差とyの偏差の積の平均値を共分散といい、\(s_{xy}\) で表します。
\[s_{xy}=\frac{(x_1-\bar{x})(y_1-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y})}{n}\]
共分散は、次の便利な公式でも計算できます。
\[s_{xy}=\overline{xy}-\bar{x}\,\bar{y}\]

「xyの平均」から「xの平均とyの平均の積」を引くだけ。分散の便利公式とそっくりだね。
共分散の符号と相関
共分散が正なら正の相関、負なら負の相関があります。
正と負の偏差の積が打ち消し合って共分散がほぼ0のときは、相関がないと判断できます。
相関係数の求め方|−1から1で強さを判定

共分散の符号で正負は分かりました。強さも数値で分かるんですか?

それが共分散の弱点なんだ。共分散は単位や数値の大きさで値が変わってしまうんだよ。
共分散はデータの単位や大きさによって値が大きく変わります。
たとえば同じ関係のデータでも、単位を10倍にしただけで共分散が 3.2 から 320 へと大きく変わってしまい、値の大きさだけでは相関の強さを比べられません。
相関係数の定義
そこで、共分散をxとyの標準偏差の積で割って、単位によらない値にします。
これを相関係数といい、\(r\) で表します。
\[r=\frac{s_{xy}}{s_x s_y}\]
ここで \(s_x\)、\(s_y\) はそれぞれx、yの標準偏差です。
標準偏差は常に正なので、相関係数の符号は共分散の符号と一致します。
相関係数は −1 から 1 の値
相関係数 \(r\) は、常に \(-1\le r\le 1\) の範囲の値をとり、その値で相関の強さを判定できます。
\(r\) が1に近いほど強い正の相関、\(-1\) に近いほど強い負の相関があり、0に近いほど相関がないといえます。


数字一つで強さまで分かるなんて便利!
例題:相関係数を求めよう
5本の木の太さ \(x\)(cm)と高さ \(y\)(cm)を測定したところ、次の表のようになった。xとyの相関係数 \(r\) を求めよ。
| 木の番号 | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| \(x\)(cm) | 21 | 27 | 29 | 23 | 30 |
| \(y\)(cm) | 13 | 20 | 19 | 17 | 21 |
考え方

値を書き並べるだけだと複雑でミスしやすいから、表を作って順番に計算しよう。
相関係数を求める手順は次の通りです。
①平均 \(\bar{x}\)、\(\bar{y}\) を求める。
②偏差 \(x-\bar{x}\)、\(y-\bar{y}\) を求める(偏差の合計は必ず0になる)。
③偏差の2乗から分散を求める。
④偏差の積から共分散を求める。
表で計算する
平均は \(\bar{x}=\frac{130}{5}=26\)、\(\bar{y}=\frac{90}{5}=18\) です。
| 番号 | \(x\) | \(y\) | \(x-\bar{x}\) | \(y-\bar{y}\) | \((x-\bar{x})^2\) | \((y-\bar{y})^2\) | \((x-\bar{x})(y-\bar{y})\) |
|---|---|---|---|---|---|---|---|
| 1 | 21 | 13 | -5 | -5 | 25 | 25 | 25 |
| 2 | 27 | 20 | 1 | 2 | 1 | 4 | 2 |
| 3 | 29 | 19 | 3 | 1 | 9 | 1 | 3 |
| 4 | 23 | 17 | -3 | -1 | 9 | 1 | 3 |
| 5 | 30 | 21 | 4 | 3 | 16 | 9 | 12 |
| 合計 | 130 | 90 | 0 | 0 | 60 | 40 | 45 |
分散は \(s_x^2=\frac{60}{5}=12\)、\(s_y^2=\frac{40}{5}=8\)、共分散は \(s_{xy}=\frac{45}{5}=9\) となります。
標準偏差は \(s_x=\sqrt{12}=2\sqrt{3}\)、\(s_y=\sqrt{8}=2\sqrt{2}\) です。
相関係数を求める
\[r=\frac{s_{xy}}{s_x s_y}=\frac{9}{2\sqrt{3}\times 2\sqrt{2}}=\frac{9}{4\sqrt{6}}\]
これを計算すると \(r=\frac{9}{4\sqrt{6}}\) ≒ 0.92 となり、強い正の相関があると分かります。

表にすると一気に分かりやすくなりますね!

そう、相関係数は表で順番に求めるのがコツだよ。
まとめ:共分散と相関係数

さて、今回のまとめだよ!
散布図…2つの変量を平面に点で表した図。右上がりは正の相関、右下がりは負の相関。
共分散 \(s_{xy}=\overline{xy}-\bar{x}\,\bar{y}\)…正なら正の相関、負なら負の相関。
相関係数 \(r=\frac{s_{xy}}{s_x s_y}\)(\(-1\le r\le 1\))…1に近いほど強い正、−1に近いほど強い負、0に近いと相関なし。
相関係数は表を作って「平均→偏差→分散→共分散」の順に求めるとミスが少ない。

また一つ賢くなった!




コメント