【数学Ⅰ】データの分析05:共分散と相関係数

データの分析
さん
さん

今日の板書はこれ!

共分散と相関係数

2つのデータの関係を調べるには、まず点を打った散布図をかく。右上がりなら正の相関、右下がりなら負の相関がある。

相関の強さを数値にしたものが共分散相関係数

共分散:\(s_{xy}=\overline{xy}-\bar{x}\,\bar{y}\)(偏差の積の平均)

相関係数:\(r=\frac{s_{xy}}{s_x s_y}\)(\(-1\le r\le 1\)、1に近いほど強い正の相関)

例題1

5本の木の太さ \(x\)(cm)と高さ \(y\)(cm)について、相関係数 \(r\) を求めよ。


▼ 解答

平均は \(\bar{x}=26\)、\(\bar{y}=18\)。

番号\(x\)\(y\)\(x-\bar{x}\)\(y-\bar{y}\)\((x-\bar{x})^2\)\((y-\bar{y})^2\)\((x-\bar{x})(y-\bar{y})\)
12113-5-5252525
2272012142
3291931913
42317-3-1913
530214316912
合計1309000604045

分散は \(s_x^2=\frac{60}{5}=12\)、\(s_y^2=\frac{40}{5}=8\)、共分散は \(s_{xy}=\frac{45}{5}=9\)。

よって \(r=\frac{9}{2\sqrt{3}\times 2\sqrt{2}}=\frac{9}{4\sqrt{6}}\) ≒ 0.92

生徒
生徒

もっと詳しくお願いします!!

現役教員として数学を教えている「さん」と申します。

人より勉強に時間がかかる」と感じていませんか?教科書や参考書を理解するには、「自分なりに噛み砕いて考える力」が必要です。

このサイトでは、私が受けた質問やつまずきポイントをもとに、意味から理解できるように解説していきます。

散布図と相関とは?

さん
さん

まずは2つのデータの関係を「目で見る」ことから始めよう。

2つの変量(たとえば身長と体重)を、一方を横軸、もう一方を縦軸にとって点を打った図を散布図といいます。

点の散らばり方を見ると、2つの変量の間に関係があるかどうかが分かります。

正の相関・負の相関

一方が増えると他方も増える傾向があるとき、2つの変量には正の相関があるといいます。

逆に、一方が増えると他方は減る傾向があるとき、負の相関があるといいます。

どちらの傾向もはっきりしないときは相関がないといいます。

身長と体重の散布図(正の相関)
生徒
生徒

右上がりが正、右下がりが負ってことですね!

さん
さん

その通り!散布図を見れば、正か負か、相関がないかをだいたい判断できるよ。

共分散とは?相関を数値で表す

さん
さん

でも「だいたい」じゃ物足りないよね。相関の強さを数値で表してみよう。

散布図を見ただけでは、相関の有無や強さがはっきり分からないこともあります。

そこで、相関を数値化することを考えます。

4つの領域に分けて考える

xの平均値 \(\bar{x}\) とyの平均値 \(\bar{y}\) で平面を4つの領域に分けます。

データに正の相関があれば右上と左下に点が多く、負の相関があれば左上と右下に点が多くなります。

各点について、xの偏差 \(x-\bar{x}\) とyの偏差 \(y-\bar{y}\) の積を考えると、右上と左下では積が正、左上と右下では積が負になります。

平均値で4つに分けた領域と偏差の積の符号の図

共分散の定義

そこで、xの偏差とyの偏差の積の平均値を共分散といい、\(s_{xy}\) で表します。

\[s_{xy}=\frac{(x_1-\bar{x})(y_1-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y})}{n}\]

共分散は、次の便利な公式でも計算できます。

\[s_{xy}=\overline{xy}-\bar{x}\,\bar{y}\]

さん
さん

「xyの平均」から「xの平均とyの平均の積」を引くだけ。分散の便利公式とそっくりだね。

共分散の符号と相関

共分散が正なら正の相関、負なら負の相関があります。

正と負の偏差の積が打ち消し合って共分散がほぼ0のときは、相関がないと判断できます。

相関係数の求め方|−1から1で強さを判定

生徒
生徒

共分散の符号で正負は分かりました。強さも数値で分かるんですか?

さん
さん

それが共分散の弱点なんだ。共分散は単位や数値の大きさで値が変わってしまうんだよ。

共分散はデータの単位や大きさによって値が大きく変わります。

たとえば同じ関係のデータでも、単位を10倍にしただけで共分散が 3.2 から 320 へと大きく変わってしまい、値の大きさだけでは相関の強さを比べられません。

相関係数の定義

そこで、共分散をxとyの標準偏差の積で割って、単位によらない値にします。

これを相関係数といい、\(r\) で表します。

\[r=\frac{s_{xy}}{s_x s_y}\]

ここで \(s_x\)、\(s_y\) はそれぞれx、yの標準偏差です。

標準偏差は常に正なので、相関係数の符号は共分散の符号と一致します。

相関係数は −1 から 1 の値

相関係数 \(r\) は、常に \(-1\le r\le 1\) の範囲の値をとり、その値で相関の強さを判定できます。

\(r\) が1に近いほど強い正の相関、\(-1\) に近いほど強い負の相関があり、0に近いほど相関がないといえます。

相関係数rの値と散布図の対応(r=−1〜1)
生徒
生徒

数字一つで強さまで分かるなんて便利!

例題:相関係数を求めよう

例題1

5本の木の太さ \(x\)(cm)と高さ \(y\)(cm)を測定したところ、次の表のようになった。xとyの相関係数 \(r\) を求めよ。

木の番号12345
\(x\)(cm)2127292330
\(y\)(cm)1320191721

考え方

さん
さん

値を書き並べるだけだと複雑でミスしやすいから、表を作って順番に計算しよう。

相関係数を求める手順は次の通りです。

①平均 \(\bar{x}\)、\(\bar{y}\) を求める。

②偏差 \(x-\bar{x}\)、\(y-\bar{y}\) を求める(偏差の合計は必ず0になる)。

③偏差の2乗から分散を求める。

④偏差の積から共分散を求める。

表で計算する

平均は \(\bar{x}=\frac{130}{5}=26\)、\(\bar{y}=\frac{90}{5}=18\) です。

番号\(x\)\(y\)\(x-\bar{x}\)\(y-\bar{y}\)\((x-\bar{x})^2\)\((y-\bar{y})^2\)\((x-\bar{x})(y-\bar{y})\)
12113-5-5252525
2272012142
3291931913
42317-3-1913
530214316912
合計1309000604045

分散は \(s_x^2=\frac{60}{5}=12\)、\(s_y^2=\frac{40}{5}=8\)、共分散は \(s_{xy}=\frac{45}{5}=9\) となります。

標準偏差は \(s_x=\sqrt{12}=2\sqrt{3}\)、\(s_y=\sqrt{8}=2\sqrt{2}\) です。

相関係数を求める

\[r=\frac{s_{xy}}{s_x s_y}=\frac{9}{2\sqrt{3}\times 2\sqrt{2}}=\frac{9}{4\sqrt{6}}\]

これを計算すると \(r=\frac{9}{4\sqrt{6}}\) ≒ 0.92 となり、強い正の相関があると分かります。

生徒
生徒

表にすると一気に分かりやすくなりますね!

さん
さん

そう、相関係数は表で順番に求めるのがコツだよ。

まとめ:共分散と相関係数

さん
さん

さて、今回のまとめだよ!

共分散と相関係数のまとめ

散布図…2つの変量を平面に点で表した図。右上がりは正の相関、右下がりは負の相関。

共分散 \(s_{xy}=\overline{xy}-\bar{x}\,\bar{y}\)…正なら正の相関、負なら負の相関。

相関係数 \(r=\frac{s_{xy}}{s_x s_y}\)(\(-1\le r\le 1\))…1に近いほど強い正、−1に近いほど強い負、0に近いと相関なし。

相関係数は表を作って「平均→偏差→分散→共分散」の順に求めるとミスが少ない。

生徒
生徒

また一つ賢くなった!

↑前の記事↑

(次の記事は準備中)

コメント