【数学Ⅰ】データの分析03:箱ひげ図と四分位数

データの分析
さん
さん

今日の板書はこれ!

5数要約と箱ひげ図

データの散らばり(ちらばり)を表す指標を整理する。

範囲 = 最大値 − 最小値

四分位数:値を小さい順に並べ、全体を4等分する位置にくる3つの数。小さい方から第1四分位数 \(Q_1\)、第2四分位数 \(Q_2\)(=中央値)、第3四分位数 \(Q_3\)。

四分位範囲 = \(Q_3 – Q_1\)

四分位偏差 = \(\frac{Q_3 – Q_1}{2}\)

外れ値:他の値から極端に離れた値。

箱ひげ図:最小値・\(Q_1\)・\(Q_2\)・\(Q_3\)・最大値(5数要約)を、箱とひげで一目で分かるように表した図。

生徒
生徒

用語がいっぱい出てきた…!もっと詳しくお願いします!!

現役教員として数学を教えている「さん」と申します。

人より勉強に時間がかかる」と感じていませんか?私の学校にも、同じ悩みを抱えて苦しんでる生徒がたくさんいます。

「教科書や参考書の内容がわからなくて、読むのに時間がかかる」「解答の意味が理解できず、勉強が進まない」教科書や参考書の内容を理解するには、「自分なりに噛み砕いて考える力」が必要です。

でも大丈夫!このサイトでは、私が受けた質問や、つまずきポイントをもとに、わかりやすく解説していきます。

意味から理解し、噛み砕き方をマスターしましょう!!

散らばりを「数」で表す ― 範囲・四分位数とは?

さん
さん

前回は平均値・中央値・最頻値という「データの中心」を表す代表値を学んだね。

生徒
生徒

はい!データを1つの値で代表させるやつですね。

さん
さん

そう。でも中心が同じでも、データの「散らばり具合」はまったく違うことがあるんだ。今回はその散らばりを数で表す方法を学んでいくよ。

たとえば、次の2つのデータを見てみよう。

どちらも平均値50・中央値50で、中心は同じだ。

データ並べた値平均値中央値
A0, 10, 20, …, 90, 1005050
B25, 30, 35, …, 70, 755050
生徒
生徒

中心は同じなのに、Aの方が広くばらついてますね。

さん
さん

その通り!この「広がりの違い」を数値にするのが、今日のテーマだよ。

範囲 ― いちばんシンプルな散らばりの指標

さん
さん

まずは一番かんたんな指標、範囲から。最大値から最小値を引くだけだよ。

範囲 = 最大値 − 最小値 で求める。

値がどれだけ広い区間に散らばっているかを表す、もっとも素朴な指標だ。

例題1

次のデータは、ある年のA町における月ごとの雨の日数である。このデータの範囲を求めよ。
9, 8, 9, 12, 17, 23, 15, 13, 19, 22, 9, 9 (日)

考え方と解答

さん
さん

最大値と最小値を見つけて、引き算するだけだよ。

最大値は23、最小値は8。

よって 範囲 = \(23 – 8 = 15\)(日)となる。

生徒
生徒

引き算だけ!これは簡単です。

さん
さん

ただし範囲は外れ値(極端に大きい・小さい値)に大きく影響されるという弱点があるんだ。だから次の四分位数を使うことが多いよ。

四分位数(Q₁・Q₂・Q₃)の求め方

さん
さん

次は四分位数。データを小さい順に並べて、全体を4等分する位置にくる3つの数のことだよ。

小さい方から順に、第1四分位数 \(Q_1\)、第2四分位数 \(Q_2\)、第3四分位数 \(Q_3\) という。

\(Q_2\) は、ちょうど真ん中の値なので中央値そのものだ。

\(Q_1\) は下半分のデータの中央値、\(Q_3\) は上半分のデータの中央値として求める。

生徒
生徒

Q2が中央値なら、Q1は下半分の真ん中、Q3は上半分の真ん中ってことですね。

さん
さん

その理解でバッチリ!実際に例題で求めてみよう。

例題2

次のデータは、10人の生徒に100点満点のテストを行った結果である(点)。第1四分位数・第2四分位数・第3四分位数を求めよ。
21, 30, 36, 38, 41, 45, 52, 58, 60, 72

考え方と解答

さん
さん

データは10個で、もう小さい順に並んでいるね。まず真ん中(中央値)を探すよ。

データは10個(偶数個)なので、中央値 \(Q_2\) は5番目と6番目の平均で、\(Q_2 = \frac{41 + 45}{2} = 43\)(点)。

下半分の5個(21, 30, 36, 38, 41)の中央値が \(Q_1\) で、その真ん中は3番目なので \(Q_1 = 36\)(点)。

上半分の5個(45, 52, 58, 60, 72)の中央値が \(Q_3\) で、\(Q_3 = 58\)(点)となる。

生徒
生徒

下半分と上半分に分けて、それぞれの真ん中を見ればいいんですね!

四分位範囲と四分位偏差

さん
さん

四分位数が分かると、散らばりを表す2つの値が計算できるよ。

四分位範囲 = \(Q_3 – Q_1\)。

これは、データの真ん中50%がどれくらいの幅に収まっているかを表す。

四分位偏差 = \(\frac{Q_3 – Q_1}{2}\)。

四分位範囲の半分で、中央値まわりの散らばりを数値化したものだ。

さん
さん

範囲とちがって、四分位範囲は外れ値の影響を受けにくいのが大きな長所なんだ。

例題3

さきほどの例題2のデータについて、四分位範囲と四分位偏差を求めよ。

解答

四分位範囲 = \(Q_3 – Q_1 = 58 – 36 = 22\)(点)。

四分位偏差 = \(\frac{Q_3 – Q_1}{2} = \frac{22}{2} = 11\)(点)となる。

生徒
生徒

真ん中50%が22点の幅に収まっている、というイメージですね。

箱ひげ図 ― 5数要約を一目で表す

さん
さん

ここまでの「最小値・\(Q_1\)・\(Q_2\)・\(Q_3\)・最大値」の5つをまとめて5数要約というよ。これを図にしたのが箱ひげ図だ。

箱ひげ図では、\(Q_1\) から \(Q_3\) までをで表し(箱の長さが四分位範囲)、箱の中の線が中央値 \(Q_2\)、箱から伸びるひげの端が最小値と最大値を表す。

複数のデータを比べやすくするため、必要ならば平均値を「+」の記号で書き込むこともある。

生徒
生徒

箱の左右がQ1とQ3で、まんなかの線が中央値、ひげの先が最小・最大なんですね。

さん
さん

そう!箱ひげ図を見れば、散らばり方が一目で分かるんだ。四分位数はデータの個数を4等分しているので、箱の中(Q1〜Q3)には全体の約50%、各区間にはそれぞれ約25%のデータが入っているよ。

ヒストグラムと箱ひげ図の関係

さん
さん

前回やったヒストグラムと、今回の箱ひげ図には深いつながりがあるんだよ。

ヒストグラムは、データの個数を面積で表したものだった。

これは、データの個数を箱とひげで表した箱ひげ図と対応している。

つまり、ヒストグラムの面積を4等分する位置が \(Q_1, Q_2, Q_3\) になっている、と考えるとイメージしやすい。

生徒
生徒

ヒストグラムが左右に偏ると、箱ひげ図の箱の位置もズレるんですね。

さん
さん

その通り!箱ひげ図を見れば、おおよそのヒストグラムの形も想像できるようになるよ。

箱ひげ図でデータを比較する

さん
さん

箱ひげ図の本当の威力は、複数のデータを並べて比べるときに発揮されるんだ。

例題4

次のデータは、東京と大阪について、2007年から2018年までの最低気温が25℃以上であった日数を、1年ごとに集計した結果である。箱ひげ図を並べて書き、読み取れることを述べよ。

5数要約の表

それぞれのデータを小さい順に並べ、5数要約を求めると次のようになる(単位:日)。

最小値\(Q_1\)\(Q_2\)\(Q_3\)最大値
東京1022.530.045.556
大阪2535.545.549.056

★【画像4】page-16 の東京と大阪の箱ひげ図を並べた図をここに挿入

読み取れること

箱ひげ図全体が、大阪の方が値の大きい側に分布している。

つまり、最低気温が25℃以上だった日数は大阪の方が多い。

中央値まわりの散らばり(箱の長さ=四分位範囲)は東京の方が大きく、大阪は45日以上の年の数が東京の約2倍ある。

生徒
生徒

表の数字だけより、箱ひげ図で並べた方が違いがパッと分かりますね!

さん
さん

まさにそれが箱ひげ図の長所だよ。練習として、同じ年の名古屋(30, 28, 13, 48, 40, 30, 30, 22, 25, 21, 30, 49 日)の箱ひげ図も書いて、3都市を比べてみよう。

外れ値の判定

さん
さん

最後に外れ値の話。他の値から極端に離れた値のことだけど、「どこからが外れ値か」には基準が必要だよね。

外れ値の判定にはいくつか基準があるが、よく使われるのは四分位範囲を使う次の基準だ。

外れ値の判定基準(一例)

次のどちらかにあてはまる値を外れ値とすることが多い。

・第1四分位数 \(- 1.5 \times (\text{四分位範囲})\) 以下の値

・第3四分位数 \(+ 1.5 \times (\text{四分位範囲})\) 以上の値

例題5

次のデータの外れ値を求めよ。
12, 16, 28, 32, 35, 36, 39, 41, 45, 47, 50, 62, 65, 99

考え方と解答

さん
さん

まず5数要約を求めて、四分位範囲を計算するよ。

5数要約は、最小値12、\(Q_1 = 32\)、\(Q_2 = 40\)、\(Q_3 = 50\)、最大値99となる。

四分位範囲 = \(Q_3 – Q_1 = 50 – 32 = 18\)。

よって \(1.5 \times 18 = 27\) を使って判定する。

\(Q_1 – 27 = 5\) 以下の値と、\(Q_3 + 27 = 77\) 以上の値が外れ値となる。

データの中で77以上なのは99だけなので、外れ値は99である。

生徒
生徒

99だけポツンと離れてる!基準で計算するとちゃんと外れ値って分かるんですね。

まとめ:箱ひげ図と四分位数

さん
さん

さて、今回のまとめだよ!

まとめ:箱ひげ図と四分位数

範囲 = 最大値 − 最小値。

四分位数 \(Q_1, Q_2, Q_3\) は、データを小さい順に並べて4等分する位置の値(\(Q_2\) は中央値)。

四分位範囲 = \(Q_3 – Q_1\)、四分位偏差 = \(\frac{Q_3 – Q_1}{2}\)。

箱ひげ図は5数要約を図にしたもの。箱の長さが四分位範囲、ひげの端が最小値・最大値。

外れ値の判定の一例:\(Q_1 – 1.5 \times (\text{四分位範囲})\) 以下、または \(Q_3 + 1.5 \times (\text{四分位範囲})\) 以上の値。

生徒
生徒

散らばりの表し方と箱ひげ図、バッチリ分かりました!また一つ賢くなった!

↑前の記事↑

↑次の記事↑

コメント