【数学Ⅰ】データの分析02:代表値(平均値・中央値・最頻値)

データの分析
さん
さん

今日の板書はこれ!

① 代表値・平均値

代表値:データ全体の特徴を1つの数値だけで表すとき、その数値を代表値という。


平均値:\(n\) 個のデータの値を \(x_1, x_2, x_3, \ldots, x_n\) とするとき、

\[\bar{x} = \frac{(\text{データの値の合計})}{(\text{データの個数})}\]

\[\bar{x} = \frac{x_1 + x_2 + x_3 + \cdots + x_n}{n}\]

※ 外れ値に影響されやすい

例題1

次のデータは、ある生徒の5教科のテストの得点である。このデータの平均値を求めよ。
72, 65, 88, 45, 76(点)


▼ 解答

\[\frac{72+65+88+45+76}{5} = \frac{346}{5} = 69.2 \text{(点)}\]

② 中央値

中央値:小さい順に並べたときの中央の値。

・データの個数が 奇数個 → ちょうど真ん中の値

・データの個数が 偶数個 → 真ん中の2つの値の平均値

※ 外れ値に影響されにくい

例題2

ある商品の価格を、A町の5店舗と、B町の6店舗で調査した。それぞれの中央値を求めよ。
A町:260, 280, 280, 300, 270(円)
B町:280, 280, 260, 100, 280, 270(円)


▼ 解答

A町の価格を小さい順に並べると 260, 270, 280, 280, 300。よって中央値は 280(円)

B町の価格を小さい順に並べると 100, 260, 270, 280, 280, 280。

よって中央値は \(\frac{270+280}{2} = 275\)(円)。

③ 最頻値

最頻値:最も個数が多い値。

※ 1つの個数が少ない場合や、値の分け方が定まっていない場合は使えない。

度数分布表から求める場合:度数が最も大きい階級の階級値 が最頻値。

例題3

下の表は、男子100人の靴のサイズの度数分布表である。最頻値を求めよ。


▼ 解答

サイズ(cm)24.024.525.025.526.026.527.0
人数311182332103100

度数が最も大きいのは32人の 26.0(cm)。よって最頻値は 26.0(cm)

生徒
生徒

もっと詳しく願いします!!

現役教員として数学を教えている「さん」と申します。

人より勉強に時間がかかる」と感じていませんか?私の学校にも、同じ悩みを抱えて苦しんでる生徒がたくさんいます。

「教科書や参考書の内容がわからなくて、読むのに時間がかかる」「解答の意味が理解できず、勉強が進まない」教科書や参考書の内容を理解するには、「自分なりに噛み砕いて考える力」が必要です。

でも大丈夫!このサイトでは、私が受けた質問や、つまずきポイントをもとに、わかりやすく解説していきます。

意味から理解し、噛み砕き方をマスターしましょう!!

代表値ってなに?

さん
さん

代表値というのは、データ全体の特徴を「1つの数値だけ」で表したいときに使う値のことだよ。

生徒
生徒

1つの数値だけ…?

さん
さん

例えば「3組のテストはまあまあできた」と伝えるとき、40人全員の点数を読み上げるより「平均は72点だった」と言う方が伝わるよね。その72点が代表値。

代表値の3種類

① 平均値:データの合計を個数で割った値

② 中央値:データを小さい順に並べたときの中央の値

③ 最頻値:データの中で最も個数が多い値

さん
さん

この記事ではこの3つの代表値について、求め方と特徴をひとつずつ見ていくよ。

① 平均値の求め方

さん
さん

まずは一番おなじみの平均値から。公式はこれ。

平均値の公式

\(n\) 個のデータの値を \(x_1, x_2, x_3, \ldots, x_n\) とするとき、

\[\bar{x} = \frac{x_1 + x_2 + x_3 + \cdots + x_n}{n}\]

\[\bar{x} = \frac{(\text{データの合計})}{(\text{データの個数})}\]

生徒
生徒

合計を個数で割るだけ。知ってる!

例題1:5教科のテストの平均値

例題1

次のデータは、ある生徒の5教科のテストの得点である。このデータの平均値を求めよ。
72, 65, 88, 45, 76(点)

さん
さん

5つの値の合計を、データの個数 5 で割るだけ。

5つの値の合計は、\(72+65+88+45+76 = 346\) (点)です。

それをデータの個数 5 で割ると、平均値は \(\bar{x} = \frac{346}{5} = 69.2\)(点)になります。

生徒
生徒

シンプル!

平均値の特徴:外れ値に弱い

平均値の特徴

外れ値(極端に大きい/小さい値)に影響されやすい

1つだけ飛び抜けた値があると、平均値はその外れ値に強く引っ張られる。

さん
さん

例えば9人の年収が400万円で、1人だけ1億円の人が混じっていると、10人の平均年収は1360万円になってしまう。

生徒
生徒

平均1360万円って言われても、ふつうの人は400万円なんだから実態と違いますね。

さん
さん

そう。平均値だけだと実態を見間違える場合がある。だから他の代表値も知っておく必要があるんだ。

② 中央値の求め方

さん
さん

次は中央値。データを小さい順に並べたときの、ちょうど真ん中の値のことだよ。

中央値の求め方

データを 小さい順 に並べたとき、

・データの個数が 奇数個 の場合:ちょうど真ん中の値

・データの個数が 偶数個 の場合:真ん中の2つの値の平均値

例題2:商品の価格の中央値

例題2

ある商品の価格を、A町の5店舗と、B町の6店舗で調査した。それぞれの中央値を求めよ。
A町:260, 280, 280, 300, 270(円)
B町:280, 280, 260, 100, 280, 270(円)

(1) A町(5店舗・奇数個)

さん
さん

A町は5店舗で奇数個なので、小さい順に並べて真ん中の値を1つ取れば終わり。

A町の価格を小さい順に並べると、260, 270, 280, 280, 300。

真ん中の値は3番目の 280 なので、中央値は 280(円) です。

(2) B町(6店舗・偶数個)

さん
さん

B町は6店舗で偶数個なので、真ん中の2つの値の平均を取ろう。

B町の価格を小さい順に並べると、100, 260, 270, 280, 280, 280。

真ん中の2つの値は3番目と4番目の 270 と 280 なので、中央値は \(\frac{270+280}{2} = 275\)(円)になります。

生徒
生徒

B町、100円のお店だけ妙に安いですね…。

中央値の特徴:外れ値に強い

中央値の特徴

外れ値に影響されにくい

B町の例で「100円」という外れ値があっても、中央値は275円と「だいたいの相場」に近い値が得られる。

さん
さん

ちなみにB町の平均値を計算すると \(\frac{100+260+270+280+280+280}{6} = 245\)(円)。

さん
さん

「100円のお店」のせいで平均値が引き下げられている。「だいたいの相場」を表しているのは平均値245円より中央値275円の方だよね。

さん
さん

外れ値があるデータでは、中央値の方が代表値として使いやすい。

③ 最頻値の求め方

さん
さん

最後は最頻値。データの中で最も個数が多い値のことだよ。

最頻値の求め方

そのままの値で求める場合:データの中で最も個数が多い値が最頻値

度数分布表から求める場合:度数が最も大きい階級の 階級値 が最頻値

※ それぞれの個数が少ない場合や、値の分け方が定まっていない場合は使えない

例題3:100人の靴のサイズの最頻値

例題3

下の表は、男子100人の靴のサイズの度数分布表である。最頻値を求めよ。

サイズ(cm)24.024.525.025.526.026.527.0
人数311182332103100
さん
さん

度数(人数)が一番大きいのはどこ?

生徒
生徒

32人の 26.0cm

さん
さん

そう。よって最頻値は 26.0(cm)

さん
さん

最頻値は「最も多い人が該当する値」だから、靴屋さんなら「26.0cmの在庫を多めに用意しよう」みたいに使えるんだ。

教科書の練習問題で確認しよう

練習5:A町B町の代表値はどちらが適切?

例題5

例題2のA町とB町のそれぞれの調査で得られたデータについて、平均値を求めよ。また、求めた平均値と中央値を比較し、代表値としてどちらが適していると考えられるか、自分の考えをその理由とともに述べよ。

さん
さん

まずは平均値を計算してみよう。

A町の平均値は \(\frac{260+280+280+300+270}{5} = \frac{1390}{5} = 278\)(円)。

B町の平均値は \(\frac{280+280+260+100+280+270}{6} = \frac{1470}{6} = 245\)(円)。

考察

A町:平均値 278円、中央値 280円 → ほぼ同じ。データに大きな偏りがないので、どちらも代表値として適している。

B町:平均値 245円、中央値 275円 → 大きく差がある。100円という外れ値が平均値を引き下げているため、ふつうの店の価格感を表すには 中央値(275円) の方が適している。

生徒
生徒

なるほど、データの形によって使い分けるんだね。

練習6:握力の中央値

例題6

次のデータは、8人の生徒の右手の握力を測った結果である。その中央値を求めよ。
38, 56, 43, 41, 35, 49, 51, 31(kg)

さん
さん

8人なので偶数個。小さい順に並べて真ん中2つの平均を取ろう。

小さい順に並べると、31, 35, 38, 41, 43, 49, 51, 56。

真ん中の2つは4番目と5番目の 41 と 43 なので、中央値は \(\frac{41+43}{2} = 42\)(kg)になります。

練習7:東京の最高気温の最頻値

例題7

次の度数分布表は、東京のある月における最高気温の記録である。この度数分布表における最頻値を求めよ。

階級(℃)階級値(℃)度数(日)
15以上 18未満16.54
18 ~ 2119.56
21 ~ 2422.510
24 ~ 2725.59
27 ~ 3028.51
30
さん
さん

度数(日数)が最も多い階級はどれ?

生徒
生徒

「21以上24未満」が10日で一番多い!

さん
さん

そう。その階級の 階級値 が最頻値になる。階級値は階級の両端の平均だから、21 と 24 の平均で \(\frac{21+24}{2} = 22.5\)(℃)。よって最頻値は 22.5(℃)

まとめ:3つの代表値の使い分け

さん
さん

さて、今回のまとめだよ!

代表値の使い分け

平均値:合計 ÷ 個数。外れ値に弱い

中央値:小さい順に並べて真ん中。奇数個 = 真ん中/偶数個 = 真ん中2つの平均。外れ値に強い

最頻値:最も多い値。度数分布表では度数最大の階級値。


使い分け:外れ値がなければ平均値、外れ値があれば中央値、最も多いものを知りたいなら最頻値。

生徒
生徒

また一つ賢くなった!

さん
さん

次の記事では「箱ひげ図と四分位数」を扱うよ。お楽しみに。

↑前の記事↑

(次の記事は準備中)

コメント