2018年01月12日
データの分析。箱ひげ図の読み取り。
さて、「データの分析」の続きです。
データは分析しなくては意味がありません。
では、どう分析するか。
大切なのは、他のデータとの比較です。
比較をするために代表値という概念があります。
そのデータを代表する値です。
代表値を用いて、他のデータと比較をします。
例えば平均値。
データは分析しなくては意味がありません。
では、どう分析するか。
大切なのは、他のデータとの比較です。
比較をするために代表値という概念があります。
そのデータを代表する値です。
代表値を用いて、他のデータと比較をします。
例えば平均値。
10点満点のテストの得点についての2組のデータについて考えてみましょう。
Aグループの得点を小さい順に並べると、
0点、6点、7点、8点、8点、8点、8点、9点、9点、10点。
Bグループの得点を小さい順に並べると、
6点、6点、6点、7点、7点、7点、8点、8点、9点、9点。
Aグループの平均値は、7.3点。
Bグループの平均値も、7.3点。
平均値は同じですね。
しかし、この平均値だけを使って、「AグループとBグループの得点は同じだ」と言っていいのでしょうか?
Aグループの平均値は、たった1人の0点のせいで下がっています。
個々のデータを見れば、全体に得点が高いのはAグループです。
平均値だけで語れることには限界があるのは、こうしたデータからわかります。
他に、そのデータを説明する代表値はないでしょうか?
最頻値(モード)。
これは、そのデータの中で最も多く出てくる数値です。
度数分布表の中では、最も度数の多い階級の階級値を指します。
Aグループの最頻値は8点。
Bグループの最頻値は7点。
AグループとBグループの得点の傾向が平均値よりも伝わってくる数値です。
あるいは、中央値(メジアン)。
これは、そのデータを小さい順に並べたとき(大きい順でも同じです)の中央の値です。
データの個数が奇数個の場合は、まさに中央の値を出します。
データの個数が偶数個の場合、中央の2つの値の平均値を中央値とします。
これも、Aグループは8点。
Bグループは7点です。
少し傾向がわかるのですが、もっとデータの様子を示す方法は他にないでしょうか?
データのばらつきがわかると、より正確にデータを示すことができるのではないでしょうか。
この「ばらつき」を散布度といいます。
まずは単純に、最大値と最小値を見てみます。
最大値-最小値で、ごく単純に散らばりを見ることができます。
「最大値-最小値」、これを「範囲」(レンジ)と言います。
Aグループの範囲は、10-0=10(点)
Bグループの範囲は、9-6=3(点)
範囲が広いほど、ばらつきは大きいと、言えないことはないです。
平均点や最頻値とあわせてそれが示されていれば、データの分布を推測することはできます。
しかし、この範囲の広さは、Aグループのデータの本質を示していないような気もします。
うーん・・・。( 一一)
ここで、四分位数という考え方が登場します。
データを小さい順に並べて、4等分する位置にあるデータを小さいほうから順に、Q1、Q2、Q3、とします。(半角数字は実際には小さく書きます)
これを順に第1四分位数(Q1)、第2四分位数(Q2=中央値)、第3四分位数(Q3)と呼びます。
中央値のときと同様、データが偶数個のときは、前後の2つのデータの平均をその数値とします。
そして、Q3とQ1の差を四分位範囲。
また、四分位範囲を2で割ったものを四分位偏差と呼びます。
Aグループは、Q1=7点、Q2=8点、Q3=9点。
Bグループは、Q1=6点、Q2=7.5点、Q3=8点。
これで分布の様子がかなり見えてきました。
Aグループの中で特殊な数値であるにも関わらず平均値や範囲に大きく影響していた0点という1つのデータがほとんど影響していないのが見てとれます。
これが実際のテスト得点のデータである場合、このただ1人の0点というデータをどうとらえるかはまた別の難しい問題と思います。
そこを切り捨てるわけにはいきません。
教育的観点からは、そこに、このAグループの本質が隠れているかもしれないからです。
しかし、この1人の0点と、残る9人とは本当に何の関係もない場合も考えられます。
このただ1人の0点のために、残る9人に対して「おまえらは平均点が低い。努力が足りない」等の叱責をするのだとしたら、それはおかしな話です。
AグループはBグループと比べて、実は高めの得点分布なのだということを示すことができるのが、上の四分位数です。
さて、この四分位数と四分位範囲、さらに最小値と最大値までを1つの図に示したのが、箱ひげ図です。
箱ひげ図は縦書きも横書きもありますが、今回は横書きで説明しましょう。
まず、目盛りを描きます。
その少し上に、最小値、Q1、Q2(中央値)、Q3、最大値を記録していきます。
Q1、Q2、Q3を示す縦の線分を少し長く描きます。
描いた3本の縦の線分を結ぶ横の線分を描き、長方形にします。
最小値・最大値とその長方形とを線分で結びます。
と言葉でいくら説明してもよく伝わらないでしょうか。
実際の図を示しましょう。
手書きして、それをスマホで撮影したので、全体に斜めになっていて申し訳ありません。
一番下の矢印のついた線は、実際には目盛りです。
オレンジ色で書き込んだのは説明で、実際の箱ひげ図には記入しないものです。
次に、AグループとBグループを箱ひげ図にしたものが、下図です。
さらに斜めになってしまっていて申し訳ありません。
定規がないのに急いで描いたら、こんなふうになってしまいましたが、概要は伝わると思います。
Aグループのほうが明らかに高得点に分布していることが見てとれます。
箱ひげ図の読み取りで誤解しやすいのは、横の線分が長いと、そこに多くのデータがあるような気がするのですが、全く逆で、線分が長いということは、そこはデータが少ないことを意味します。
全てのデータを小さい順に並べて四等分して求めているのがQ1、Q2、Q3です。
最小値からQ1までの幅には、全てのデータの四分の一が入っています。
その幅が長いということは、そこはデータがまばらに分布していることを示しています。
だから、Aグループは低い得点に人があまりいないことがわかります。
ここが、説明していて高校生になかなか伝わらないところです。
「長いものは大きいもの」という思いこみで図を見てしまうことから脱却できないようなのです。
箱ひげ図の読み取りのコツはそこに集約されています。
もう一度説明します。
最小値、Q1、Q2、Q3、最大値は、データを小さい順に並べて単純に四等分したときに表れる数値です。
最小値とQ1との間、Q2とQ3の間、Q3と最大値との間には、同じ数のデータが存在しています。
たから、幅が長いところは、データはまばらに分布しています。
長方形の部分も同じことです。
長方形の横の長さが長いところは、データはまばらに分布しています。
横幅の短い、ぎゅっと詰まった長方形には、データもぎゅっと詰まって存在しているのです。
箱ひげ図よりも度数分布をそのまま示したヒストグラム(柱状グラフ)のほうが見たまますぐに散らばりを実感できるかもしれません。
箱ひげ図は、読み取り能力を要求する図です。
しかし、読み取り方を理解したら、箱ひげ図からヒストグラムの概形をイメージすることができます。
都立の中高一貫校では、成績データにこの箱ひげ図を用いる学校もあります。
いずれ、それが当たり前の時代が来るかもしれません。
慣れれば多くのことが読み取れる箱ひげ図。
学ぶ価値のある内容だと思います。
学ぶ価値のある内容だと思います。