たまりば

地域と私・始めの一歩塾 地域と私・始めの一歩塾三鷹市 三鷹市

2018年01月24日

データの分析。分散とは何か。


「データの分析」、本日は、分散と標準偏差について
データを分析する場合、データの散らばり具合の把握は重要な課題です。
前回は箱ひげ図で散らばりの様子を見ましたが、どのように散らばっているかを数値化することはできないでしょうか?
グラフや図を見て分析するのではなく、1つの数字で単純に比較できるようにならないでしょうか。

そこで、ちょっとおバカさんだけどひらめきのある人が、こんなことを考えたとします。
「1つ1つの数値と平均値との差を出して、それを合計して、データの個数で割ったら、平均してどれだけ散らばっているか、わかんじゃね?」
ふむ?
ではやってみましょう。

例えば、10人の漢字テストの得点が、
3点、3点、4点、4点、5点、5点、6点、6点、7点、7点だったとします。
この平均点は、合計を10で割ればよいのですから、
1/10(3+3+4+4+5+5+6+6+7+7)=5
となります。
では、それぞれのデータと平均点5点との差を足してみましょう。
(3-5)+(3-5)+(4-5)+(4-5)+(5-5)+(5-5)+(6-5)+(6-5)+(7-5)+(7-5)
=-2-2-1-1+0+0+1+1+2+2
=0

あれ?
0になっちゃった。
(*_*)

これは考えたら当然のことで、平均値というのは、そうなるように出来ています。
でも、「平均値との差」という発想は悪くないですよね。
この平均値との差のことを「偏差」と言います。
プラス・マイナスがあるから、合計0になってしまうけれど、これが、プラス・マイナスに別れない値、すなわち全てプラスの値になるのなら、意味があるのでは?
どうすれば、そうなるでしょう。

そうだ。
2乗すれば。
(*'▽')
2乗した値は、実数ならば必ず正の数になります。
そして、2乗しても、数値の大小関係は変わりません。
この数値で、データの散らばり方を比べることができます。

上の例で言えば、
(3-5)2+(3-5)2+(4-5)2+(4-5)2+(5-5)2+(5-5)2+(6-5)2+(6-5)2+(7-5)2+(7-5)2
これを、個数の10で割れば、それは、他のデータと比較できる数値となるでしょう。
この数値、すなわち偏差の2乗の和の平均値を「分散」と言います。

ところで、これは2乗した値なので、どうせなら、1乗の値に戻したい。
すなわち、分散の正の平方根を出せば、比較するのに便利な数値となるでしょう。
この分散の正の平方根を「標準偏差」と言います。

ゆっくり筋道を追って考えれば、それほど難しくはないです。
でも、初めて聞くと、用語の意味と計算方法がイメージ的に一致しないこともあって、かなり混乱すると思います。
( 一一)
わかるんだけど、何だか違和感がある。
わかるんだけど、何だか腑に落ちない。
そんな感じでしょうか。

しかも、分散の求め方は、もう1つあり、それは最初の公式を変形しただけのものなのですが、非常に紛らわしいです。
(分散)=(数値の2乗の和の平均)-(平均の2乗)

「2乗の和の平均」と「平均の2乗」。
似ている!
(+_+)

公式が2本あることで、
「1本だけでいい。1本しか覚えない」
とギブアップする高校生もいます。
また、高校によっては、最初の公式しか教えないところもあります。
そんなに難しいことではないので、これも何とか2通り理解すると、その場その場で使い分けできて便利です。

  


  • Posted by セギ at 11:35Comments(0)算数・数学