たまりば

地域と私・始めの一歩塾 地域と私・始めの一歩塾三鷹市 三鷹市

2018年02月01日

データの分析。共分散と相関係数。


今回も、「データの分析」の学習です。
今回のメインは「散布図と共分散」。

散布図は、簡単です。
2種類のデータに相関関係があるかどうかを見たいときに描くグラフです。

例えば、定期テストの国語の得点と数学の得点。
国語の得点が高い子ほど、数学も得点が高い。
もしそういう傾向があるのならば、それは「正の相関関係がある」と言います。
逆に、国語の得点が高い子ほど、数学の得点は低い。
そういう傾向があるならば、それは「負の相関関係がある」と言います。

1人1人の国語の得点をx、数学の得点をyとして、座標平面上に点を打っていきます。
それが「散布図」です。
データの1つ1つが点として打ち込まれます。
夜空の星のように。
それが天の川のように帯になって集まり、全体に右上がりの傾向が見られたら、
「正の相関関係がある」
点の集合が全体に右下がりの傾向が見られたら、
「負の相関関係がある」
と言います。
バラバラに散っているならば、
「相関関係はない」
となります。

ここまでは易しいですね。
(*'▽')

で、例によって、この関係を数値で表そうとする人が現れるのです。
・・・・・余計なことを。(笑)
高校生からも、
「もう散布図でいいじゃないですか」
と言われてしまうところです。
私もそう思います。
でも、数値にしたいのです。
数学ですから。
学問ですから。

上の画像の、私の板書をご覧ください。
座標平面を、xの平均とyの平均とで区切り、4つの部分に分割してあります。
4つの部分のうち、原点に近い左下の部分は、xの値もyの値も平均より小さいデータが集まるところです。
すなわち、偏差(そのデータの値-平均)は、どちらも負の数。
左上の部分は、xの偏差は負の数。yの偏差は正の数。
右下の部分は、xの偏差は正の数。yの偏差は負の数。
右上の部分は、どちらの偏差も正の数。

ここで、正の相関関係かあるとき、散布図では、上の画像で赤の斜線で塗った、左下と右上の部分に点が多く打たれているはずです。
負の相関関係があるとき、散布図では、上の画像で青の斜線で塗った、左上と右下の部分に点が多く打たれているでしょう。
この赤の部分に共通点はないか?
青い部分に共通点はないか?

あるんです。
それぞれの偏差は正だったり負だったりバラバラですが、偏差の積は?
正×正=正
負×負=正
赤くぬられた左下と右上は、偏差の積はどちらも正の数になります。
正×負=負
負×正=負
青く塗られた左上と右下は、偏差の積はどちらも負の数になります。

すなわち、xとyの偏差の積によって、相関関係を示すことができます。
(xの偏差)×(yの偏差)>0 ならば、正の相関関係
(xの偏差)×(yの偏差)<0 ならば、負の相関関係
となります。

全体の傾向を見たいのですから、偏差の積の平均を出せばよいのです。
すなわち、全てのデータの偏差の積を足して、データの個数で割ります。
これによって、そのデータの全体の偏差の積が正の数であるか、負の数であるかがわかります。
それは、このデータ全体の傾向が、正の相関関係であるか、負の相関関係であるかを示す数値となるでしょう。
この数値を「共分散」と言います。
共分散を求める公式は、上の画像に書いた通りです。
共分散が正の数ならば、正の相関関係がある。
共分散が負の数ならば、負の相関関係がある。
共分散が0に近づくほど、相関関係が弱い。
ということが言えます。

とはいえ、これがまた高校生には不評です。
( ;∀;)
でも、おそらく言葉の意味の理解が追い付かないことが主な原因だと思います。
聞いたこともない単語が多すぎるのでしょう。
「共分散とは、偏差の積の平均」
単語のいちいちが何をどうすることか、頭の中を時間をかけて通さないと、よく意味がわからない。
そういうことだと思います。
時間はかかってもいいです。
じっくり理解を深めてください。


  


  • Posted by セギ at 12:49Comments(0)算数・数学