高校数学まとめノート No.10 データの比較 共分散と標準偏差

2021年1月6日

相関関係

👆POINT

2つの変数からなるデータにおいて、一方が増加するともう一方も増加するような傾向があるとき、正の相関があるといい、一方が増加するともう一方も減少するような傾向があるとき、負の相関があるという。どちらの関係性の傾向もないとき、相関関係はないという。

2つの変量からなるデータを平面上での度数分布表にまとめたものを相関表、平面上に散らばりを図示したものを散布図という。

僕は理系なので、統計学などは興味程度でしかかじっていません。なので、本格的なことは理系のことばっかりになってしまうのですが、実験でこの「相関関係」というのは重要になってきます。2つのデータを取ったところでなにも関係がないのなら、それらはもともと現象においても関係がないということになるからです。

ちょっと雑談

話はそれますが、理系の実験では5パーセント程度までのズレなら誤差と認めます。この5パーセントってけっこうでかいですよね。その誤差の計算をしなきゃいけなかったり、いい感じに実験結果は理論通り出てこないことがあります。だから僕は、理学部物理学科の学生なのに実験が大嫌いです。理学部生はみんな実験をやっていると思っている生徒がいますが、全然違います。勘違いしないでくださいね。

雑談は置いておいて、話を戻しましょう。

一方の値が増えるともう一方の値も増える場合、正の相関関係があるといいます。一方の値が増えるともう一方の値が減る場合は負の相関関係があるといいます。といわれてもイマイチな人も多いと思います。そこで散布図というものが存在するのです。

分かりやすいように、散布図上に一次関数を考えましょう。散布図の点が、一次関数に近いところ(ここでは説明だけですので、感覚的表現「近い」を使います。これを厳密に扱うには\(p\)値と呼ばれるものを計算します。)にデータが散らばっているとしましょう。このとき、その一次関数の傾きが正ならば「正の相関」、傾きが負ならば「負の相関」があるということになります

共分散

これらの相関関係を定量的に(=数値を用いて)表す方法を考えます。その方法が今から扱う共分散と相関係数。まずは共分散の定義から確認していきましょう。

👆POINT

2つの変量がある\(N\)個のデータを考える。それぞれの変量を、\( (x_1,y_1),~(x_2,y_2),~(x_3,y_3),~…(x_N,y_N)\)とし、それぞれの平均値を\(\overline{x},~\overline{y}\)で表す。

このとき、共分散\(s_{xy}\)を次のように定める。

\(\displaystyle s_{xy}=\frac{1}{N}\{(x_1-\overline{x})(y_1-\overline{y})+(x_2-\overline{x})(y_2-\overline{y})+\)

      \((x_3-\overline{x})(y_3-\overline{y})+…+(x_N-\overline{x})(y_N-\overline{y})\} \)

👆POINT

共分散の別の式

分散と同様、定義は上の式だが実際の計算では次の式が使える。

\(\displaystyle s_{xy}=\frac{1}{N}(x_1y_1+x_2y_2+x_3y_3+…+x_Ny_N)-\overline{x}・\overline{y}\)

さて、あと少しです。ここあたりからは、「分散」の応用になってきますので解説は軽く済ませます。ので、あとちょっと我慢してください。まず、共分散、これは分散の式を少し変えたものですね。

で、説明終わりでいいですか?さすがにそれは適当すぎるのでちょっと説明しましょう。

\( (x_k-\overline{x})^2=(x_k-\overline{x})(x_k-\overline{x})\)を\( (x_k-\overline{x})(y_k-\overline{y})\)に変える

はい、以上です。先ほど少し話した「dimension(次元)」は分散と同じですね。だから、分散に「共」がついて「共分散」というわけです。

相関係数

先ほどと同様、まずは相関係数の定義からいきましょう。

👆POINT

2つの変数\(x,~y\)について、標準偏差をそれぞれ\(s_x,~s_y\)とし、共分散を\(s_{xy}\)とする。このとき、相関係数\(r\)は次で与えられる。

\(\displaystyle r=\frac{s_{xy}}{s_xs_y}\)

相関係数\(r\)は必ず-1から1までの実数となり、\(r\)が1に近いほど正の相関が強く、-1に近いほど負の相関が強いことになる。

これは、「dimension(次元)」をゼロにしています。

まず、分母を見ましょう。\(x\)と\(y\)それぞれの標準偏差をかけています。標準偏差とは、データがよりバラバラになると大きくなるものでした。つまり、\(x\)と\(y\)それぞれのデータがよりバラバラになると分母が大きくなります。

分子を見ましょう。分子は共分散です。2つのデータの相関が強ければ強いほど、絶対値が大きな値になります。正の相関があれば大きな数になって、負の相関があれば小さな数になるわけです。

分母が大きくなる、すなわちそれぞれのデータがよりバラバラになって、さらに分子が大きくなる、すなわちデータの相関が大きくなるほど1に近づきます。負の相関が強く、-1に近づくのも同様に理解できますね。

お疲れ様でした。データの分析の分野はこれで一通りおしまいです。

最後に、最小二乗法について、過去の入試問題を使ってご紹介しますが、これは発展事項です。