高校数学まとめノート No.11 【発展】最小二乗法 2019年度・同志社大より

2021年1月6日

最小2乗法というものがあります。理系生で実験をすると必ずといっていい程この計算処理をすることになります。

これは、バラバラに出てきた実験データに、できるだけ近い直線を求めるものです。次の問題を実際に見てみてください。次の問題で求めた\(a,b\)を\(y=ax+b\)に代入したものが、バラバラに分布したデータに近くなるような直線です。

これを扱った問題が、2019年度・同志社大にありました。数学ⅡBの分野を含みますが、興味がある人はぜひ解いてみてください。

問題

以下の空欄を埋めよ。

※注:空欄には式が入る。

\(n\)個の2変量データ\( (x_i,y_i)(i=1,2,3,・・・,n)\)がある。\(n\geq 2\)とし、\(x_i(i=1,2,・・・,n)\)は互いに異なるとする。

\(x_i\)と\(y_i\)に対して、関数\(y=ax+b\)(\(a,b\)は実数の定数)より得られる値\(ax_i+b\)と\(y_i\)との差の2乗和を\(n\)で割った

\(\displaystyle R=\frac{1}{n}\sum_{i=1}^n \{y_i-(ax_i+b)\}^2\)

を最小にする\(a,b\)を求めることにする。

\(R\)を\(a\)と\(b\)について展開した展開式の各項の係数を、\(x\)の平均値\( \overline{x}\)と分散\(s_x^2\)、\(y\)の平均値\( \overline{y}\)と分散\(s_y^2\)および\(x,y\)の共分散\(s_{xy}\)を用いて表すと、

\(R=b^2+2\overline{x}ab+(\fbox{ ア })a^2-2\overline{y}b-2(\fbox{ イ })a+\fbox{ ウ }\)

となる。

この式の右辺を、まず\(b\)について平方完成し、次に\(a\)について平方完成することにより、\(R\)を最小にする\(a,b\)は\( \overline{x},s_x^2,s_{xy}\)を用いて、\(a=\fbox{ エ }\),\(b=\fbox{ オ }\)と求めることができる。

 \(\displaystyle R=\frac{1}{n}\sum_{i=1}^n\{y_i-(ax_i+b)\}^2\)

\(\displaystyle =\frac{1}{n}\sum_{i=1}^n(y_i^2+a^2x_i^2+b^2-2ax_iy_i+2abx_i-2by_i)\)

ここで、\(\displaystyle \frac{1}{n}\sum_{i=1}^n y_i^2\)は、変量\(y^2\)の平均値\(\overline{y^2}\)を表す。

同様に、

\(\displaystyle \frac{1}{n}\sum_{i=1}^n x_i^2=\overline{x^2}\)

\(\displaystyle \frac{1}{n}\sum_{i=1}^nx_iy_i=\overline{xy}\)

\(\displaystyle \frac{1}{n}\sum_{i=1}^nx_i=\overline{x}\)

\(\displaystyle \frac{1}{n}\sum_{i=1}^ny_i=\overline{y}\)

となる。したがって、

\(\displaystyle R=\frac{1}{n}\sum_{i=1}^n(y_i^2+a^2x_i^2+b^2-2ax_iy_i+2abx_i-2by_i)\)

より、

\(R=\overline{y^2}+a^2\overline{x^2}+b^2・\frac{1}{n}\sum_{i=1}^n1-2a\overline{xy}+2ab\overline{x}-2b\overline{y}\)

分散\(s_x^2,s_y^2\)と共分散\(s_{xy}\)について、

\(s_x^2=\overline{x^2}-(\overline{x})^2\)

\(s_y^2=\overline{y^2}-(\overline{y})^2\)

\(s_{xy}=\overline{xy}-\overline{x}・\overline{y}\)

が成り立つ。したがって、

\(\overline{x^2}=s_x^2+(\overline{x})^2\)

\(\overline{y^2}=s_y^2+(\overline{y})^2\)

\(\overline{xy}=s_{xy}+\overline{x}・\overline{y}\)

\(R=s_y^2+(\overline{y})^2+a^2\{s_x^2+(\overline{x})^2\}+b^2-2a(s_{xy}+\overline{x}・\overline{y})+2ab\overline{x}-2b\overline{y} \)

\(=b^2+2\overline{x}ab+s_x^2+(\overline{x})^2a^2-2\overline{y}b-2(s_{xy}+\overline{x}・\overline{y})a+s_y^2+(\overline{y})^2 \)

解答

ア:\(s_x^2+(\overline{x})^2\)

イ:\(s_{xy}+\overline{x}・\overline{y}\)

ウ:\(s_y^2+(\overline{y})^2\)

以下、簡単のため

\(k=\overline{x}\), \(l=\overline{y}\), \(p=s_x^2\), \(q=s_y^2\), \(r=s_{xy}\)とおく。

\(R=b^2+2kab+(p+k^2)a^2-2lb-2(r+kl)a+(q+l^2)\)

\(=b^2-2(l-ak)b+(p+k^2)a^2-2(r+kl)a+(q+l^2)\)

となる。これを\(b\)について平方完成すると、

\(R=\{b-(l-ak)\}^2-(l-ak)^2+(p+k^2)a^2-2(r+kl)a+(q+l^2)\)

\(=\{b-(l-ak)\}^2+pa^2-2ra+q\)

となり、さらに\(a\)について平方完成すると、

\(\displaystyle R=\{b-(l-ak)\}^2+p\left(a-\frac{r}{p}\right)^2-\frac{r^2}{p}+q\)

となる。

よって、\(R\)は

\(\displaystyle a=\frac{r}{p}\)かつ\(b=l-ak\)

すなわち、

\(\displaystyle a=\frac{r}{p}\)かつ\(\displaystyle b=l-\frac{r}{p}k\)

のとき最小となる。

以上より、求める\(a,b\)の値は

\(\displaystyle a=\frac{s_{xy}}{s_x^2} \)

\(\displaystyle b=\overline{y}-\frac{s_{xy}}{s_x^2}\overline{x} \)

解答

エ:\(\displaystyle \frac{s_{xy}}{s_x^2}\)

オ:\(\displaystyle \overline{y}-\frac{s_{xy}}{s_x^2}\overline{x} \)

本問はデータの分析の問題。大学生になると実験レポート作成で苦しめられる「最小2乗法」をテーマにしているなかなかおもしろい問題です。この問題はデータの分析においてもいよいよ難問が出題されるようになってきたということを示しています。データの分析はもはやセンター試験だけで問われるものではなく2次試験でこのような難問が出題される分野となりつつあるのです。