Lesson 8-1

回帰分析

資料による解説を理解した後、以下の手順にしたがって回帰分析を行なう。

小テストはゴムの自然長を変え、1N の力で引っ張った時の長さのデータを解析した。その際、自然長と伸びた後の長さの散布図を書くと明らかに線形の関係が認められ散布図に近似曲線として1次関数を追加すると非常にデータを再現することが確認できた。

このような近似関数を求めることにより、測定していない自然長のゴムでも伸びた後の長さを予想できたりするようになる。

科学は、このように実験を行ない、その事象の原因と結果を結びつけることを基本とする。言い替えると、事象 A と事象 B の間の因果関係を明らかにすることである。

ところが、因果関係を明らかにすることは容易ではない。それどころか、ある結果をもたらす要因が明らかではないことも多い。

科学では因果関係を明らかにすることを目的とするが、因果関係を調べるためには大きく分けて2つの方法がある。数学の命題の証明を思い出してみると良いかも知れない...

数学の命題とは異なり、肯定するためには、2つ(以上の) 事象の関連を調べる必要があり、統計処理を用いた相関関係の検証が必要となる。

相関関係とは因果関係と異なり2つの事象の間に原因結果のつながりの有無については言及しない。したがって、相関関係が認められた事象 AB は次のように分類される。

このように因果関係と相関関係は異なるものであるということを認識した上で相関関係について学習をする

相関関係を確かめるためには、結果の事象を表す変数(従属変数という)と原因を表す変数(独立変数という)の間に一定の規則があることを仮定し、その仮定が正しいか否かの判断を行なう必要がある。

その判断を行なう方法の一つに回帰分析がある。回帰分析とは、従属変数が独立変数からなる計算式(多くの場合は線形)で表されると仮定し、その計算式に現れるパラメタを決定する分析方法である。

従属変数は常に一つだが、独立変数は単数でも複数でも良く、一つの場合は特に「単回帰」、複数の場合「重回帰」と呼ぶ事もある。また求められた計算式を回帰式と呼ぶ。

一般に、回帰式は線形であるが、パラメタ変換(対数をとる、指数をとる、逆数をとるなど)を行なって線形に帰着できる、指数関数や対数関数への拡張は非常に単純である。

小テストと同様な実験を再度行なったことして、新たなデータを分析してみよう。測定されたデータの組を (x_i, y_i)と表す事とする。これらのデータを「もっともうまく説明する」一次関数を求めるためには

とおいた上で、「もっともうまく説明する」 a と b を決定するという事になる。

一般的な回帰分析では、最小二乗法という、目的直線とデータポイントのずれの二乗を最小にするような方法が用いられる。

つまり x_iが与えられた際の予想される値 (a x_i + b) と実際に測定された値 y_i の差の二乗和を最小にするようなパラメタ a, b を決定するのである。

最小にするべきものを具体的に書き下すと

Σ_i {y_i - (a x_i - b)}²

となり、この値を最小とする一次関数の係数 a と切片 b を求めるのである。この式に現れる項のうち、すべての x_i および y_i は既知であるので、この式に現れる未知のものは a, b だけであることに注意する。

したがって、

F(a, b) = Σ_i {y_i - (a x_i - b)}²

と a, b の関数として定義し、F(a, b) の極小値を探索する事になる。

高校数学で学んだように連続関数の極小値の探索するには、微分係数が 0 になる点を探せば良いのであった。

したがって、極小点では、以下の2式が成立する。

方程式 (2) より

Σ_i y_i = a Σ_i x_i + n b

相関係数相関係数は