残差平方和とは?求め方やエクセルでの計算方法についてわかりやすく解説!

統計学基礎

残差平方和とは?

残差平方和は、回帰分析に用いられる指標・変数です。

残差平方和を理解するためには、まず「残差(Residual)」という概念を押さえておく必要があります。

また、そもそも平方和とは?を解説したこちらも参考にしてみてください!

残差とは?

残差とは、観測された実際の値と、回帰モデルによって予測された値の差を指します。

数式で表すと、

$$e_i = y_i – \hat{y}_i$$

ここで、

  • \(y_i\):観測値(実際のデータ)、
  • \(\hat{y_i}\)は回帰モデルによる予測値、
  • \(e_i\)は残差(誤差)。

各データポイントに対して、この残差が求められます。

残差平方和の定義

残差平方和(Residual Sum of Squares)は、すべての残差の二乗和を指します。

簡単に言うと、予測値と実測値の差を二乗し、足し合わせたものです。

これを数式に表すと、

$$SS_{R} = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2$$

予測値と実測値の差を合計したものであり、これは「モデルの予測した値にどれだけ誤差があるか」を示す指標です。

残差平方和の値が小さいほど、モデルの予測が実測値に近いことを意味します。

一般的に\(RSS\)、\(SS_{R}\)、\(SSR\)などと表現されます(書籍や教科書によって異なります)。

残差平方和の求め方

残差平方和を求める手順は以下の通りです。

1. 今回使うサンプルデータ

例えば、以下のようなデータがあるとします。

番号実測値予測値
1109
21514
3810
41211
51413

2. 残差を計算

各データポイントごとに残差を求めます。

また、求めた残差を二乗します。

番号実測値予測値残差残差の二乗
110911
2151411
3810-24
4121111
5141311

3. 残差の二乗を合計

上の例では、

$$SS_{res} = 1 + 1 + 4 + 1 + 1 = 8$$

となり、残差平方和は8であることが分かりました。

エクセルでの計算方法

エクセルを使って残差平方和を計算する方法を紹介します。

1. データを入力

エクセルのセルに実測値\(y_i\)と予測値\(\hat{y_i}\)を入力します。

行\列A列B列C列D列E列
1番号実測値予測値残差残差の二乗
21109=B2-C2=D2^2
321514=B3-C3=D3^2
43810=B4-C4=D4^2
541211=B5-C5=D5^2
651413=B6-C6=D6^2

2. 残差の平方和を計算

最後に、残差の二乗の合計を求めます。

エクセルの SUM 関数を使い、

=SUM(E2:E6)

と入力すると、残差平方和が求められます。

まとめ

残差平方和は回帰分析において重要な指標であり、決定係数や最小二乗法とも関係しています。

統計学をより深く理解するためには、基礎であるこれらの概念をバカにせず、しっかりと押さえておくことが大切です。

実際に手を動かして、身近なデータにおける残差平方和を算出してみましょう!

データサイエンス.jpでは、データサイエンスや統計学をわかりやすく学べるようなプラットフォームを提供しています。機械学習やデータ分析など、実用的でトピックも扱っていますので、ぜひ他の記事もご覧ください!