残差平方和とは?
残差平方和は、回帰分析に用いられる指標・変数です。
残差平方和を理解するためには、まず「残差(Residual)」という概念を押さえておく必要があります。
また、そもそも平方和とは?を解説したこちらも参考にしてみてください!
残差とは?
残差とは、観測された実際の値と、回帰モデルによって予測された値の差を指します。
数式で表すと、
$$e_i = y_i – \hat{y}_i$$
ここで、
- \(y_i\):観測値(実際のデータ)、
- \(\hat{y_i}\)は回帰モデルによる予測値、
- \(e_i\)は残差(誤差)。
各データポイントに対して、この残差が求められます。
残差平方和の定義
残差平方和(Residual Sum of Squares)は、すべての残差の二乗和を指します。
簡単に言うと、予測値と実測値の差を二乗し、足し合わせたものです。
これを数式に表すと、
$$SS_{R} = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2$$
予測値と実測値の差を合計したものであり、これは「モデルの予測した値にどれだけ誤差があるか」を示す指標です。
残差平方和の値が小さいほど、モデルの予測が実測値に近いことを意味します。
一般的に\(RSS\)、\(SS_{R}\)、\(SSR\)などと表現されます(書籍や教科書によって異なります)。
残差平方和の求め方
残差平方和を求める手順は以下の通りです。
1. 今回使うサンプルデータ
例えば、以下のようなデータがあるとします。
番号 | 実測値 | 予測値 |
---|---|---|
1 | 10 | 9 |
2 | 15 | 14 |
3 | 8 | 10 |
4 | 12 | 11 |
5 | 14 | 13 |
2. 残差を計算
各データポイントごとに残差を求めます。
また、求めた残差を二乗します。
番号 | 実測値 | 予測値 | 残差 | 残差の二乗 |
---|---|---|---|---|
1 | 10 | 9 | 1 | 1 |
2 | 15 | 14 | 1 | 1 |
3 | 8 | 10 | -2 | 4 |
4 | 12 | 11 | 1 | 1 |
5 | 14 | 13 | 1 | 1 |
3. 残差の二乗を合計
上の例では、
$$SS_{res} = 1 + 1 + 4 + 1 + 1 = 8$$
となり、残差平方和は8であることが分かりました。
エクセルでの計算方法
エクセルを使って残差平方和を計算する方法を紹介します。
1. データを入力
エクセルのセルに実測値\(y_i\)と予測値\(\hat{y_i}\)を入力します。
行\列 | A列 | B列 | C列 | D列 | E列 |
1 | 番号 | 実測値 | 予測値 | 残差 | 残差の二乗 |
2 | 1 | 10 | 9 | =B2-C2 | =D2^2 |
3 | 2 | 15 | 14 | =B3-C3 | =D3^2 |
4 | 3 | 8 | 10 | =B4-C4 | =D4^2 |
5 | 4 | 12 | 11 | =B5-C5 | =D5^2 |
6 | 5 | 14 | 13 | =B6-C6 | =D6^2 |
2. 残差の平方和を計算
最後に、残差の二乗の合計を求めます。
エクセルの SUM
関数を使い、
=SUM(E2:E6)
と入力すると、残差平方和が求められます。
まとめ
残差平方和は回帰分析において重要な指標であり、決定係数や最小二乗法とも関係しています。
統計学をより深く理解するためには、基礎であるこれらの概念をバカにせず、しっかりと押さえておくことが大切です。
実際に手を動かして、身近なデータにおける残差平方和を算出してみましょう!
データサイエンス.jpでは、データサイエンスや統計学をわかりやすく学べるようなプラットフォームを提供しています。機械学習やデータ分析など、実用的でトピックも扱っていますので、ぜひ他の記事もご覧ください!