平方和とは?求め方や偏差平方和との関係についてわかりやすく解説!

統計学基礎

平方和とは?

平方和(Sum of squares)とは、複数ある要素をそれぞれ二乗して足し合わせたものです。

そもそも平方とは、ある要素の二乗を指しています。

“平方メートル”でお馴染みですが、このときの平方は縦と横の二次元で表される、長さの二乗を示しています。

n個の要素に対する平方和について、数式で表すと以下のようになります。

$$SS = x_1^2+x_2^2+…+x_n^2$$

総和記号シグマを使って表すと以下のようになります。

$$SS = \sum_{i=1}^{n} x_i^2$$

平方和はどういう場面で使う?

平方和は、データを扱うときによく使われる計算手法です。

統計学において非常に重要な考え方である分散も、平方和の考え方を使って求めます。

分散\(\sigma^2\)は以下のようにして求めます。

$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i-\bar{x})^2$$

各データから平均を引いたものに対して、平方和を計算します。

データ数であるnで割ったら分散が求まります。

平方和の種類

平方和には、目的によって様々な種類があります。

統計学やデータサイエンスの視点から、どのような平方和の種類があるかを整理してみます。

偏差平方和, 総平方和

偏差平方和(SSD)とは、偏差(各データから平均を引いたもの)の平方和です。

先ほども分散を求めるときに使いました。頭文字を取ってSSDと表現します。

$$SSD = \sum_{i=1}^{n} (x_i – \bar{x})^2$$

また、回帰分析や分散分析の際に登場する総平方和(SST)も同じ形を取ります。

$$SST = \sum_{i=1}^{n} (x_i – \bar{x})^2$$

総平方和についてはこちらの記事も参照してみてください。

残差平方和, 回帰平方和

残差平方和・回帰平方和は、回帰分析の予測結果を評価する際に登場します。

回帰平方和とは、回帰モデルの予測値と平均の平方和を取った値です。

回帰平方和を算出することによって、予測値のばらつきを数値化することができます。

$$SS_{reg} = \sum_{i=1}^{n} (\hat{y}_i – \bar{y})^2$$

残差平方和とは、実測値と予測値の差の平方和を取った値です。

回帰モデルの予測値が全体的にどのくらい誤差を持っているかを数値化することができます。

$$SS_{res} = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2$$

残差平方和については、こちらの記事も参考にしてください!

群間平方和, 郡内平方和, 交互作用平方和

これらの平方和は、分散分析(ANOVA)を行う際に登場します。

群間平方和\(SS_{between} \)、郡内平方和\(SS_{within} \)はそれぞれ、

$$SS_{between} = \sum_{j=1}^{k} n_j (\bar{x}_j – \bar{x})^2$$

$$SS_{within} = \sum_{j=1}^{k} \sum_{i=1}^{n_j} (x_{ij} – \bar{x}_j)^2$$

と算出することができます。

また、交互作用平方和\(SS_{interaction}\)は、総平方和\(SST\)を使って、

$$SS_{interaction} = SST – (SS_{between} + SS_{within})$$

と表すことができます。

まとめ

今回は平方和について解説していきました。

平方和は分散など統計学の最も基礎となる部分から、回帰分析や分散分析などの分析手法まで使われる計算方法です。

統計学の分野を横断した概念であり、非常に重要です。