総平方和とは?求め方や他の平方和との違いについてわかりやすく解説!

統計学基礎

総平方和とは?

総平方和の定義

総平方和(Total Sum of Squares, SST)は、データ全体のばらつきを測るための指標です。

各データと平均値の、差の二乗和として定義されます。

$$SST = \sum_{i=1}^{n} (y_i – \bar{y})^2$$

ここで、

  • \(y_i\)は各データ点の観測値、
  • \(\bar{y}\)は観測値の平均、
  • \(n\)はデータの個数

です。

つまり、「各データの平均値との差を二乗したものを、全て足し合わせたもの」ということになります。

書籍によっては、\(SS_T\)、\(S_t\)などと表されます。

また、そもそも平方和とは?を解説したこちらも参考にしてみてください!

簡単に言うと?

総平方和(SST)は、「データがどれだけ平均値からばらついているか」を測る指標です。

簡単に言えば、「データの散らばりを全て足し合わせたもの」と言うことができます。

他の平方和との違い

1. 残差平方和との違い

残差平方和(Residual Sum of Squares, \(S_e\))は、回帰モデルの誤差を測る指標であり、観測値と予測値の差の二乗和として定義されます。

$$S_e = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2$$

  • \(y_i\)はデータの実測値
  • \(\hat{y_i}\)はデータの予測値
  • \(n\)はデータの個数

総平方和はデータのばらつきを表すのに対し、残差平方和はモデルが説明できなかった誤差の合計を示します。

残差平方和についてはこちらの記事も参考にしてください!

2. 回帰平方和との違い

回帰平方和(Regression Sum of Squares, \(S_R\))は、モデルによって説明できたデータのばらつきを示します。

$$S_R = \sum_{i=1}^{n} (\hat{y}_i – \bar{y})^2$$

  • \(\bar{y}\)は観測値の平均
  • \(\hat{y_i}\)はデータの予測値
  • \(n\)はデータの個数

このように、総平方和は「データ全体のばらつき」、回帰平方和は「モデルが説明できたばらつき」、残差平方和は「モデルが説明できなかったばらつき」を示すという関係があります。

さらに、以下の関係式が成り立ちます。

この式は、回帰分析や決定係数(R²)の計算において重要な役割を果たします。

回帰分析における使われ方

回帰分析における総平方和は、データ全体の予測値と実測値の差を示します。

回帰分析における総平方和

回帰分析では、総平方和\(S_T\)は、モデルが説明できる部分(回帰平方和, \(S_R\))と、説明できなかった誤差(残差平方和, \(S_e\))の和として表されます。

これは平方和の分解と呼ばれます。

$$S_T = S_R + S_e$$

  • \(S_T\)(総平方和):データ全体のばらつき
  • \(S_R\)(回帰平方和):モデルによって説明できたばらつき
  • \(S_e\)(残差平方和):モデルが説明できなかった誤差

決定係数(R²)との関係

決定係数R²は、モデルの説明力を示す指標であり、総平方和を用いて計算されます。

各平方和の考え方がわかっていれば、決定係数R²は以下のように求めることができます。

$$R^2 = \frac{S_R}{S_T} = 1 – \frac{S_e}{S_T}$$

決定係数R²については、以下の記事も参考にしてください!

分散分析における使われ方

分散分析(ANOVA)では、総平方和は群間変動と群内変動に分解され、統計的有意性を評価するために使用されます。

分散分析の基本式

分散分析において、総平方和は以下のように分解されます。

$$S_T = SS_{between} + SS_{within}$$

ここで、

  • \(SS_{between}\)(群間平方和):グループ間の平均の違いによる変動
  • \(SS_{within}\)(群内平方和):各グループ内の個々のデータのばらつき

この分解を用いることで、各グループの平均に有意な差があるかどうかを検定できます。

F検定との関係

分散分析では、F検定を用いて群間変動と群内変動の比率を評価します。

$$F = \frac{MS_{between}}{MS_{within}} = \frac{SS_{between}T}{MS_{within}}$$

F値が大きいほど、グループ間の違いが統計的に有意である可能性が高くなります。

分散分析は、医療研究や市場調査など、複数のグループ間の違いを調べる際に広く用いられます。

まとめ

今回は総平方和について簡単に紹介しました。

注目されることがそこまで多くない概念ですが、分散分析や回帰分析などに用いられる重要な概念です。

また、機械学習にまで視野を広げてみると、損失関数の考え方などにも繋がっています。

今回の内容は完璧にして、引き続き勉強を進めていきましょう!