総平方和とは?
総平方和の定義
総平方和(Total Sum of Squares, SST)は、データ全体のばらつきを測るための指標です。
各データと平均値の、差の二乗和として定義されます。
$$SST = \sum_{i=1}^{n} (y_i – \bar{y})^2$$
ここで、
- \(y_i\)は各データ点の観測値、
- \(\bar{y}\)は観測値の平均、
- \(n\)はデータの個数
です。
つまり、「各データの平均値との差を二乗したものを、全て足し合わせたもの」ということになります。
書籍によっては、\(SS_T\)、\(S_t\)などと表されます。
また、そもそも平方和とは?を解説したこちらも参考にしてみてください!
簡単に言うと?
総平方和(SST)は、「データがどれだけ平均値からばらついているか」を測る指標です。
簡単に言えば、「データの散らばりを全て足し合わせたもの」と言うことができます。
他の平方和との違い
1. 残差平方和との違い
残差平方和(Residual Sum of Squares, \(S_e\))は、回帰モデルの誤差を測る指標であり、観測値と予測値の差の二乗和として定義されます。
$$S_e = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2$$
- \(y_i\)はデータの実測値
- \(\hat{y_i}\)はデータの予測値
- \(n\)はデータの個数
総平方和はデータのばらつきを表すのに対し、残差平方和はモデルが説明できなかった誤差の合計を示します。
残差平方和についてはこちらの記事も参考にしてください!
2. 回帰平方和との違い
回帰平方和(Regression Sum of Squares, \(S_R\))は、モデルによって説明できたデータのばらつきを示します。
$$S_R = \sum_{i=1}^{n} (\hat{y}_i – \bar{y})^2$$
- \(\bar{y}\)は観測値の平均
- \(\hat{y_i}\)はデータの予測値
- \(n\)はデータの個数
このように、総平方和は「データ全体のばらつき」、回帰平方和は「モデルが説明できたばらつき」、残差平方和は「モデルが説明できなかったばらつき」を示すという関係があります。
さらに、以下の関係式が成り立ちます。
この式は、回帰分析や決定係数(R²)の計算において重要な役割を果たします。
回帰分析における使われ方
回帰分析における総平方和は、データ全体の予測値と実測値の差を示します。
回帰分析における総平方和
回帰分析では、総平方和\(S_T\)は、モデルが説明できる部分(回帰平方和, \(S_R\))と、説明できなかった誤差(残差平方和, \(S_e\))の和として表されます。
これは平方和の分解と呼ばれます。
$$S_T = S_R + S_e$$
- \(S_T\)(総平方和):データ全体のばらつき
- \(S_R\)(回帰平方和):モデルによって説明できたばらつき
- \(S_e\)(残差平方和):モデルが説明できなかった誤差
決定係数(R²)との関係
決定係数R²は、モデルの説明力を示す指標であり、総平方和を用いて計算されます。
各平方和の考え方がわかっていれば、決定係数R²は以下のように求めることができます。
$$R^2 = \frac{S_R}{S_T} = 1 – \frac{S_e}{S_T}$$
決定係数R²については、以下の記事も参考にしてください!
分散分析における使われ方
分散分析(ANOVA)では、総平方和は群間変動と群内変動に分解され、統計的有意性を評価するために使用されます。
分散分析の基本式
分散分析において、総平方和は以下のように分解されます。
$$S_T = SS_{between} + SS_{within}$$
ここで、
- \(SS_{between}\)(群間平方和):グループ間の平均の違いによる変動
- \(SS_{within}\)(群内平方和):各グループ内の個々のデータのばらつき
この分解を用いることで、各グループの平均に有意な差があるかどうかを検定できます。
F検定との関係
分散分析では、F検定を用いて群間変動と群内変動の比率を評価します。
$$F = \frac{MS_{between}}{MS_{within}} = \frac{SS_{between}T}{MS_{within}}$$
F値が大きいほど、グループ間の違いが統計的に有意である可能性が高くなります。
分散分析は、医療研究や市場調査など、複数のグループ間の違いを調べる際に広く用いられます。
まとめ
今回は総平方和について簡単に紹介しました。
注目されることがそこまで多くない概念ですが、分散分析や回帰分析などに用いられる重要な概念です。
また、機械学習にまで視野を広げてみると、損失関数の考え方などにも繋がっています。
今回の内容は完璧にして、引き続き勉強を進めていきましょう!