決定係数とは?
決定係数(coefficient of determination)R² は、回帰モデルがどの程度データを説明できているかを示す指標です。
R² の値は 0 から 1 の間を取り、1 に近いほどモデルの説明力が高いことを意味します。
決定係数は以下の式で計算されます。
$$R^2 = \frac{\left( \sum_{i=1}^{n} (\hat{y_i} – \bar{y})(y_i – \bar{y}) \right)^2}
{\sum_{i=1}^{n} (\hat{y_i} – \bar{y})^2 \sum_{i=1}^{n} (y_i – \bar{y})^2}$$
ここで、
- \(y_i\):観測値(実際のデータ)
- \(\hat{y_i}\):回帰モデルの予測値
- \(\bar{y}\):データにおける平均値(線形回帰分析において、実測値と予測値の平均値は共通)
です。
また、変形すると以下のような式になります。
$$R^2 = 1 – \frac{SS_{R}}{SS_{T}}$$
ここで、
- \(SS_{R}\)(残差平方和, Residual Sum of Squares):回帰モデルの誤差の大きさを表す。
- \(SS_{T}\)(全変動, Total Sum of Squares):データのばらつき全体を表す。
残差平方和(Residual Sum of Squares, SSR)
残差平方和とは、各データ点の実測値と回帰モデルによる予測値との差(残差)の二乗和です。これは、モデルが説明できなかった誤差の合計を表します。
ここで、
$$SS_{R} = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2$$
- \(y_i\):観測値(実際のデータ)
- \(\hat{y_i}\):回帰モデルの予測値
残差平方和が小さいほど、モデルの予測が実測値に近く、誤差が少ないことを示します。
全変動(Total Sum of Squares, SST)
全変動とは、データ全体のばらつきを示す指標で、各観測値とその平均値との差の二乗和で表されます。
$$SS_{T} = \sum_{i=1}^{n} (y_i – \bar{y})^2$$
全変動はデータの分散を表し、モデルの説明力を評価する基準となります。もし回帰モデルがデータを完璧に説明できるならば、残差平方和は 0 になり、決定係数は 1 になります。
相関係数との違い
相関係数とは?
相関係数(correlation coefficient)は、2つの変数の線形関係の強さを示す指標であり、記号 r で表されます。
$$-1 \leq r \leq 1$$
- \(r=1\)の場合、完全な正の相関がある(片方が増えるともう片方も増える)。
- \(r=-1\)の場合、完全な負の相関がある(片方が増えるともう片方は減る)。
- \(r=0\)の場合、相関がない。
決定係数との関係
決定係数 R² は、相関係数 r を2乗したものと等しくなります(線形単回帰分析の場合)。
$$R^2 = r^2$$
したがって、相関係数 r が ±1 に近いほど、決定係数 R² も 1 に近づき、モデルの説明力が高いことが分かります。
まとめ
決定係数はモデルの説明力を測る重要な指標ですが、単純に R² だけを見て判断するのは危険です。
自由度調整済み決定係数や、場合によっては他の指標も活用しながら、統計的な分析をより深く理解していきましょう。
データサイエンス.jpでは、データサイエンスや統計学をわかりやすく学べるようなプラットフォームを提供しています。機械学習やデータ分析など、実用的でトピックも扱っていますので、ぜひ他の記事もご覧ください!