takahiro_itazuriの公倍数的ブログ

本やWebを通して学習したことをまとめるブログです。最大公約数(つまり、共通部分)的なという表現と対比して、「なるべく包括的にカバーしつつ、更に+αの要素も加えられたらいいな」という意味で公倍数的ブログと名付けました。

分散共分散行列

分散

分散とは「各データが平均値からどれだけ離れているか」という、データのばらつき具合を表します。

具体的には、分散は「(各データの平均値からの距離)の二乗の平均」です。

分散の平方根を取ったものが標準偏差と呼ばれるものです。

標準偏差 SDで表すと、

\begin{align}\displaystyle
{SD}^{2} &= \frac{1}{n} \sum_{i=1}^{n} (x_i - \overline{x})^2 \\
&= \frac{1}{n} (\boldsymbol{X} - \boldsymbol{\overline{X}})^T (\boldsymbol{X} - \boldsymbol{\overline{X}})
\end{align}

ただし、
\begin{align}\displaystyle
\boldsymbol{X} =
\begin{pmatrix}
x_1 \\ x_2 \\ \vdots \\ x_n
\end{pmatrix}
\end{align}
\begin{align}\displaystyle
\boldsymbol{\overline{X}} =
\begin{pmatrix}
\overline{x} \\ \overline{x} \\ \vdots \\ \overline{x}
\end{pmatrix}
\end{align}

これはある一つの事柄に対するデータがどれほど分散しているかを見るものである。

一方で、異なる事柄において相関があるのかを知りたいときに登場するのが共分散です。

共分散

分散共分散行列は次の式で表される。
\begin{align}\displaystyle
\boldsymbol{S} = \frac{1}{n} (\boldsymbol{X}- \boldsymbol{\overline{X}}) (\boldsymbol{Y}- \boldsymbol{\overline{Y}})^T
\end{align}
この式が示すところを説明する。
たとえば、{\displaystyle x_{i}}が平均以上のとき、{\displaystyle y_{j}}も平均以上となる場合は、共分散値{\displaystyle \boldsymbol{S_{ij}}}は正となり、
逆に{\displaystyle x_i}が平均以上のとき、{\displaystyle y_j}は平均以下となる場合は、共分散値{\displaystyle \boldsymbol{S_{ij}}}は負となる。

またそれぞれのデータに対して、「データから平均値を引き、標準偏差で割る」(基準化)と、分散共分散行列の対角成分が全て1になる。
つまり、元のデータに固有の平均値や標準偏差の大きさに影響されなくなる。
このようにして得られた行列は「相関行列」と呼ばれる。

分散共分散行列は、各成分が独立である(相関がない)場合は対角行列になる。
また分散共分散行列は半正定値である。
証明は以下の通り。
\begin{align}\displaystyle
\boldsymbol{S_{ij}} &= \frac{1}{N} \sum_{k=1}^{N} (\boldsymbol{x_i^{(k)}} - \boldsymbol{m_i})(\boldsymbol{x_j^{(k)}} - \boldsymbol{m_j}) \\
&= \frac{1}{N} \sum_{k=1}^{N} \boldsymbol{z_i^{(k)}} \boldsymbol{z_j^{(k)}}
\end{align}
\begin{align}\displaystyle
\boldsymbol{S} = \frac{1}{N} \boldsymbol{Z} \boldsymbol{Z^T}
\end{align}
任意のベクトル\displaystyle \boldsymbol{u}に対して、\displaystyle \boldsymbol{y}=\boldsymbol{Z^{T}} \boldsymbol{u}とおくと
\begin{align}\displaystyle
\boldsymbol{u^T S u} = \frac{1}{N} \boldsymbol{u^T Z Z^T u} = \frac{1}{N} \boldsymbol{y^T y} \geqq 0
\end{align}
ゆえに半正定値。