分散共分散行列 - takahiro_itazuriの公倍数的ブログ

分散

分散とは「各データが平均値からどれだけ離れているか」という、データのばらつき具合を表します。

具体的には、分散は「（各データの平均値からの距離）の二乗の平均」です。

分散の平方根を取ったものが標準偏差と呼ばれるものです。

標準偏差を $SD$ で表すと、

\begin{align}\displaystyle
{SD}^{2} &= \frac{1}{n} \sum_{i=1}^{n} (x_i - \overline{x})^2 \\
&= \frac{1}{n} (\boldsymbol{X} - \boldsymbol{\overline{X}})^T (\boldsymbol{X} - \boldsymbol{\overline{X}})
\end{align}

ただし、
\begin{align}\displaystyle
\boldsymbol{X} =
\begin{pmatrix}
x_1 \\ x_2 \\ \vdots \\ x_n
\end{pmatrix}
\end{align}
\begin{align}\displaystyle
\boldsymbol{\overline{X}} =
\begin{pmatrix}
\overline{x} \\ \overline{x} \\ \vdots \\ \overline{x}
\end{pmatrix}
\end{align}

これはある一つの事柄に対するデータがどれほど分散しているかを見るものである。

一方で、異なる事柄において相関があるのかを知りたいときに登場するのが共分散です。

共分散

分散共分散行列は次の式で表される。
\begin{align}\displaystyle
\boldsymbol{S} = \frac{1}{n} (\boldsymbol{X}- \boldsymbol{\overline{X}}) (\boldsymbol{Y}- \boldsymbol{\overline{Y}})^T
\end{align}
この式が示すところを説明する。
たとえば、 $x_{i}$ が平均以上のとき、 $y_{j}$ も平均以上となる場合は、共分散値 $\boldsymbol{S_{ij}}$ は正となり、
逆に $x_i$ が平均以上のとき、 $y_j$ は平均以下となる場合は、共分散値 $\boldsymbol{S_{ij}}$ は負となる。

またそれぞれのデータに対して、「データから平均値を引き、標準偏差で割る」（基準化）と、分散共分散行列の対角成分が全て1になる。
つまり、元のデータに固有の平均値や標準偏差の大きさに影響されなくなる。
このようにして得られた行列は「相関行列」と呼ばれる。

分散共分散行列は、各成分が独立である（相関がない）場合は対角行列になる。
また分散共分散行列は半正定値である。
証明は以下の通り。
\begin{align}\displaystyle
\boldsymbol{S_{ij}} &= \frac{1}{N} \sum_{k=1}^{N} (\boldsymbol{x_i^{(k)}} - \boldsymbol{m_i})(\boldsymbol{x_j^{(k)}} - \boldsymbol{m_j}) \\
&= \frac{1}{N} \sum_{k=1}^{N} \boldsymbol{z_i^{(k)}} \boldsymbol{z_j^{(k)}}
\end{align}
\begin{align}\displaystyle
\boldsymbol{S} = \frac{1}{N} \boldsymbol{Z} \boldsymbol{Z^T}
\end{align}
任意のベクトル $\displaystyle \boldsymbol{u}$ に対して、 $\displaystyle \boldsymbol{y}=\boldsymbol{Z^{T}} \boldsymbol{u}$ とおくと
\begin{align}\displaystyle
\boldsymbol{u^T S u} = \frac{1}{N} \boldsymbol{u^T Z Z^T u} = \frac{1}{N} \boldsymbol{y^T y} \geqq 0
\end{align}
ゆえに半正定値。

目次

分散

共分散