协方差与协方差矩阵

一、协方差 (Covariance)

1. 核心定义

协方差是衡量两个随机变量 协同变化趋势 的指标。它回答了这样一个问题:“当一个变量变化时,另一个变量是倾向于朝相同方向还是相反方向变化?”

  • 正协方差 ($Cov(X, Y) > 0$): 两个变量倾向于同向运动。一个增大时,另一个也倾向于增大。
  • 负协方差 ($Cov(X, Y) < 0$): 两个变量倾向于反向运动。一个增大时,另一个倾向于减小。
  • 零协方差 ($Cov(X, Y) \approx 0$): 两个变量之间没有明显的线性关系。

2. 计算公式

对于一组样本数据,协方差的计算公式为:

$$Cov(X, Y) = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{n-1}$$

  • $X_i, Y_i$: 第 $i$ 个数据点的 X 值和 Y 值。
  • $\bar{X}, \bar{Y}$: 变量 X 和 Y 的样本均值。
  • $n$: 样本数量。

公式的直观理解:
公式的核心是 (Xi - X̄)(Yi - Ȳ)

  • 如果一个数据点 (Xi, Yi) 在其均值点的右上方或左下方(即两个差值同为正或同为负),乘积为正。
  • 如果数据点在左上方或右下方(即两个差值异号),乘积为负。
  • 所有点的乘积加总求平均,就反映了总体的变化趋势。

3. 局限性

协方差的数值大小会受到变量本身尺度的影响,因此不能用来比较不同变量对之间关联性的强弱。例如,$Cov(\text{身高(cm)}, \text{体重(kg)})$ 和 $Cov(\text{身高(m)}, \text{体重(g)})$ 的数值会相差巨大,但描述的是同一个关系。


二、协方差矩阵 (Covariance Matrix)

1. 核心定义

协方差矩阵是一个方阵,它系统地展示了数据集中所有变量两两之间的协方差

对于一个有 $p$ 个特征的数据集,其协方差矩阵是一个 $p \times p$ 的矩阵。

  • 对角线元素: 是各个变量自身的方差 ($Var(X) = Cov(X, X)$)。
  • 非对角线元素: 是不同变量之间的协方差 ($Cov(X, Y)$)。

2. 结构示例

假设有3个变量 A, B, C,其协方差矩阵 $C$ 的结构如下:

$$
C = \begin{pmatrix}
Var(A) & Cov(A, B) & Cov(A, C) \
Cov(B, A) & Var(B) & Cov(B, C) \
Cov(C, A) & Cov(C, B) & Var(C)
\end{pmatrix}
$$

重要特性:

  • 对称性: 因为 $Cov(X, Y) = Cov(Y, X)$,所以协方差矩阵是一个对称矩阵

3. 高效计算方法

在实践中,我们通常使用矩阵运算来高效计算协方差矩阵。

前提: 数据矩阵 $X$ 已经中心化 (即每个特征列的均值都为0)。
假设 $X$ 是一个 $n \times p$ 的矩阵($n$ 个样本, $p$ 个特征)。

计算公式:

$$C = \frac{1}{n-1} X^T X$$

推导解释:

  1. $X^T$ 是一个 $p \times n$ 的矩阵,$X$ 是一个 $n \times p$ 的矩阵。它们的乘积 $X^T X$ 会得到一个 $p \times p$ 的方阵,这恰好是协方差矩阵的维度。
  2. 根据矩阵乘法,$X^T X$ 结果矩阵中的第 $(i, j)$ 个元素,是由 $X^T$ 的第 $i$ 行和 $X$ 的第 $j$ 列进行点积得到的。
  3. $X^T$ 的第 $i$ 行,恰好是原始数据第 i 个特征的所有样本值。
  4. $X$ 的第 $j$ 列,恰好是原始数据第 j 个特征的所有样本值。
  5. 因此,$(X^T X){ij} = \sum{k=1}^{n} x{ki} \cdot x{kj}$。
  6. 对比协方差公式 $Cov(\text{特征i}, \text{特征j}) = \frac{\sum{k=1}^{n} x{ki} \cdot x{kj}}{n-1}$,我们可以发现:
    $$(X^T X)
    {ij} = (n-1) \cdot Cov(\text{特征i}, \text{特征j})$$
  7. 所以,整个协方差矩阵可以通过一次矩阵乘法和一次标量除法得到。

4. 在PCA中的作用

协方差矩阵是主成分分析 (PCA) 的核心。PCA通过对协方差矩阵进行特征值分解,找到能够最大化解释数据方差的新的正交坐标轴(即主成分)。

  • 特征向量 (Eigenvectors): 代表了主成分的方向。
  • 特征值 (Eigenvalues): 代表了数据在对应主成分方向上的方差大小,衡量了该主成分的“重要性”。

三、协方差 vs 相关系数

为了解决协方差的“尺度”问题,我们引入相关系数 (Correlation Coefficient)

$$\rho(X, Y) = \frac{Cov(X, Y)}{\sigma_X \sigma_Y}$$

  • $\sigma_X, \sigma_Y$: 变量X和Y的标准差。
  • 作用: 相关系数是标准化了的协方差,其值被限制在 [-1, 1] 区间内。
  • 优点: 既能表示关系的方向(正负号),又能表示关系的强度(绝对值大小),可以跨越不同变量进行比较。
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容