一、协方差 (Covariance)
1. 核心定义
协方差是衡量两个随机变量 协同变化趋势 的指标。它回答了这样一个问题:“当一个变量变化时,另一个变量是倾向于朝相同方向还是相反方向变化?”
- 正协方差 ($Cov(X, Y) > 0$): 两个变量倾向于同向运动。一个增大时,另一个也倾向于增大。
- 负协方差 ($Cov(X, Y) < 0$): 两个变量倾向于反向运动。一个增大时,另一个倾向于减小。
- 零协方差 ($Cov(X, Y) \approx 0$): 两个变量之间没有明显的线性关系。
2. 计算公式
对于一组样本数据,协方差的计算公式为:
$$Cov(X, Y) = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{n-1}$$
- $X_i, Y_i$: 第 $i$ 个数据点的 X 值和 Y 值。
- $\bar{X}, \bar{Y}$: 变量 X 和 Y 的样本均值。
- $n$: 样本数量。
公式的直观理解:
公式的核心是 (Xi - X̄)(Yi - Ȳ)。
- 如果一个数据点
(Xi, Yi)在其均值点的右上方或左下方(即两个差值同为正或同为负),乘积为正。 - 如果数据点在左上方或右下方(即两个差值异号),乘积为负。
- 所有点的乘积加总求平均,就反映了总体的变化趋势。
3. 局限性
协方差的数值大小会受到变量本身尺度的影响,因此不能用来比较不同变量对之间关联性的强弱。例如,$Cov(\text{身高(cm)}, \text{体重(kg)})$ 和 $Cov(\text{身高(m)}, \text{体重(g)})$ 的数值会相差巨大,但描述的是同一个关系。
二、协方差矩阵 (Covariance Matrix)
1. 核心定义
协方差矩阵是一个方阵,它系统地展示了数据集中所有变量两两之间的协方差。
对于一个有 $p$ 个特征的数据集,其协方差矩阵是一个 $p \times p$ 的矩阵。
- 对角线元素: 是各个变量自身的方差 ($Var(X) = Cov(X, X)$)。
- 非对角线元素: 是不同变量之间的协方差 ($Cov(X, Y)$)。
2. 结构示例
假设有3个变量 A, B, C,其协方差矩阵 $C$ 的结构如下:
$$
C = \begin{pmatrix}
Var(A) & Cov(A, B) & Cov(A, C) \
Cov(B, A) & Var(B) & Cov(B, C) \
Cov(C, A) & Cov(C, B) & Var(C)
\end{pmatrix}
$$
重要特性:
- 对称性: 因为 $Cov(X, Y) = Cov(Y, X)$,所以协方差矩阵是一个对称矩阵。
3. 高效计算方法
在实践中,我们通常使用矩阵运算来高效计算协方差矩阵。
前提: 数据矩阵 $X$ 已经中心化 (即每个特征列的均值都为0)。
假设 $X$ 是一个 $n \times p$ 的矩阵($n$ 个样本, $p$ 个特征)。
计算公式:
$$C = \frac{1}{n-1} X^T X$$
推导解释:
- $X^T$ 是一个 $p \times n$ 的矩阵,$X$ 是一个 $n \times p$ 的矩阵。它们的乘积 $X^T X$ 会得到一个 $p \times p$ 的方阵,这恰好是协方差矩阵的维度。
- 根据矩阵乘法,$X^T X$ 结果矩阵中的第 $(i, j)$ 个元素,是由 $X^T$ 的第 $i$ 行和 $X$ 的第 $j$ 列进行点积得到的。
- $X^T$ 的第 $i$ 行,恰好是原始数据第 i 个特征的所有样本值。
- $X$ 的第 $j$ 列,恰好是原始数据第 j 个特征的所有样本值。
- 因此,$(X^T X){ij} = \sum{k=1}^{n} x{ki} \cdot x{kj}$。
- 对比协方差公式 $Cov(\text{特征i}, \text{特征j}) = \frac{\sum{k=1}^{n} x{ki} \cdot x{kj}}{n-1}$,我们可以发现:
$$(X^T X){ij} = (n-1) \cdot Cov(\text{特征i}, \text{特征j})$$ - 所以,整个协方差矩阵可以通过一次矩阵乘法和一次标量除法得到。
4. 在PCA中的作用
协方差矩阵是主成分分析 (PCA) 的核心。PCA通过对协方差矩阵进行特征值分解,找到能够最大化解释数据方差的新的正交坐标轴(即主成分)。
- 特征向量 (Eigenvectors): 代表了主成分的方向。
- 特征值 (Eigenvalues): 代表了数据在对应主成分方向上的方差大小,衡量了该主成分的“重要性”。
三、协方差 vs 相关系数
为了解决协方差的“尺度”问题,我们引入相关系数 (Correlation Coefficient)。
$$\rho(X, Y) = \frac{Cov(X, Y)}{\sigma_X \sigma_Y}$$
- $\sigma_X, \sigma_Y$: 变量X和Y的标准差。
- 作用: 相关系数是标准化了的协方差,其值被限制在
[-1, 1]区间内。 - 优点: 既能表示关系的方向(正负号),又能表示关系的强度(绝对值大小),可以跨越不同变量进行比较。
- 1本网站名称:MuQYY
- 2本站永久网址:www.muqyy.top
- 3本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长 微信:bwj-1215 进行删除处理。
- 4本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
- 5本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
- 6本站资源大多存储在云盘,如发现链接失效,请联系我们我们会在第一时间更新。






暂无评论内容