相关性和协方差之间有什么关系?
简单来说,相关性和协方差都显示了两个变量之间的关系和依赖性。
协方差显示了在对变量应用函数时变量之间线性关系的路径方向。
相反,相关性衡量两个变量之间线性关系的功率和方向。
简单来说,相关性是协方差的函数。区分两者的事实是协方差值未标准化,而相关值则标准化。两个变量的相关系数可以通过将这些变量的协方差值除以给定值的标准差的乘积来获得。
协方差是一种定量计算,它显示一个变量与其均值的偏差函数与另一个函数与其均值的偏差匹配的程度。这是一个数学关系,定义为-
$$\mathrm{Cov(X,Y)=E[(X−E[X])(Y−E[Y])]}$$
在上面给定的方程中,
如果X和Y的值都高于它们各自的平均值,或者如果X和Y的值都低于它们各自的平均值,则外部期望内的表达式将为正值。
如果变量的一个值高于其均值而另一个低于其平均值,则该术语变为负数。
如果该表达式平均为正,则两个随机变量将具有正相关。方程可以改写为-
$$\mathrm{Cov(X,Y)=E[XY]−E[Y]E[X]}$$
使用这个方程,并利用两个独立随机变量的乘积等于期望的乘积这一事实,很容易看出,如果两个随机变量是独立的,它们的协方差为0。
一般来说,反过来并不总是正确的——如果两个随机变量的协方差值为0,它们并不总是独立的!
所以,我们可以写-
$$\mathrm{Cov(X,Y)=Cov(Y,X)}$$
$$\mathrm{Cov(X,X)=E[X2]−E[X]E[X]=Var(X)}$$
$$\mathrm{Cov(aX+b,Y)=aCov(X,Y)}$$
由ρ(X,Y)给出的两个随机变量之间的相关性是通过每个变量的方差归一化的两个变量的协方差。这种归一化删除了单位并对度量进行归一化,使其始终在[0,1]范围内-
$$\mathrm{ρ(X,Y)=Cov(X,Y)\sqrt{Var(X)Var(Y)}}$$
当ρ(X,Y)=0时,如果两个变量相互独立,那么它们的相关性将为0。