Spearman

Spearman相关系数(Spearman Rank Correlation Coefficient),也称为斯皮尔曼等级相关系数,是一种非参数统计方法,用于衡量两个变量之间的相关性。

基本概念

Spearman相关系数是基于排名的相关性分析方法。它将原始数据转换为排名(Rank),然后计算两个变量排名之间的相关性。这种方法特别适合以下情况:

  • 数据不是正态分布的。
  • 数据之间不是线性关系,但可能存在单调关系(单调递增或单调递减)。
  • 数据中存在异常值,因为排名方法对异常值不敏感。

计算过程

步骤1:对数据进行排名

  • 对两个变量(比如 $X$ 和 $Y$)的每个值分别进行排名,得到 $R_x$(变量 $X$ 的排名)和 $R_y$(变量 $Y$ 的排名)。
  • 如果有相同的值(即并列排名),则赋予它们相同的平均排名。例如,如果两个值并列第3名,则它们的排名都是3.5((3+4)/2)。

步骤2:计算排名差异

  • 对于每一对数据,计算 $R_x$ 和 $R_y$ 的差值 $d_i = R_x - R_y$。
  • 然后计算差值的平方 $d_i^2$。

步骤3:应用公式计算相关系数

Spearman相关系数 $\rho$ 的公式为:

$$
\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}
$$

其中:

  • $d_i$ 是排名差值。
  • $n$ 是数据对的数量。

注意:
如果数据中没有并列排名,上面的公式可以直接使用。
如果存在并列排名,公式会有所调整,或者直接用排名后的数据计算皮尔逊相关系数,结果等价于Spearman相关系数。

结果解释

  • Spearman相关系数的取值范围在 $-1$ 到 $1$ 之间:
    • $\rho = 1$:表示完全正单调相关(一个变量增加,另一个变量也严格增加)。
    • $\rho = -1$:表示完全负单调相关(一个变量增加,另一个变量严格减少)。
    • $\rho = 0$:表示没有单调相关性(变量之间没有明显的单调趋势)。
  • 与皮尔逊相关系数不同,Spearman不要求线性关系,只关注单调性。

优点与局限性

优点:

  • 不要求数据正态分布,适用于非参数数据。
  • 对异常值不敏感,因为基于排名而非原始数据。
  • 能捕捉非线性但单调的关系。

局限性:

  • 只能衡量单调相关性,无法捕捉复杂的非单调关系。
  • 如果数据中有大量并列排名,计算可能变得复杂,结果可能不够准确。