数模笔记
Spearman
Spearman相关系数(Spearman Rank Correlation Coefficient),也称为斯皮尔曼等级相关系数,是一种非参数统计方法,用于衡量两个变量之间的相关性。
基本概念
Spearman相关系数是基于排名的相关性分析方法。它将原始数据转换为排名(Rank),然后计算两个变量排名之间的相关性。这种方法特别适合以下情况:
- 数据不是正态分布的。
- 数据之间不是线性关系,但可能存在单调关系(单调递增或单调递减)。
- 数据中存在异常值,因为排名方法对异常值不敏感。
计算过程
步骤1:对数据进行排名
- 对两个变量(比如 $X$ 和 $Y$)的每个值分别进行排名,得到 $R_x$(变量 $X$ 的排名)和 $R_y$(变量 $Y$ 的排名)。
- 如果有相同的值(即并列排名),则赋予它们相同的平均排名。例如,如果两个值并列第3名,则它们的排名都是3.5((3+4)/2)。
步骤2:计算排名差异
- 对于每一对数据,计算 $R_x$ 和 $R_y$ 的差值 $d_i = R_x - R_y$。
- 然后计算差值的平方 $d_i^2$。
步骤3:应用公式计算相关系数
Spearman相关系数 $\rho$ 的公式为:
$$
\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}
$$
其中:
- $d_i$ 是排名差值。
- $n$ 是数据对的数量。
注意:
如果数据中没有并列排名,上面的公式可以直接使用。
如果存在并列排名,公式会有所调整,或者直接用排名后的数据计算皮尔逊相关系数,结果等价于Spearman相关系数。
结果解释
- Spearman相关系数的取值范围在 $-1$ 到 $1$ 之间:
- $\rho = 1$:表示完全正单调相关(一个变量增加,另一个变量也严格增加)。
- $\rho = -1$:表示完全负单调相关(一个变量增加,另一个变量严格减少)。
- $\rho = 0$:表示没有单调相关性(变量之间没有明显的单调趋势)。
- 与皮尔逊相关系数不同,Spearman不要求线性关系,只关注单调性。
优点与局限性
优点:
- 不要求数据正态分布,适用于非参数数据。
- 对异常值不敏感,因为基于排名而非原始数据。
- 能捕捉非线性但单调的关系。
局限性:
- 只能衡量单调相关性,无法捕捉复杂的非单调关系。
- 如果数据中有大量并列排名,计算可能变得复杂,结果可能不够准确。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 南岩 のBlog!