当分布非正态分布时，能否使用Pearson Correlation？

佚名 2024-06-16 21:21:10 举报

篇首语：本文由小编为大家整理，主要介绍了当分布非正态分布时，能否使用Pearson Correlation？相关的知识，希望对你有一定的参考价值。

主要内容来自论文：Testing the Significance of a Correlation With Nonnormal Data: Comparison of Pearson, Spearman, Transformation, and Resampling Approaches

1 先说结论

Pearson 的 r 在 I 类错误率方面对非正态分布相对稳健，除了特别小的样本量或特别是非正态分布形状。
然而，其他方法具有更强大的 I 类错误控制。
- Spearman“精确”测试
- RIN 变换+Pearson
- 置换测试
- 单变量bootstrap测试
- 在所有场景中都保持了预期的 I 类错误率。
对于小样本（通常 n≤10），置换检验通常提供一种稳健的替代方案，其功效与 Pearson t 检验相同或更强大
对于较大的样本量（通常n≥ 20），RIN变换+Pearson 方法的功效优势变得明显

对于 I 类错误率和power，非正态性的类型很重要。
- 当一个或多个分布具有高峰态形状（例如卡方或长尾分布）时，非正态性对于 Pearson t 检验最成问题
  - 这种模式不能通过方差来解释，因为实验中总体方差对于所有分布形状都是一样的
  - 这些卡方分布和长尾分布特别容易出现 I 型错误膨胀。
- 在我们的模拟中，具有高度峰态分布的 Pearson t 检验不仅导致 I 类错误膨胀，而且还导致相对较低的power当
  - 此时，RIN变换+Pearson 方法相对于 Pearson t 检验的功率优势尤其明显。

（power：power of test，数值上等于1-type 2 error）

1.1 Spearman rank-order correlation的结论

Spearman correlation是在违反“正态分布”假设时通常推荐的 Pearson 相关性替代方案。
- 对于小样本 (n=10) 的 Spearman correlation，“精确”检验比 t 检验更好地保持 I 类错误率
- 对于大样本，它们产生几乎相同的结果。
相对于 Pearson t 检验，Spearman correlation有时会产生显着的power改进，尤其是在样本量较大的情况下。
然而，即便如此，RIN变换+Pearson 方法的power仍然更高。

2 当时教科书的一些推荐

有一些教科书认为Pearson correlation非常稳健，可以忍受类似于“正态分布”这样的假设的丢失
有一些教科书则认为使用Pearson correlation必须要满足二元正态分布

尽管对于Pearson correlation 的稳健性有不一样的说法，但是对于Pearson correlation的替代者，教科书中的说法还是较为相似的
- 最常见的是使用Spearman rank-order correlation
- 第二常见的是normalize 非正态分布的样本，使其变得正态分布，然后使用Pearson correlation进行分析处理
- resampling的方法也有，但是不常见

3 几种方法的介绍

3.1 Pearson correlation

数学笔记：pearson correlation coefficient VS spearman correlation coefficient_UQI-LIUWJ的博客-CSDN博客_pearson correlation coefficient与spearman correlati

早期的模拟研究表明，在检验 ρ=0 的假设时，Pearson r 的抽样分布对非正态性的影响不敏感
- 他们的结果表明，Pearson 的 r 对非正态性、非等区间测量以及非正态性和非等区间测量的组合具有稳健性。
后续研究观测了非常不正态的分布，以及各种混合正态分布
- ——>大部分情况下，Pearson分布还是比较稳健的，除非样本的数量特别少

文献表明，极端非正态分布有时会提高 Pearson 相关系数检验的 I 类错误率，增加样本量并不一定能缓解这个问题。 因此，对于非正态数据，Pearson 方法的替代方案可能是合理的。

3.2 几种测试介绍

test名称	test介绍
Pearson —t test	传统的Pearson product-moment
Pearson —z test	对pearson结果进行变换
Spearman —t test	传统的Spearman rank-order correlation
Spearman —"exact’ test	不使用t检验（即不和正态分布相比较） rank-ordered correlation将会和更精准的分布进行比较，如果得到的correlation在这个更精准的分布的上/下2.5%，那么将拒绝Ho 这里加引号的原因是因为只有n=5的时候，是精准排列分布，其他n是用Edgeworth级数近似的
Box-Cox 变换+Pearson（先变换再Pearson）	Box-Cox变换： λ 为 1 会导致线性变换 λ 大于 1 会导致凸（加速）函数 λ 小于 1 会导致凹（减速）函数。对于每次模拟，选择特定的 λ 值，使其最大化所得到的变换变量的正态性
Yeo-Johnson变换+Pearson	Box-COx的一个限制条件是它需要数据是正的。 ——>为了解决之，Yeo-Johnson出现了 Box-Cox 和 Yeo-Johnson 方法特别适用于偏斜的数据，但不太适用于对称数据。
Arcsine变换+Pearson	反正弦变换可以有效地将均匀分布数据转换为正态分布数据这里a，b是X中的最小和最大值，k是为了分母非空，k=0.01
RIN 变换+Pearson	是逆正态累积分布函数 rank-based inverse normal (RIN) 将数据转化成rank 将rank转化成概率用将概率转化成近似的正态分布形状
置换测试	对于置换测试，置换分布是通过随机重新分配 X 变量的值（这有效地重新配对 X 和 Y），并为每个这样的置换保存生成的 Pearson 相关性。重复上述过程，以形成correlation抽样分布。如果样本 Pearson r 不在此correlation置换抽样分布的第 2.5 至 97.5 个百分位之间，则拒绝原Ho。
单变量bootstrap测试	和置换测试类似，除了这里是有放回地采样X和Y（X,Y不是成对的）如果X或者Y的采样中完全是一样的数据，那么这个样本被丢弃，用其他的样本代替
双变量Bootsrap测试 BCa 测试	略

4 实验部分

4.1 使用的分布类型

使用了6种分布：normal，Weibull，Chi-squared，uniform，bimodal，long-tailed

——》所有分布均值皆为0，标准差皆为1

（一开始我以为长尾分布和normal画反了，后来我查了下长尾分布的特点，发现是我搞错了）
- 长尾分布极少数个体（横轴）对应极高的值（纵轴），而拥有极低值的个体，数量却占总体的绝大多数。

4.2 其他参数

样本数量：六个样本大小为n=5,10,20,40,80,160

ρ=0被用于0 关联度的Ho；0.1用作小effect size；0.5用作大effect size

4.3 实验结果

4.3.1 1类误差

表 2 显示了 I 类错误率，即当总体中 X 和 Y 之间没有关联时（ρ=0）错误拒绝原假设的概率。表中的粗体值显示 I 类错误超过 0.060 的情况。【也就是误差很大的时候】

可以得到的几个结论是：

两种Pearson的方法大部分情况下都是很稳定的，只有当X,Y都有极端outlier时，Type I error才会有一些上升
当n≥20的时候，两种Spearman correlation都是稳定的
- 对于小的n，t验证的Spearman correlation会有较大的type 1 error；"exact’ spearman则不会
在所有先变换再Pearson的方法中，只有RIN是一直稳定的
- 其他的方法在极端非正态分布/n很小时，Type 1 error就会提升
在所有resample方法中，只有permutation和单变量bootstrap是稳定的

——>只有四种方法会一直将type 1 error保持在很低的值