【数据分析】皮尔逊相关系数、斯皮尔曼等级相关系数

安静的_显眼包O_o

1322人浏览 · 2024-10-15 17:27:48

安静的_显眼包O_o · 2024-10-15 17:27:48 发布

1. 📊 皮尔逊相关系数的计算步骤

皮尔逊相关系数（Pearson correlation coefficient）是衡量两个变量之间线性关系强度和方向的统计指标。以下是计算皮尔逊相关系数的具体步骤：

步骤 1: 收集数据

假设你有两组数据，分别表示两个变量 (X) 和 (Y)。数据点个数为 (n)。

步骤 2: 计算均值

计算变量 (X) 和 (Y) 的均值（平均值）：

在这里插入图片描述

其中，(X_i) 和 (Y_i) 分别是变量 (X) 和 (Y) 的第 (i) 个观测值，(n) 是观测值的总数。

步骤 3: 计算协方差

在这里插入图片描述

步骤 4: 计算标准差

在这里插入图片描述

步骤 5: 计算皮尔逊相关系数

最后，将协方差除以两个标准差的乘积，得到皮尔逊相关系数：
在这里插入图片描述

解释

在这里插入图片描述

示例1:

在这里插入图片描述

示例2:

在这里插入图片描述

2. 斯皮尔曼等级相关系数

在这里插入图片描述

2.1 斯皮尔曼等级相关系数计算过程

在这里插入图片描述
我将为您详细解析这三种常用的相关系数，包括它们的定义、计算方法、适用场景以及优缺点。
好的，我将为您详细解析这三种常用的相关系数，包括它们的定义、计算方法、适用场景以及优缺点。

另一个说法：

一、皮尔逊相关系数（Pearson Correlation Coefficient）

1. 定义与原理

皮尔逊相关系数，也称为皮尔逊积矩相关系数，用于衡量两个连续变量之间的线性关系强度和方向。

公式：

2. 适用条件

变量为连续型数据。
数据满足正态分布。
变量之间存在线性关系。
数据中无异常值。

3. 特点

优点：计算简单，结果易于解释。
缺点：对异常值敏感，只能检测线性关系。

4. 示例

分析学习时长与考试成绩之间的线性关系。

二、斯皮尔曼秩相关系数（Spearman Rank Correlation Coefficient）

1. 定义与原理

斯皮尔曼秩相关系数用于衡量两个变量之间的单调关系（线性或非线性），基于数据的秩次（排名）。

公式（无重复秩次时）：

2. 适用条件

变量为连续型或有序分类数据。
数据不满足正态分布。
数据中存在异常值或非线性关系。

3. 特点

优点：对异常值不敏感，适用于非正态分布数据。
缺点：仅考虑秩次，可能损失部分信息。

4. 示例

分析员工满意度与工作年限之间的关系（数据不服从正态分布）。

三、肯德尔相关系数（Kendall Tau Correlation Coefficient）

1. 定义与原理

肯德尔相关系数用于衡量两个变量之间的秩次一致性，基于成对比较。

公式（Kendall’s Tau-b）：

2. 适用条件

变量为连续型或有序分类数据。
小样本数据。
数据中存在重复值或秩次并列。

3. 特点

优点：适用于小样本和存在重复值的数据。
缺点：计算复杂，解释性不如斯皮尔曼直观。

4. 示例

分析评委对参赛作品的评分一致性（小样本数据）。

四、三种相关系数的对比总结

特性	皮尔逊	斯皮尔曼	肯德尔
数据类型	连续变量	连续或有序分类	连续或有序分类
分布要求	正态分布	无要求	无要求
关系类型	线性	单调（线性或非线性）	单调（线性或非线性）
异常值敏感性	敏感	不敏感	不敏感
样本大小	大样本	大样本	小样本
重复值处理	不适用	一般	良好
计算复杂度	低	中	高
结果解释	直观	直观	较复杂

五、选择建议

数据满足正态分布且关系为线性 → 皮尔逊相关系数。
数据不满足正态分布或存在异常值 → 斯皮尔曼秩相关系数。
样本量较小或存在大量重复值 → 肯德尔相关系数。

以上是对皮尔逊、斯皮尔曼和肯德尔相关系数的详细解析，希望能帮助您深入理解它们的原理与应用场景。

【数据分析】皮尔逊相关系数、斯皮尔曼等级相关系数

【机器学习】协方差、相关系数的区别与联系

【数据分析】皮尔逊相关系数、斯皮尔曼等级相关系数

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git