Deepseek AI时代，快速帮你数据分析，统计师们是不是要失业了？

看起来Deepseek 会太多了，写小说、写论文、做数学题、联网搜索等等。那我郑老师是否就失业了？比如说：你好，我医学生，想请你帮忙进行数据分析，我这里有个excel，有两个变量Gender和BMI，Gender变量根据编码值分为两组，我想分析两组定量指标BMI有没有差异，请根据数据的特征用R语言进行差异性比较。很遗憾，Deepseek无法直接对excel进行数据分析，但Deepseek给出非常全

weixin_44693403

769人浏览 · 2025-02-08 17:34:37

weixin_44693403 · 2025-02-08 17:34:37 发布

看起来Deepseek 会太多了，写小说、写论文、做数学题、联网搜索等等。

那我郑老师是否就失业了？

比如说：

你好，我医学生，想请你帮忙进行数据分析，我这里有个excel，有两个变量Gender和BMI，Gender变量根据编码值分为两组，我想分析两组定量指标BMI有没有差异，请根据数据的特征用R语言进行差异性比较。

很遗憾，Deepseek无法直接对excel进行数据分析，但Deepseek给出非常全面的R语言分析代码，不可谓不详细

# 加载必要的包
library(dplyr)
library(ggplot2)


# 假设你的数据框是 df
# 查看数据
head(df)


# 描述性统计
df %>%
  group_by(Gender) %>%
  summarise(
    n = n(),
    mean_BMI = mean(BMI, na.rm = TRUE),
    sd_BMI = sd(BMI, na.rm = TRUE),
    median_BMI = median(BMI, na.rm = TRUE),
    min_BMI = min(BMI, na.rm = TRUE),
    max_BMI = max(BMI, na.rm = TRUE)
  )


# 正态性检验
shapiro_test_group1 <- shapiro.test(df$BMI[df$Gender == 1])  # 假设1代表男性
shapiro_test_group2 <- shapiro.test(df$BMI[df$Gender == 2])  # 假设2代表女性


print(shapiro_test_group1)
print(shapiro_test_group2)


# 根据正态性检验结果选择检验方法
if (shapiro_test_group1$p.value > 0.05 & shapiro_test_group2$p.value > 0.05) {
  # 如果数据符合正态分布，使用t检验
  t_test_result <- t.test(BMI ~ Gender, data = df, var.equal = TRUE)
  print(t_test_result)
} else {
  # 如果数据不符合正态分布，使用Mann-Whitney U检验
  mannwhitney_test_result <- wilcox.test(BMI ~ Gender, data = df)
  print(mannwhitney_test_result)
}


# 可视化
ggplot(df, aes(x = as.factor(Gender), y = BMI, fill = as.factor(Gender))) +
  geom_boxplot() +
  labs(title = "BMI Distribution by Gender",
       x = "Gender",
       y = "BMI") +
  theme_minimal()

这意味着什么？

Deepseek取代了书籍、取代了R语言课程、取代了百度。

它取代了统计师了吗？

不，它取代的是程序师！

统计分析，更重要的是统计思维，不是技术不是编程，程序师可以被取代，但Deepseek没有高级统计思维。

就比如说吧我上面写的男性、女性BMI指数的比较，定量数据比较要考虑数据偏态还是正态，因此从技术流程来说，我可以考虑正态性检验：

但这样做对吗？这大概是很官方的教科书的做法。实际上，我已经讲过很多遍，数据分析正态偏态，实际上来说，不能靠统计的正态性检验。因为

P值的做判断本身有问题
大样本的情况，P值都会小于0.05
KS方法所谓适用于大样本，本身不适合我们数据分析前的正态性检验

上述的一些观点，都是一种统计思维，它不是代码能够解决的。

或者说，由统计学方法步步推导出来的结果，或者引发出来的后续一系列解决方案，都是一种数据驱动的策略。

当你执着于数据驱动的统计方法，容易会出一些错误，而你肯定不会有清醒的认识。

2025年，数据分析，要学的更重要是统计思维，就像我说的，学统计，有术和道的区别

在AI时代，学习术是容易的，Deepseek、chatGPT产生的代码比郑老师都靠谱，但是道更重要也更难获得，一个合适的数据分析理念、策略的产生，非一朝一夕的能够掌握。

这就是郑老师公众号一直坚持的理念，无论是是医学生、还是医护工作者，得道才能升天！

感谢大家蛇年的鼓励，我们将继续进行统计道术交流。

郑卫军浙江中医药大学公共卫生学院

2025年2月7日

关于郑老师团队及公众号

大型医学统计服务公众号平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理

我们开展对临床预测模型、轨迹增长模型、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法1对1R语言指导（一年内不限时间，周末、晚上均统计师一对一指导）。

①指导学习R语言基本技巧

②全程指导课程学习

③课程R语言代码运行bug修复

④支持学员一篇SCI论文的数据分析

1对1R语言指导详情介绍

详情联系助教小董咨询（微信号aq566665）

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git