看起来Deepseek 会太多了,写小说、写论文、做数学题、联网搜索等等。

那我郑老师是否就失业了?

比如说:

你好,我医学生,想请你帮忙进行数据分析,我这里有个excel,有两个变量Gender和BMI,Gender变量根据编码值分为两组,我想分析两组定量指标BMI有没有差异,请根据数据的特征用R语言进行差异性比较。

很遗憾,Deepseek无法直接对excel进行数据分析,但Deepseek给出非常全面的R语言分析代码,不可谓不详细

# 加载必要的包
library(dplyr)
library(ggplot2)


# 假设你的数据框是 df
# 查看数据
head(df)


# 描述性统计
df %>%
  group_by(Gender) %>%
  summarise(
    n = n(),
    mean_BMI = mean(BMI, na.rm = TRUE),
    sd_BMI = sd(BMI, na.rm = TRUE),
    median_BMI = median(BMI, na.rm = TRUE),
    min_BMI = min(BMI, na.rm = TRUE),
    max_BMI = max(BMI, na.rm = TRUE)
  )


# 正态性检验
shapiro_test_group1 <- shapiro.test(df$BMI[df$Gender == 1])  # 假设1代表男性
shapiro_test_group2 <- shapiro.test(df$BMI[df$Gender == 2])  # 假设2代表女性


print(shapiro_test_group1)
print(shapiro_test_group2)


# 根据正态性检验结果选择检验方法
if (shapiro_test_group1$p.value > 0.05 & shapiro_test_group2$p.value > 0.05) {
  # 如果数据符合正态分布,使用t检验
  t_test_result <- t.test(BMI ~ Gender, data = df, var.equal = TRUE)
  print(t_test_result)
} else {
  # 如果数据不符合正态分布,使用Mann-Whitney U检验
  mannwhitney_test_result <- wilcox.test(BMI ~ Gender, data = df)
  print(mannwhitney_test_result)
}


# 可视化
ggplot(df, aes(x = as.factor(Gender), y = BMI, fill = as.factor(Gender))) +
  geom_boxplot() +
  labs(title = "BMI Distribution by Gender",
       x = "Gender",
       y = "BMI") +
  theme_minimal()

这意味着什么?

Deepseek取代了书籍、取代了R语言课程、取代了百度。

它取代了统计师了吗?

不,它取代的是程序师!

统计分析,更重要的是统计思维,不是技术不是编程,程序师可以被取代,但Deepseek没有高级统计思维。

就比如说吧我上面写的男性、女性BMI指数的比较,定量数据比较要考虑数据偏态还是正态,因此从技术流程来说,我可以考虑正态性检验:

4b927df1bf0a2a929fd9c57cf16b1129.png

但这样做对吗?这大概是很官方的教科书的做法。实际上,我已经讲过很多遍,数据分析正态偏态,实际上来说,不能靠统计的正态性检验。因为

  • P值的做判断本身有问题

  • 大样本的情况,P值都会小于0.05

  • KS方法所谓适用于大样本,本身不适合我们数据分析前的正态性检验

上述的一些观点,都是一种统计思维,它不是代码能够解决的。

或者说,由统计学方法步步推导出来的结果,或者引发出来的后续一系列解决方案,都是一种数据驱动的策略。

当你执着于数据驱动的统计方法,容易会出一些错误,而你肯定不会有清醒的认识。

2025年,数据分析,要学的更重要是统计思维,就像我说的,学统计,有术和道的区别

6533b0e55f863ec67ba6bf93c3daaf5a.png

在AI时代,学习术是容易的,Deepseek、chatGPT产生的代码比郑老师都靠谱,但是道更重要也更难获得,一个合适的数据分析理念、策略的产生,非一朝一夕的能够掌握。

这就是郑老师公众号一直坚持的理念,无论是是医学生、还是医护工作者,得道才能升天!

感谢大家蛇年的鼓励,我们将继续进行统计道术交流。

郑卫军 浙江中医药大学公共卫生学院

2025年2月7日

关于郑老师团队及公众号 

大型医学统计服务公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理

我们开展对临床预测模型、轨迹增长模型、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法1对1R语言指导(一年内不限时间,周末、晚上均统计师一对一指导)。

①指导学习R语言基本技巧

②全程指导课程学习

③课程R语言代码运行bug修复

④支持学员一篇SCI论文的数据分析

1对1R语言指导详情介绍

详情联系助教小董咨询(微信号aq566665

445c3886c4fe35d6a10ada5e8d9644f3.jpeg

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐