Deepseek AI时代,快速帮你数据分析,统计师们是不是要失业了?
看起来Deepseek 会太多了,写小说、写论文、做数学题、联网搜索等等。那我郑老师是否就失业了?比如说:你好,我医学生,想请你帮忙进行数据分析,我这里有个excel,有两个变量Gender和BMI,Gender变量根据编码值分为两组,我想分析两组定量指标BMI有没有差异,请根据数据的特征用R语言进行差异性比较。很遗憾,Deepseek无法直接对excel进行数据分析,但Deepseek给出非常全
看起来Deepseek 会太多了,写小说、写论文、做数学题、联网搜索等等。
那我郑老师是否就失业了?
比如说:
你好,我医学生,想请你帮忙进行数据分析,我这里有个excel,有两个变量Gender和BMI,Gender变量根据编码值分为两组,我想分析两组定量指标BMI有没有差异,请根据数据的特征用R语言进行差异性比较。
很遗憾,Deepseek无法直接对excel进行数据分析,但Deepseek给出非常全面的R语言分析代码,不可谓不详细
# 加载必要的包
library(dplyr)
library(ggplot2)
# 假设你的数据框是 df
# 查看数据
head(df)
# 描述性统计
df %>%
group_by(Gender) %>%
summarise(
n = n(),
mean_BMI = mean(BMI, na.rm = TRUE),
sd_BMI = sd(BMI, na.rm = TRUE),
median_BMI = median(BMI, na.rm = TRUE),
min_BMI = min(BMI, na.rm = TRUE),
max_BMI = max(BMI, na.rm = TRUE)
)
# 正态性检验
shapiro_test_group1 <- shapiro.test(df$BMI[df$Gender == 1]) # 假设1代表男性
shapiro_test_group2 <- shapiro.test(df$BMI[df$Gender == 2]) # 假设2代表女性
print(shapiro_test_group1)
print(shapiro_test_group2)
# 根据正态性检验结果选择检验方法
if (shapiro_test_group1$p.value > 0.05 & shapiro_test_group2$p.value > 0.05) {
# 如果数据符合正态分布,使用t检验
t_test_result <- t.test(BMI ~ Gender, data = df, var.equal = TRUE)
print(t_test_result)
} else {
# 如果数据不符合正态分布,使用Mann-Whitney U检验
mannwhitney_test_result <- wilcox.test(BMI ~ Gender, data = df)
print(mannwhitney_test_result)
}
# 可视化
ggplot(df, aes(x = as.factor(Gender), y = BMI, fill = as.factor(Gender))) +
geom_boxplot() +
labs(title = "BMI Distribution by Gender",
x = "Gender",
y = "BMI") +
theme_minimal()
这意味着什么?
Deepseek取代了书籍、取代了R语言课程、取代了百度。
它取代了统计师了吗?
不,它取代的是程序师!
统计分析,更重要的是统计思维,不是技术不是编程,程序师可以被取代,但Deepseek没有高级统计思维。
就比如说吧我上面写的男性、女性BMI指数的比较,定量数据比较要考虑数据偏态还是正态,因此从技术流程来说,我可以考虑正态性检验:

但这样做对吗?这大概是很官方的教科书的做法。实际上,我已经讲过很多遍,数据分析正态偏态,实际上来说,不能靠统计的正态性检验。因为
-
P值的做判断本身有问题
-
大样本的情况,P值都会小于0.05
-
KS方法所谓适用于大样本,本身不适合我们数据分析前的正态性检验
上述的一些观点,都是一种统计思维,它不是代码能够解决的。
或者说,由统计学方法步步推导出来的结果,或者引发出来的后续一系列解决方案,都是一种数据驱动的策略。
当你执着于数据驱动的统计方法,容易会出一些错误,而你肯定不会有清醒的认识。
2025年,数据分析,要学的更重要是统计思维,就像我说的,学统计,有术和道的区别

在AI时代,学习术是容易的,Deepseek、chatGPT产生的代码比郑老师都靠谱,但是道更重要也更难获得,一个合适的数据分析理念、策略的产生,非一朝一夕的能够掌握。
这就是郑老师公众号一直坚持的理念,无论是是医学生、还是医护工作者,得道才能升天!
感谢大家蛇年的鼓励,我们将继续进行统计道术交流。
郑卫军 浙江中医药大学公共卫生学院
2025年2月7日
关于郑老师团队及公众号
大型医学统计服务公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理
我们开展对临床预测模型、轨迹增长模型、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法1对1R语言指导(一年内不限时间,周末、晚上均统计师一对一指导)。
①指导学习R语言基本技巧
②全程指导课程学习
③课程R语言代码运行bug修复
④支持学员一篇SCI论文的数据分析
详情联系助教小董咨询(微信号aq566665)

更多推荐
所有评论(0)