NHANES数据库权重计算
在讲权重选择和计算之前,大家是否还记得小编在NHANES数据库数据下载一文的文末提到下载好的数据不能够利用常规的统计方法直接分析,今天跟大家分享一下,正确分析的前提是什么,也就是如何选择并计算权重(1)复杂多阶段抽样调查一般情况下,当我们使用统计软件进行数据分析时,软件默认数据的抽样设计是简单随机抽样。但是由于简单随机抽样不适用于大范围的调查,NHANES采用的是复杂多阶段抽样(counties、
目录
在讲权重选择和计算之前,大家是否还记得小编在 NHANES数据库数据下载 一文的文末提到下载好的数据不能够利用常规的统计方法直接分析,今天跟大家分享一下,正确分析的前提是什么,也就是如何选择并计算权重
1、复杂多阶段抽样调查
一般情况下,当我们使用统计软件进行数据分析时,软件默认数据的抽样设计是简单随机抽样。但是由于简单随机抽样不适用于大范围的调查,NHANES采用的是复杂多阶段抽样(counties、segments、household和individual),每个人被抽中的概率不等,各阶段抽样数据不独立。所以当我们面对nhanes数据时,如果直接采用常规的统计方法(描述性统计:如计算均值、标准差、百分比;统计推断和模型:如区间估计、T检验、方差分析、回归等)分析会出现问题。这就要求我们在进行这些分析之前经过一定的调整,也就让统计软件知道具体的抽样设计。
2、如何让你的软件知道抽样设计为复杂多阶段抽样?
在上一篇文章中,我们提到下载nhanes数据的时候,除了需要下载参与者的信息外还需要下载抽样调查相关信息(weight,strata,psu)。之所用要下载这部分数据,就是为了在正确分析数据之前,先告诉统计软件nhanes的抽样设计是复杂多阶段抽样。
在R中,利用survery包中的svydesign()方法可以设置抽样方法
nhanesDesign <- svydesign(id = ~psu,
strata = ~strata,
weights = ~persWeight, #nhanes数据分析中weight需要提前计算
nest = TRUE,
data = nhanesAnalysis)
对于复杂抽样的数据,只有正确设置好抽样方案后才能够进行后续的分析。svydesign()方法中,id处传数据中的psu变量,代表告知指初级抽样单位,strata处传strata变量,代表告知分层指标。这个两个下载下来后不需要处理直接传入即可。
svydesign()方法中weigths需要传入一个正确的权重。需要注意的是,在nhanes中不同的变量可能会对应不同的weight,比如,BMI对应的权重是wtmec2yr,age对应的权重是wtint2yr,也就是说一份数据中可能有多个不同的weight,那么该如何得到正确的weight呢?这就涉及到了nhanes数据分析前的权重选择和计算问题了。
3、如何正确选择并计算权重
(1)权重类型(只针对2001年后的数据)
以下列出几种常见的权重类型(基本够用)
变量类型 | 权重类型 |
in-home interview收集的变量 | wtint2yr |
MEC检查变量 | wtmec2yr |
子样本变量(如:空腹甘油三酯) | 相应子样本权重(空腹子样本权重:wtsaf2yr) |
24-hour dietary recall(day1)变量 | wtdrd1 |
24-hour dietary recall(day2)变量 | wtdrd2 |
对NHANES数据而言,分析最终使用的权重取决于所纳入的变量。权重选择的核心原则:先明确检测人数最少的变量,然后取该变量对应的权重。
(2)权重选择
①所有变量都是以in-home interview的方式收集,权重采用wtint2yr;
只有研究的所有变量都是以in-home interview的方式收集的,权重才用wtint2yr,如果还有其他方式收集的变量,接着往下看;
②部分变量是以MEC的方式收集的,权重采用wtmec2yr;
如果所有变量只有以in-home interview和MEC检查两种方式收集的,权重就用wtmec2yr,如果还有子样本变量(没有24-hour dietary recall变量),参考第③点选择权重;如果包含24-hour dietary recall变量则直接参考第④点选择权重;
③部分变量是调查子样本的一部分,则采用相应子样本权重;
如果研究的变量同时包括wtint2yr,wtmec2yr以及自样本权重这个三种权重,则选择相应子样本权重;因为所有参与者都接受采访(in-home interview)(人群1),在接受采访的人中部分接受MEC检查(人群2),在接受MEC检查的人中,只有空腹8小时以上的人才检查了空腹甘油三酯(人群3:子样本人群),即人群3(子样本人群)<人群2<人群1,根据权重选择的核心原则,所以选择子样本变量对应的权重为最终权重。
④一些变量来自24小时饮食回忆(24-hour dietary recall)
24小时饮食回忆不属于子样本变量,但是完成这部分调查的参与者其权重比较特殊,一周中工作日和周末的饮食摄入量可能会存在差异,该权重可以调整这些差异。只要研究中有变量是以24-hour dietaryrecall方式收集的(不管是否包括wtint2yr,wtmec2yr或者子样本权重),最终权重都为wtdrd1(第一天)/wtdrd2(2天)。
(3)结合周期计算权重
(合并多个周期时需合并权重,这里只针对1999年后的数据)
先根据以上原则选择相应的权重类型,然后根据合并的周期重新计算,以下以wtint2yr权重为例。总原则:对于任何不包括1999-2000年的2001-2002年及以后的任何周期合并,权重都等于1/周期数*(相应权重)。
①如果只合并1999-2000和2001-2002四年(2个周期)的数据,则最终权重为wtint4yr(全部周期中,只有合并了1999-2002四年的数据才有wtint4yr这个权重类型,其他所有的都是wtint2yr);
②如果合并1999-2004六年(3个周期)的数据,需分成1999-2002年(作为整体算2个周期)和2003-2004(1个周期)两部分考虑:
1999-2002年(2个周期)的权重为2/3*wtint4yr;
2003-2004年(1个周期)的权重为1/3*wtint2yr
③如果合并2001-2002和2003-2004四年(2个周期)的数据,则最终权重为1/2*wtint2yr;
④如果合并2001-2006六年(3个周期)的数据,因为没有包括1999-2000年的数据,所以最终权重为1/3*wtint2yr。
至此基本可满足大部分研究的权重选择和计算,计算好之后将最终的权重数据传入svydesign()方法中weigths即完成了抽样方式的设置,这样就可以进行后续的分析了,包括根据纳入和排除标准选择最终纳入分析的人群以及统计分析。
更多相关知识可关注以下公众号
更多推荐
所有评论(0)