均匀分布资料总体中位数可信区间估计Bootstrap法样本含量的设置
来源:榕意旅游网
Journa1 of Mathematical Medicine Vo1.24 No.5 2011 文章编号:1004—4337(2O11)O5一O6O2一O3 中图分类号:O212 文献标识码:A ・成果应用・ 均匀分布资料总体中位数可信区间估计 Bootstrap法样本含量的设置 陈国民 (海军潜艇学院摘王丽君 青岛266O71) 要:探讨了Bootstrap样本含量 对Bootstrap法总体中位数可信区间估计效果的影响。首先模拟从均匀分布总体中随 机抽样;然后用Bootstrap法进行总体中位数可信区间估计,重复1000次,得到i000个可信区间,统计1000个可信区间包含总体中 位数的正确率。结果表明,Bootstrap样本含量 对总体中位数可信区间估计的正确率影响很大,Bootstrap样本含量” 越小,正确 率越高;ooBtstrap样本含量 越大,正确率越低;ootBstrap样本含量n 不能任意设置,当Bootstrap样本含量 一n--3时,效果最 好。 关键词: Bootstrap法; 总体中位数可信区间估计; 样本含量; 统计模拟 doi:10.3969/J.issn.1004-4337.2011.05.039 Bootstrap法是以原始数据为基础的模拟抽样统计推断 5000的百分比,该百分比即为Bootstrap法总体中位数可信区 法,用于研究原始数据的某统计量的分布特征,广泛应用于可 信区间估计、假设检验等问题。当用Bootstrap法进行统计分 析时,需要从原样本(样本含量记为 )中随机有放回地抽取 间估计正确率的估计值。 参数设置: 模拟实验一:原样本含量n分别设置为5,10,50,100; Bootstrap样本含量n 分别设置为2,5,l0,20,30,40,50,100, 200。 72 个观测单位,构成Bootstrap样本。关于Bootstrap样本含 量 的大小,一般认为,可以小于、等于或者大于原样本含量 。但从有关Bootstrap法的文献来看,往往把Bootstrap样 模拟实验二:原样本含量 分别设置为2~5O,100;Boot— strap样本含量 分别设置为 , 一1,n一2, 一3, 一4。 判断标准:正确率越接近准确度100(1--4) 越好。本文 4=0.05,所以,1000次模拟所得的正确率越接近95 越好。 2结果与分析 模拟实验一结果见表1。 本含量 设置为与原样本含量 相等L2 ]。为了确定Boot— strap样本含量 的最佳设置方法,本文模拟从均匀分布总体 中随机抽样,用Bootstrap法进行总体中位数可信区间估计, 通过考察不同Bootstrap样本含量n 时的估计效果,探讨 Bootstrap样本含量 的设置方法。 1方法 用VFP编写程序进行统计模拟研究。 模拟步骤: 含量为 。 ②从该样本中随机有放回抽取一个Bootstrap样本,ootB- strap样本含量为 。 . 表1 Bootstrap样本含量n 对总体中位数可信 区间估计正确率( )的影响 ①模拟从均匀分布总体(O,1)中随机抽取一个样本,样本 ③计算获得的Bootstrap样本的中位数。 ④重复步骤(2)~(3)B次(B=1000)。 ⑤对求得的B个中位数按升序排序,找到2.5 (第25 位)和97.5 (第975位)百分位数,即为由该样本估计的总体 中位数的95%可信区间。 ⑥判断求得的95 可信区间是否包含总体中位数0. 5000,如果包含0.5000,则记正确1次;否则记错误1次。 ⑦重复步骤(1)~(6)1000次,得到1000个可信区间。 ⑧统计1000个Bootstrap可信区问包含总体中位数0. 收稿日期:2011—05—08 从中可见:不论原样本含量 大小,Bootstrap法的正确率 随着Bootstrap样本含量 的增加而降低;当Bootstrap样本 作者简介:陈国民(1969一),男,河南浚县人,博士,副教授。研究方向:军事心理学与心理统计。 ・602・ 数理医药学杂志 含量 很小时,Bootstrap法的正确率远远大于95 ,甚至可 达100%;当Bootstrap样本含量 很大时,Bootstrap法的正 确率远远小于95 ,甚至为0;当Bootstrap样本含量72 等于 原样本含量 时,正确率接近或略小于95 。由此可以推断, 当Bootstrap样本含量 稍微小于原样本含量 时,正确率 可能更接近理论准确度。 为了寻找最佳的Bootstrap样本含量n ,进行模拟实验 二。结果见表2。从中可见:①当Bootstrap样本含量 =原 样本含量n时,若原样本含量 较小,则正确率偏低,随着原 样本含量 增加,正确率逐渐提高并接近95 ,当原样本含量 ,z达到3O时,正确率基本接近95 ;②当Bootstrap样本含量 ” =原样本含量 一1时,正确率仍然偏低,但当原样本含量 n达到2O时,正确率基本接近95 ;③当Bootstrap样本含量 一原样本含量 一2时,当原样本含量 达到1O时,正确率 基本接近95 ;④当Bootstrap样本含量 一原样本含量 一 3时,正确率不再偏低,当原样本含量 达到5时,正确率基本 接近95%;⑤当Bootstrap样本含量 一原样本含量,z一4 时,正确率明显偏高,∞ 但当原样本含量 达到3O时,勰∞们正确率基 蛆蛇蝎 本接近95 。 表2 Bootstrap样本含量 对总体中位数可信 区间估计的正确率( )的影响 ”*=…一 —z n*=n-3 n* ̄n--4 5O.5O 75.40 73.1O —— 88.2O 86.9O 88.70 —— 93.5O 91.8O 93.90 94.00 —— 94.2O 96.40 93.8O 96.8O 95.80 87.2O 94.30 91.6O 95.4O 99.1O 93.OO 93.40 94.10 93.9O 98.1O 93.8O 91.9O 96.4O 96.2O 96.60 93.1O 9O.3O 95.10 97.10 97.6O 94.1O 94.3O 93.90 97.20 96.8O 94.3O 96.50 94.7O 96.1O 96.5O 90.20 95.1O 93.2O 96.7O 97.70 92.9O 94.2O 95.00 95.2O 96.7O 92.OO 93.8O 96.30 94.2O 94.9O 93.8O 92.8O 95.4O 95.1O 96.9O 96.3O 94.70 94.9O 95.10 95.1O 93.8O 94.O0 94.6O 96.40 96.7O 95.1O 93.9O 93.7O 95.6O 95.1O 93.70 94.5O 96.70 95.7O 96.20 92.20 94.50 93.70 96.1O 97.5O 92.8O 95.3O 95.60 95.0O 96.70 93.OO 94.20 94.7O 95.70 96.6O 94.1O 94.50 95.9O 93.8O 97.2O 94.70 94.6O 96.00 95.9O 96.50 94.60 94.7O 94.5O 95.2O 95.5O 94.9O 94.9O 94.10 95.4O 95.60 2011年第24卷第5期 0 0 n 94.9O 94.9O 94.50 95.60 93.0O 94.40 94.40 94.40 95.70 94.50 93.9O 94.60 95.5O 94.60 96.1O 93.6O 95.10 94.70 96.30 95.60 93.9O 95.O0 94.8O 94.50 96.4O 93.8O 93.3O 95.10 95.6O 96.5O 95.8O 93.8O 94.40 95.2O 95.9O 95.10 94.6O 96.40 94.90 96.40 94.10 94.40 94.70 94.70 96.20 93.9O 94.OO 95.1O 94.80 95.1O 94.3O 94.60 96.3O 95.5O 95.6O 93.OO 94.6O 94.1O 95.70 95.30 94.8O 93.70 95.6O 94.9O 95.6O 94.0O 95.6O 93.8O 96.10 93.9O 94.60 95.1O 95.00 95.5O 96.3O 94.40 94.9O 96.5O 95.3O 95.1O 95.O0 94.70 95.9O 95.40 95.5O 93.60 95.30 94.9O 95.3O 95.7O -^ 盯94.30 蛆 ∞ 93.6O 95.40 95.2O 95.8O 95.3O 94.6O 94.40 95.3O 96.3O 94.OO 93.3O 94.9O 94.2O 95.6O 94.8O 94.60 94.40 95.10 94.70 94.70 95.1O 95.7O 95.10 95.50 94.70 95.1O 94.50 95.3O 95.3O 为了定量考察Bootstrap样本含量 对总体中位数可信 区间估计准确度的影响,计算表2中各种设置时的误差(误差 一I正确率一95 1),不同设置时的误差比较见表3。由表3可 见,当Bootstrap样本含量n =n--3时,误差的标准差最小, 说明误差的变异最小,同时,此时误差的均数也最小。因此, 结合前面的分析,可认为运用Bootstrap法进行总体中位数可 信区间估计时,把Bootstrap样本含量,2 设置为 一3时效果 最好。 表3各种设置时的误差比较 注:F一2.247,P一0.065。 3讨论 从有关Bootstrap法的文献来看,Bootstrap法的效果与 oBotstrap样本含量 无关,oBotstrap样本含量n 可以任意 设置,既可以小于原样本含量 ,又可以等于原样本含量 ,还 可以大于原样本含量 。但在实际应用中,往往把Bootstrap 样本含量 设置为与原样本含量 相等_1 ]。从本文的模拟 结果来看,Bootstrap样本含量 的设置对Bootstrap法准确 ・603・ B M Journal of Mathematical Medicine Vo1.24 No.5 2011 文章编号:1004—4337(2011)05—0604—02 中图分类号:R971 .43 文献标识码:A ・成果应用・ 葛根异黄酮治疗更年期抑郁症的临床疗效观察 陈爱春 摘顾宗欣 武汉430415) (湖北省武汉市阳逻中心医院妇产科要: 目的:观察葛根异黄酮治疗更年期妇女抑郁症状态的临床疗效。方法:将120例更年期抑郁症患者随机分为葛根异黄 酮组和谷维素组,葛根异黄酮治疗组给予葛根异黄酮540rag,1次/日;谷维素治疗组给予谷维素30mg,3次/日。疗程为8周治疗前 后用HAMD,HAMA的减分率统计疗效。结果:葛根异黄酮组有效率为72%;谷维素组有效率为22 ;经卡方检验两组之间的抗抑 郁疗效差异有显著性意义(P- ̄O.05)。两组HAMD及HAMA量表减分比较,葛根异黄酮组HAMD减分为8.32士3.26,HAMA减 分为9.56±3.98;谷维素组HAMD减分为4.34±2.65,HAMA减分为5.45土0.34,用t检验丽组减分值相比差异显著,(P<0.05)。 结论:葛根异黄酮治疗更年期抑郁症疗效显著,值得临床推广。 关键词:葛根异黄酮;更年期;抑郁症 doi:10.3969/J.issn.1004-4337.2011.05.040 抑郁症是当今社会致残的主要原因之一,给社会和家庭 带来严重的经济负担[1]。女性从青春期至绝经后几年内一直 处在抑郁症高发阶段。其中以45~54岁年龄段的发病率最 高,而终身发病率为男性的1.7~2.7倍[2]。大量资料显示, 女性在青春期、月经前期、产后、更年期时激素的急剧变化是 抑郁症发生和加重的主要因素。随着社会的老龄化,女性一 生约有1/2 ̄1/3处在更年期及绝经后期,因此更年期抑郁症 引起普遍的关注。目前更年期抑郁症疗效如何,在全世界还 没有报道,我们用葛根异黄酮是植物雌激素,它治疗更年期抑 郁症疗效显著,报道如下。 1对象与方法 1.1对象 病例来自我院妇科门诊,2005年9月 ̄2007年9月符合 入组标准的180例更年期女性抑郁患者。180例患者随机进 入3个组:I组为空白对照组;II组为谷维素治疗组;Ⅲ组为葛 根异黄酮治疗组;各组病例数均为6O人。平均年龄分别为5O 士4.19,53士3.62岁和51.O0士5.71岁。方差分析3组年龄 的差异无显著性(P>O.05):入组时的HAMD量表评分分别 为18.12±5.64,18.42士5.21,17.56±6.32,经方差分析,3组 的抑郁严重程度的差异无显著性。按照1994年wH0分类 的绝经前期,围绝经期,绝经期的诊断标准[3],经 检验,组 间在月经状况的构成方面无显著性差异(P>O.05)。 1.2入选标准 ①年龄40 ̄60岁;②具有明显抑郁症症状的中一重度抑 郁患者,CES-D总分≥2O分,HA (17项)总分≥17分;③ 需要说明的是,本研究只是对均匀分布资料的总体中位 度的影响很大,尤其是当原样本含量 较小时,Bootstrap样本 含量 更不能任意设置,否则,估计出来的可信区间误差很 大。模拟结果表明,当用Bootstrap法进行总体中位数可信区 间估计时,如果把Bootstrap样本含量 设置得过小(远远小 于原样本含量 ),则得到的可信区间会很“宽”,从而导致可信 区间的准确度远远高于设置的100(1一a) ;反之,如果把 ootBstrap样本含量 设置得过大(远远大于原样本含量 ), 则得到的可信区间会很“窄”,从而导致可信区间的准确度远 远低于设置的100(1--a) 。 数可信区间估计进行了模拟试验,而且仅设置了a一0.05这 样一种情况,其结论未必适用于其它情况。对于偏态分布资 料总体中位数可信区间估计,尚需进一步的研究。 参考文献 1蔡雪亚,金丕焕,曹素华.用Bootstrap方法计算中位数的可信区 间.中国卫生统计,2002,19(3):185 ̄186. 综合分析模拟结果,可得出如下结论:①如果原样本含量 小于5,ootBstrap法的准确度过低,不宜用Bootstrap法估计 2陈峰,陆守曾,杨珉.Bootstrap估计及其应用.中国卫生统计, 1997,14(5):5~7. 总体中位数可信区间。②如果原样本含量不小于5,Bootstrap 样本含量 设置为原样本含量 一3最合适,可信区间的准 确度非常接近理论准确度100(1一 ) 。③如果原样本含量 较大(大于30),Bootstrap样本含量 可以设置为与原样本 3刘勤,金丕焕.Bootstrap方法及其在医学统计中的应用.中华预 防医学杂志,1998,32(1):52 ̄53. 4敖雁,王学枫,汤在祥,等.Bootstrap方法在平均数假设测验中的 应用.中国卫生统计,2006,6:542 ̄544. 含量 相等,但不宜设置为大于原样本含量”。 收稿日期:2011-05-08 ・604・