统计学原理重要公式

2021-07-07 来源：榕意旅游网

一．加权算术平均数和加权调和平均数的计算

加权算术平均数：

xxff

或

xxff

加权调和平均数：

x

mxfmfx

频数也称次数。在一组依大小顺序排列的测量值中，当按一定的组距将其分组时出现在各组内的测量值的数目，即落在各类别（分组）中的数据个数。

再如在3.14159265358979324中，‘9’出现的频数是3，出现的频率是3/18=16.7%

一般我们称落在不同小组中的数据个数为该组的频数，频数与总数的比为频率。

频数也称“次数”，对总数据按某种标准进行分组，统计出各个组内含个体的个数。而频率则每个小组的频数与数据总数的比值。

在变量分配数列中，频数（频率）表明对应组标志值的作用程度。频数（频率）数值

越大表明该组标志值对于总体水平所起的作用也越大，反之，频数（频率）数值越小，表明该组标志值对于总体水平所起的作用越小。

掷硬币实验：在10次掷硬币中，有4次正面朝上，我们说这10次试验中‘正面朝上’的频数是4

例题：我们经常掷硬币，在掷了一百次后，硬币有40次正面朝上，那么，硬币反面朝上的频数为____.

解答，掷了硬币100次，40次朝上，则有100-40=60（次）反面朝上，所以硬币反面朝上的频数为60.

一．加权算术平均数和加权调和平均数的计算

加权算术平均数：

x

xff 或

xxff

x代表算术平均数；∑是总和符合；f为标志值出现的次数。

加权算术平均数是具有不同比重的数据（或平均数）的算术平均数。比重也称为权重，数据的权重反映了该变量在总体中的相对重要性，每种变量的权重的确定与一定的理论经验或变量在总体中的比重有关。依据各个数据的重要性系数(即权重)进行相乘后再相

加求和，就是加权和。加权和与所有权重之和的比等于加权算术平均数。

加权平均数 = 各组（变量值 × 次数）之和 / 各组次数之和 = ∑xf / ∑f

加权调和平均数：

x

mxfmfx

加权算术平均数以各组单位数f为权数，加权调和平均数以各组标志总量m为权数但计算内容和结果都是相同的。

二．标准差和标准差系数的计算方法

标准差：

xxσ=

2ff

公式

标准差也被称为标准偏差，或者实验标准差，公式如图。

简单来说，标准差是一组数据平均值分散程度的一种度量。一个较大的标准差，代表大部分数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接**均值。

例如，两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ，但第二个集合具有较小的标准差。

标准差可以当作不确定性的一种测量。例如在物理科学中，做重复性测量时，测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值，测量值的标准差占有决定性重要角色：如果测量平均值与预测值相差太远（同时与标准差数值做比较），则认为测量值与预测值互相矛盾。这很容易理解，因为如果测量值都落在一定数值范围之外，可以合理推论预测值是否正确。

标准差应用于投资上，可作为量度回报稳定性的指标。标准差数值越大，代表回报远离过去平均数值，回报较不稳定故风险越高。相反，标准差数值越细，代表回报较为稳定，风险亦较小。

例如，A、B两组各有6位学生参加同一次语文测验，A组的分数为95、85、75、65、55、45，B组的分数为73、72、71、69、68、67。这两组的平均数都是70，但A组的标准差为17.07分，B组的标准差为2.37分（此数据时在R统计软件中运行获得），说明A组学生之间的差距要比B组学生之间的差距大得多。

如是总体，标准差公式根号内除以n

如是样本，标准差公式根号内除以（n-1)

因为我们大量接触的是样本，所以普遍使用根号内除以（n-1)

公式意义

所有数减去其平均值的平方和，所得结果除以该组数之个数（或个数减一)，再把所得值开根号，所得之数就是这组数据的标准差。

标准差的意义

标准差越高,表示实验数据越离散,也就是说越不精确

反之,标准差越低,代表实验的数据越精确

离散度

标准差是反应一组数据离散程度最常用的一种量化形式，是表示精密确的最要指标。说起标准差首先得搞清楚它出现的目的。我们使用方法去检测它，但检测方法总是有误差的，所以检测值并不是其真实值。检测值与真实值之间的差距就是评价检测方法最有决定性的指标。但是真实值是多少，不得而知。因此怎样量化检测方法的准确性就成了难题。这也是临床工作质控的目的：保证每批实验结果的准确可靠。

虽然样本的真实值是不可能知道的，但是每个样本总是会有一个真实值的，不管它究

竟是多少。可以想象，一个好的检测方法，基检测值应该很紧密的分散在真实值周围。如何不紧密，那距真实值的就会大，准确性当然也就不好了，不可能想象离散度大的方法，会测出准确的结果。因此，离散度是评价方法的好坏的最重要也是最基本的指标。

标准差系数：

x

v标准差系数又均方差系数。反映标志变动程度的相对指标。

式中：Vσ为标准差系数；σ为标准差；x 为平均数。当以样本标准差系数（称变异系数/离散系数）估计总体标准差系数时，VS= 式中：VS为变异系数；S为样本标准差。对于不同水平的总体不宜直接用标准差指标进行对比，标准差系数能更好的反映不同水平总体的标志变动度。

标准差变动系数为标志变异系数的一种。标志变异系数指用标志变异指标与其相应的平均指标对比，来反应总体各单位标志值之间离散程度的相对指标，一般用v表示。标志变异指标有全距、平均差和标准差，相对应的，便有全距系数、平均差系数和标准差系数3种。计算方法为：

标志变异系数=标志变异值/相对应的平均值

三．总体平均数和总体成数的区间估计。

抽样平均误差的计算公式：

1．总体平均数：

n

重复抽样：

x重复抽样又称放回式抽样。

每次从总体中抽取的样本单位，经检验之后又重新放回总体，参加下次抽样，这种抽样的特点是总体中每个样本单位被抽中的概率是相等的。

不重复抽样：

x2n(1n)N

不重复抽样亦称不放回式抽样。

每次从总体中抽取的样本单位，经检验之后不再放回总体，在下次抽样时不会再次抽到前面已抽中过的样品单位。

总体每经一次抽样，其样品单位数就减少一个，因此每个样品单位在各次抽样中被抽中的概率是不同的。

2．总体成数：

重复抽样：

pp(1p)pn 不重复抽样： p(1p)n(1)nN

抽样极限误差：

抽样极限误差又称“置信区间和抽样允许误差范围”，是指在一定的把握程度（P）下保证样本指标与总体指标之间的抽样误差不超过某一给定的最大可能范围，记作△。

抽样极限误差是指用绝对值形式表示的样本指标与总体指标偏差的可允许的最大范围。它表明被估计的总体指标有希望落在一个以样本指标为基础的可能范围。它是由抽样指标变动可允许的上限或下限与总体指标之差的绝对值求得的。

由于总体平均数和总体成数是未知的，它要靠实测的抽样平均数成数来估计。因而抽样极限误差的实际意义是希望总体平均数落在抽样平均数的范围内，总体成数落在抽样成数的范围内。

基于理论上的要求，抽样极限误差需要用抽样平均误差μχ或μρ为标准单位来衡量。即把极限误差△x或△p相应除以μχ或μρ，得出相对的误差程度t倍，t称为抽样误差的概率度。于是有：

1．总体平均数: xtx

定义：总体中所有个体的平均数叫做总体平均数。

原理：考察的对象中的每一个考察对象的平均数叫做总体平均数。

2. 总体成数： △p＝ｔμp

总体成数。它是指总体中具有某一相同标志表现的单位数占全部总体单位数的比重，一般用P表示。总体中具有相同标志表现的单位数用N1表示。

总体平均数和总体成数的区间估计:

1. 总体平均数:

x - tux ≤ X ≤ x + tux

2. 总体成数：

p - tup ≤ p ≤ p + tup

样本单位数的确定：

1．总体平均数:

重复抽样： n = t2σ2 /Δ2x

不重复抽样：n = t2σ2 N /( NΔ2x + t2σ2 )

2．总体成数：

重复抽样： n = t2p(1-p) /Δ2p

不重复抽样：n = t2p(1-p) N /( NΔ2p + t2p(1-p) )

四．相关系数的计算、回归方程的建立和应用

全部栏目

统计学原理重要公式