首页 > 留学资讯 > 澳洲留学辅导 > 卧龙岗大学统计学抽样分布重点解析

卧龙岗大学统计学抽样分布重点解析

作者：海马发布时间：2023-08-18 10:29:12

抽样分布是统计学中一个重要的概念，它描述了从总体中抽取多个样本后，样本统计量(如平均数、标准差、比例等)的分布情况。抽样分布有助于我们理解样本统计量的变异性，并且在进行统计推断时提供了基础。这篇文章为大家带来卧龙岗大学统计学抽样分布重点解析。

一、抽样分布概述

许多基本的多元方法都使用 F 分布及其相关检验和临界值：它是化学计量学中许多常用统计检验的基础，例如，用于检测异常值或观测值是否属于预定义类别。

我们已经看到，当一个群体具有基本的正态分布，但样本量较小时，t 分布适用于估计临界值或置信限。这主要是由于确定群体标准差的难度较大，而使用的方法往往会低估标准差，从而导致平均值的表面分布失真。

二、卡方分布

当我们讨论卡方分布 1 时，我们注意到它代表了马哈拉诺比斯距离均值平方的分布，特别是如果测量的变量不止一个，就没有特定的正负方向，因此，使用平方距离(与方向无关)是至关重要的。因此，卡方分布很自然地从单变量数据扩展到了多变量数据。

当变量不止一个但样本量较小时，F 分布可视为 t 分布的等效扩展。文献中有许多引入该分布的方法，它被广泛应用于许多不同的领域。在本文和下一篇文章中，我们主要关注多维空间中的数据分布：F 分布通常在方差分析中引入。在以后的文章中，我们还会在其他场合遇到这种分布及其相关统计量。

三、自由度

F 分布有两种不同的自由度。

通常写作 F(ν1,ν2)。F 分布的累积分布函数(cdf)或概率密度函数的横轴代表 F 统计量。我们将在下一篇文章中看到，如果变量不止一个，它就不等于马哈拉诺比斯距离的平方，这与卡方统计量不同。

在我们的上下文中，如果我们考虑一个由 n 个观测值和 k 个变量组成的样本，那么 ν1 表示变量的数量，ν2 表示观测值的数量减去变量的数量(n - k)。

注意，F(ν1, ν2) ≠ F(ν2, ν1)。

如果数据集以矩阵格式表示，那么行数等于 ν2 + ν1，列数等于 ν1。

需要注意的是，定义矩阵的维数时，通常是先行后列，但为了 F 分布的目的，我们将其对调，第一个自由度指的是数据矩阵中的变量数或列数。如图 1 所示。

请注意，n 不能小于 k。这个明显的限制已在 Mahalanobis 距离 2 中讨论过。不过，可以通过先进行主成分分析以减少变量数量来克服这一限制。

重要的是要记住，与卡方分布一样，F 分布只有在变量独立的情况下才能得到。然而，如果我们使用马哈拉诺比斯距离度量，则如前文所讨论的那样，F 分布始终是独立的，因为这实际上等同于进行主成分变换。

四、单变量关系

如果只有 1 个自由度，那么数据就是单变量的，可以得出几种直接的关系。

为了便于说明，我们考虑 F 值为 4 的测量。

如果样本量较大，那么 F 分布、卡方分布和 t2 分布都会得出相同的结果。

在 Excel 中输入 F.DIST(4,1,10 000 - 1,TRUE)，n = 10 000：4 代表 F 值，1 等于 ν1，10 000 - 1 等于 ν2。逻辑值 "TRUE "代表累积分布。这应该给出预计 F 统计量小于 4 的数据比例。

要检查卡方分布，请输入 CHISQ.DIST(4,1,TRUE)。

对于 t，我们应该记住，我们处理的是 F 和卡方分布的平方距离，而使用 t 时处理的是它们的平方根，当然本例只涉及一个变量。键入 (T.DIST(SQRT(4),10 000,TRUE) - 0.5)*2。这个表达式相当长，因为我们需要计算 t 统计量位于平均值两侧 +2 和 -2 之间的数据的预期比例。

所有情况下的答案都应该是 0.954。因此，95.4% 的人口的 chi 平方或 F 统计量小于 4，或 t 统计量小于 2(4 的平方根)。

海马课堂专业课程辅导，2100+严选硕博学霸师资，针对学生的薄弱科目和学校教学进度，匹配背景相符的导师，根据学生情况进行1V1专属备课，上课时间灵活安排，中英双语详细讲解课程中的考点、难点问题，并提供多方位的课后辅导，辅助学生掌握全部课程知识，补足短板。