注册/登录
移动端
 
首页 > 留学资讯 > 澳洲留学 > 卧龙岗大学统计学抽样分布重点解析

卧龙岗大学统计学抽样分布重点解析

作者:海马 发布时间:2023-08-18 10:29

抽样分布是统计学中一个重要的概念,它描述了从总体中抽取多个样本后,样本统计量(如平均数、标准差、比例等)的分布情况。抽样分布有助于我们理解样本统计量的变异性,并且在进行统计推断时提供了基础。这篇文章为大家带来卧龙岗大学统计学抽样分布重点解析抽样分布重点解析

一、抽样分布概述

许多基本的多元方法都使用 F 分布及其相关检验和临界值:它是化学计量学中许多常用统计检验的基础,例如,用于检测异常值或观测值是否属于预定义类别。

我们已经看到,当一个群体具有基本的正态分布,但样本量较小时,t 分布适用于估计临界值或置信限。这主要是由于确定群体标准差的难度较大,而使用的方法往往会低估标准差,从而导致平均值的表面分布失真。

二、卡方分布

当我们讨论卡方分布 1 时,我们注意到它代表了马哈拉诺比斯距离均值平方的分布,特别是如果测量的变量不止一个,就没有特定的正负方向,因此,使用平方距离(与方向无关)是至关重要的。因此,卡方分布很自然地从单变量数据扩展到了多变量数据。

当变量不止一个但样本量较小时,F 分布可视为 t 分布的等效扩展。文献中有许多引入该分布的方法,它被广泛应用于许多不同的领域。在本文和下一篇文章中,我们主要关注多维空间中的数据分布:F 分布通常在方差分析中引入。在以后的文章中,我们还会在其他场合遇到这种分布及其相关统计量。

三、自由度

F 分布有两种不同的自由度。

通常写作 F(ν1,ν2)。F 分布的累积分布函数(cdf)或概率密度函数的横轴代表 F 统计量。我们将在下一篇文章中看到,如果变量不止一个,它就不等于马哈拉诺比斯距离的平方,这与卡方统计量不同。

在我们的上下文中,如果我们考虑一个由 n 个观测值和 k 个变量组成的样本,那么 ν1 表示变量的数量,ν2 表示观测值的数量减去变量的数量(n - k)。

注意,F(ν1, ν2) ≠ F(ν2, ν1)。

如果数据集以矩阵格式表示,那么行数等于 ν2 + ν1,列数等于 ν1。

需要注意的是,定义矩阵的维数时,通常是先行后列,但为了 F 分布的目的,我们将其对调,第一个自由度指的是数据矩阵中的变量数或列数。如图 1 所示。

请注意,n 不能小于 k。这个明显的限制已在 Mahalanobis 距离 2 中讨论过。不过,可以通过先进行主成分分析以减少变量数量来克服这一限制。

重要的是要记住,与卡方分布一样,F 分布只有在变量独立的情况下才能得到。然而,如果我们使用马哈拉诺比斯距离度量,则如前文所讨论的那样,F 分布始终是独立的,因为这实际上等同于进行主成分变换。

四、单变量关系

如果只有 1 个自由度,那么数据就是单变量的,可以得出几种直接的关系。

为了便于说明,我们考虑 F 值为 4 的测量。

如果样本量较大,那么 F 分布、卡方分布和 t2 分布都会得出相同的结果。

在 Excel 中输入 F.DIST(4,1,10 000 - 1,TRUE),n = 10 000:4 代表 F 值,1 等于 ν1,10 000 - 1 等于 ν2。逻辑值 "TRUE "代表累积分布。这应该给出预计 F 统计量小于 4 的数据比例。

要检查卡方分布,请输入 CHISQ.DIST(4,1,TRUE)。

对于 t,我们应该记住,我们处理的是 F 和卡方分布的平方距离,而使用 t 时处理的是它们的平方根,当然本例只涉及一个变量。键入 (T.DIST(SQRT(4),10 000,TRUE) - 0.5)*2。这个表达式相当长,因为我们需要计算 t 统计量位于平均值两侧 +2 和 -2 之间的数据的预期比例。

所有情况下的答案都应该是 0.954。因此,95.4% 的人口的 chi 平方或 F 统计量小于 4,或 t 统计量小于 2(4 的平方根)。

海马课堂专业课程辅导,2100+严选硕博学霸师资,针对学生的薄弱科目和学校教学进度,匹配背景相符的导师,根据学生情况进行1V1专属备课,上课时间灵活安排,中英双语详细讲解课程中的考点、 难点问题,并提供多方位的课后辅导,辅助学生掌握全部课程知识,补足短板。

相关热词搜索:

阅读原文:https://www.highmarktutor.com/news/14636_62.html

版权作品,未经海马课堂 highmarktutor.com 书面授权,严禁转载,违者将被追究法律责任。

热门课程推荐

hmkt088

欢迎咨询