

Copyright ©2015-2025 海马课堂网络科技(大连)有限公司 办公地址:辽宁省大连市高新技术产业园区火炬路32A号创业大厦A座18层1801室

添加微信
咨询辅导

数据挖掘和统计学习方法使用各种计算工具来理解大型复杂数据集。在某些情况下,重点是建立模型,根据输入集合预测定量或定性输出。在其他情况下,目标只是从没有特定输出变量的数据中找到关系和结构。这篇文章为大家带来QBUS6810统计学习和数据挖掘难点讲解。
一、课程概览
现在,企业通常都能获得非常丰富的信息数据集,这些数据集通常是作为公司或业务单位主要机构活动的副产品自动生成的。数据挖掘涉及推断和验证数据中的模式、结构和关系,是支持商业环境中决策的一种工具。
本单元深入介绍了可视化和分析商业与市场数据的主要统计方法。它提供了提取特定任务(如信用评分、预测和分类、市场细分和产品定位)所需信息的必要工具。重点是使用现代软件工具进行数据挖掘的商业应用。
二、关于数据挖掘
数据挖掘包括探索和分析大量信息,以收集有意义的模式和趋势。数据挖掘可用于信用风险管理、欺诈检测和垃圾邮件过滤。它也是一种市场研究工具,有助于揭示特定人群的情绪或观点。数据挖掘过程分为四个步骤:
收集数据并加载到现场或云服务的数据仓库中。
业务分析师、管理团队和信息技术专业人员访问数据,并决定如何组织数据。
定制应用软件对数据进行分类和组织。
最终用户以图形或表格等易于共享的格式展示数据。
三、数据仓库和挖掘软件
数据挖掘程序根据用户要求分析数据中的关系和模式。它将信息组织成类。
例如,一家餐厅可能希望使用数据挖掘来确定在哪天提供哪些特价菜。可以根据顾客的光顾时间和点餐内容将数据分门别类。
在其他情况下,数据挖掘人员会根据逻辑关系找到信息集群,或研究关联和顺序模式,从而得出消费者行为趋势的结论。
仓储是数据挖掘的一个重要方面。仓储是将组织的数据集中到一个数据库或程序中。这样,企业就可以根据特定用户的需求,将数据分门别类,供其分析和使用。
四、关于数据统计
过去 10-20 年间,统计科学发生了巨大变化,而且随着科学和工业技术的进步,这种变化还在继续。世界上充斥着大量复杂的数据,研究人员正试图从中找出答案。主要的例子包括生物医学中的 "omic "检测数据、经济和商业指标的财务预测,以及为优化网站广告投放而对用户点击模式进行的分析。这引起了人们对统计学和机器学习领域的极大兴趣,并催生了一个被称为 "数据科学 "的新领域。
用尤阿夫-本杰明尼(Yoav Benjamini)的话说,统计方法已经 "工业化",以应对这些变化。传统上,科学家们手工拟合一些统计模型,而现在,他们使用复杂的计算工具在大量模型中进行搜索,寻找有意义的模式。完成搜索后,面临的挑战是判断已发现的明显关联的强度。例如,两个测量值 A 和 B 之间 0.9 的相关性可能值得注意。然而,假设我是以如下方式得出 A 和 B 的:实际上,我从 1,000 个测量值开始,在所有测量值中寻找相关性最高的一对;结果发现 A 和 B 的相关性为 0.9。有了这个背景故事,这个发现就不那么令人印象深刻了,即使所有 1000 个测量结果都不相关,也很可能是偶然发现的。现在,如果我只是向你报告这两个测量值 A 和 B 的相关性为 0.9,而不告诉你我是通过这两种途径中的哪一种获得的,你就不会有足够的信息来判断这种明显关系的强度。这种统计问题被称为 "选择性推断",即在挖掘相同数据以发现这些关联之后,再评估数据集的显著性和效应大小。
海马课堂专业课程辅导,2100+严选硕博学霸师资,针对学生的薄弱科目和学校教学进度,匹配背景相符的导师,根据学生情况进行1V1专属备课,上课时间灵活安排,中英双语详细讲解课程中的考点、 难点问题,并提供多方位的课后辅导,辅助学生掌握全部课程知识,补足短板。
阅读原文:https://www.highmarktutor.com/news/15339_62.html
版权作品,未经海马课堂 highmarktutor.com 书面授权,严禁转载,违者将被追究法律责任。
hmkt088