

Copyright ©2015-2025 海马课堂网络科技(大连)有限公司 办公地址:辽宁省大连市高新技术产业园区火炬路32A号创业大厦A座18层1801室

添加微信
咨询辅导

FIT5202的重点是大数据处理,包括使用最新大数据技术的数据量、复杂性和速度。在大数据量方面,它涵盖使用并行技术的大容量数据处理。在大维度(或复杂度)方面,它涵盖了并行处理的各种数据分析方法。在速度方面,它涵盖数据流处理。
一、什么是大数据?
大数据是结构化、半结构化和非结构化数据的集合,可在预测分析、机器学习和其他高级数据分析应用中进行处理和使用。根据 Gartner 的说法,"大数据是高容量、高速度和高品种的信息资产,需要经济高效、创新形式的信息处理,以增强洞察力和决策制定能力"。
此外,Doug Laney 将大数据定义为 5 个 V,即数量(Volume)、速度(Velocity)、种类(Variety)、价值(Value)和真实性(Veracity)。
数量代表所收集的结构化和非结构化数据的数量,速度指接收数据的频率,多样性指音频、视频、文本、数字数据等数据格式,价值定义所收集数据的有用程度,而所收集数据的准确性则被称为 "真实性"。
尽管 "大数据 "并不是指特定数量的数据,但大数据的实施通常包括跨期收集的千兆字节、万兆字节和兆字节数据。如今,企业正在利用海量数据集来加强管理、提供更好的客户支持、开展有针对性的营销活动等。例如,大数据可为企业提供重要的 "消费者分析"(Consumer Analytics),可用于改进营销策略和实践,提高客户参与度。
二、大数据有哪些类型?
结构化
半结构化
非结构化
A) 结构化数据
结构化数据是指具有明确结构的标准化格式。结构化数据以表格形式组织,列和行之间存在关系。例如,Excel 文件或 SQL 数据库包含结构数据的行和列。结构化数据需要有数据模型,即关于如何存储、访问和处理数据的概念。每个字段都是独立的,可以单独访问,也可以与其他区域的信息一起访问。
B) 半结构化数据
半结构化数据是指无法在关系数据库中排列的数据,或者缺乏精确的功能结构但具有某些结构特性的数据。半结构化数据由按主题分组或适合分层编程语言的信息组成。它是一种结构化数据,不包含与任何关系数据库相关的数据模型的任何表格格式。面向对象数据库包含的 XML 文档、HTML 文件和表格就是半结构化数据的常见例子。半结构化数据的优点是可用性广,可用于产生深入的见解。
C)非结构化数据
非结构化数据被归类为定性数据,因为它没有预定的形状或结构。每天,企业都会收到海量的非结构化数据--视频、音频、文本等,这些数据正被用于创建大规模的深度学习模型,以解决现实世界中的一些复杂问题。然而,从非结构化数据中生成洞察力非常困难,而且需要巨大的计算能力。
海马课堂专业课程辅导,2100+严选硕博学霸师资,针对学生的薄弱科目和学校教学进度,匹配背景相符的导师,根据学生情况进行1V1专属备课,上课时间灵活安排,中英双语详细讲解课程中的考点、 难点问题,并提供多方位的课后辅导,辅助学生掌握全部课程知识,补足短板。
阅读原文:https://www.highmarktutor.com/news/14416_62.html
版权作品,未经海马课堂 highmarktutor.com 书面授权,严禁转载,违者将被追究法律责任。
hmkt088