大数据概述
@author Zenos
行百里者半九十
文章目录
- 大数据概述
- 背景
- 定义
- 大数据5V特性
- 大数据技术处理流程
- 附录
背景
我们身处信息爆炸的时代,互联网的高速发展使得数据成倍递增。据IDC预测,全球数据圈将于2025年增长到175ZB。面对日益增长的数据,我们又该如何存储、并利用他们?我们常听到的大数据技术也就是这个问题的解决方案。
定义
-
大数据是指无法在一定时间内使用常规的软件工具对其内容进行抓取、管理和处理的数据集合。
-
大数据技术是从海量数据中快速捕获价值信息的技术,也就是解决海量数据的存储和计算的问题。
大数据5V特性
大数据的特点可以概述为5V特性:
-
体量大(Volume)
数据的体量大。这个大是相对而言的,现在我们生活中所接触的硬盘所能存储的数据量已经达到TB,大数据的数据量通常高达 PB。
-
类型多(Variety)
数据的类型多,包括但不限于网络日志、视频、图片、文本、语音等。
-
处理速度快(Velocity)
遵循1秒定律,数据规模大但处理速度要快,这也是大数据技术与传统数据挖掘技术的本质区别。
-
价值密度低(Value)
在海量的数据中,有价值的数据较少。
-
高准确性(Veracity)
数据具有准确性高、质量高、可以移植性高的特点。
大数据技术处理流程
-
数据采集(Data Ingestion)
-
技术框架
Flume、Kafka、DataX、Sqoop等。
-
描述
将数据从源系统抽取、传输到大数据系统中,确保数据的可靠性和完整性。
-
数据存储(Data Storage)
-
技术框架
HDFS、HBase等。
-
描述
将采集到的数据存储在分布式文件系统或分布式数据库中,以便后续处理和分析。
-
数据处理(Data Processing)
-
技术框架
MapReduce、 Spark、Flink等。
-
描述
使用批处理或流处理框架执行数据处理任务,包括数据清洗、转换、聚合和计算。
-
数据分析(Data Analytics)
-
技术框架
Hive、TensorFlow等。
-
描述
运行机器学习算法或其他分析工具,以发现数据中的关联和趋势,提取有用信息。
-
数据可视化(Data Visualization)
-
工具
Tableau、FineBI、Power BI等。
-
描述
创建图表、仪表板和报表,将分析结果以可视化的方式呈现,以便用户可以直观地理解数据分析的结果。
-
-
-
-
-
附录
参考文章链接:
- author:黄建 url:IDC报告:2025年中国将成为最大数据圈 三分之一数据需要企业保护 - 众视网_视频运营商科技媒体 (asiaott.net)
-
-
-
猜你喜欢
网友评论
- 搜索
- 最新文章
- 热门文章