一、实践内容
1.概述:
1.1大数据应用与前景[了解]
大数据可以做什么?医疗、预测、预防、生活、交通(高德地图)、银行(消费行为分析)、金融(股票走势预测)、电商(淘宝,统计分析用户浏览商品行为)、行为咨询(今日头条)
1.2大数据特点(5V):Volume(大量)(数据量大,PB级别的数据)、Variety(多样性)
数据是以字节来衡量大小
1Byte=8bit 1024B=1KB
1024KB=1MB 1024MB=1GB
1024GB=1TB 1024TB=1PB
1024PB=1EB 1024EB=1ZB
1.3大数据系统架构
应用层:HUE(可视化)、达芬奇(可视化)、H5+Echarts(可视化)
服务层:查询服务接口(HTTP+JSON)、处理流程、查询缓存(Redis)
统一访问接口(Java/Scala API)
计算层:Fink(实时计算)、Spark(内存计算)、Hive(数据仓库)MapReduce(离线计算)、YARN(资源管理系统)
存储层:Kafka(消息队列)MySQL(数据库)、HBase(分布式数据库)、HDFS(分布式文件系统)
采集层:Flume(日志采集系统)、Sqoop(数据库ETL)
数据源:日志文件、关系型数据库
1.4大数据关键技术
(1)离线计算:Hadoop 、Hive、Sqoop、HBase、Flume
(2)实时计算:Scale、Spark(Spark Core,Spark SQL,Spark Streaming)、Kafka、Python、PySpark、Flink
1.5大数据业务逻辑整体流程:
(1)数据来源
(2)数据采集(自动化存储数据,Flume,Kafka)
(3)数据存储(Hadoop,Hive,HBase)
(4)数据清洗(无效的数据,过滤我们业务需要使用的数据)
(5)数据分析(离线可以使用Hive(写SQL),实时分析使用Spark)
(6)数据展示(Tableau,Echarts、Hue等)
1.6大数据需要解决的难题:
(1)海量数据如何存储
(2)海量数据如何处理
1.7为什么需要分布式存储和并行计算?
因为在这个数据爆炸的时代,对于海量数据采用分布式存储和分布式并行计算效率高;
1.8为什么需要Hadoop及Hadoop的由来?
(1)快速处理海量数据、存储海量数据、从海量数据中进行分析以产生价值
(2)分布式存储和并行计算将面临的问题:可扩展性、高可靠性、合并/综合从多个磁盘读取的数据进行分析,Hadoop提供了一个可靠的、可扩展的存储和分析平台。
1.9学习Hadoop大数据前提条件
所需技术:Java、SQL、Linux
2Hadoop生态系统及架构简介
2.1什么是Hadoop?
Hadoop是一个开源软件,是高可靠的、可伸缩的分布式计算框架。
2.2Hadoop的发展史
2.3hadoop的发行版本
2.4Hadoop的优势:高可靠性、高扩展性、高效性、高容错性
2.5Hadoop1和Hadoop2的区别
2.6Hadoop2框架的四个模块(组件):
Common:封装大量的API,为后面的模块
HDFS:分布式文件系统
YARN:做资源调度,分布式计算平台
MapReduce:分布式计算编程模型
2.7HDFS架构概述
2.8YARN架构概述
2.9MapReduce架构概述
2.10大数据生态体系架构
2.11Hadoop解决了什么问题
(1)解决海量数据存储
(2)解决海量数据处理
2.12Hadoop的三大缺陷:
(1)HDFS存储的文件不允许被修改
(2)HDFS不支持多用户并发写入
(3)HDFS不适合存储大量的小文件
2.13Hadoop的应用实例
二、总结
在本节课中,知道了大数据简介的大概框架,对于为什么要学习这个大数据,我们生活中方方面面都用到大数据,就如我们的行程码,健康吗等,这个方面的发展还是比较好哒。
猜你喜欢
网友评论
- 搜索
- 最新文章
- 热门文章