上海古都建筑设计集团,上海办公室装修设计公司,上海装修公司高质量的内容分享社区,上海装修公司我们不是内容生产者,我们只是上海办公室装修设计公司内容的搬运工平台

大数据应用实践--大数据简介

guduadmin17小时前

一、实践内容

1.概述:

1.1大数据应用与前景[了解]

大数据可以做什么?医疗、预测、预防、生活、交通(高德地图)、银行(消费行为分析)、金融(股票走势预测)、电商(淘宝,统计分析用户浏览商品行为)、行为咨询(今日头条)

1.2大数据特点(5V):Volume(大量)(数据量大,PB级别的数据)、Variety(多样性)

数据是以字节来衡量大小

1Byte=8bit               1024B=1KB

1024KB=1MB               1024MB=1GB

1024GB=1TB               1024TB=1PB

1024PB=1EB               1024EB=1ZB

1.3大数据系统架构

应用层:HUE(可视化)、达芬奇(可视化)、H5+Echarts(可视化)

服务层:查询服务接口(HTTP+JSON)、处理流程、查询缓存(Redis)

统一访问接口(Java/Scala API)

计算层:Fink(实时计算)、Spark(内存计算)、Hive(数据仓库)MapReduce(离线计算)、YARN(资源管理系统)

存储层:Kafka(消息队列)MySQL(数据库)、HBase(分布式数据库)、HDFS(分布式文件系统)

采集层:Flume(日志采集系统)、Sqoop(数据库ETL)

数据源:日志文件、关系型数据库

1.4大数据关键技术

(1)离线计算:Hadoop 、Hive、Sqoop、HBase、Flume

(2)实时计算:Scale、Spark(Spark Core,Spark SQL,Spark Streaming)、Kafka、Python、PySpark、Flink

1.5大数据业务逻辑整体流程:

(1)数据来源

(2)数据采集(自动化存储数据,Flume,Kafka)

(3)数据存储(Hadoop,Hive,HBase)

(4)数据清洗(无效的数据,过滤我们业务需要使用的数据)

(5)数据分析(离线可以使用Hive(写SQL),实时分析使用Spark)

(6)数据展示(Tableau,Echarts、Hue等)

1.6大数据需要解决的难题:

(1)海量数据如何存储

(2)海量数据如何处理

1.7为什么需要分布式存储和并行计算?

因为在这个数据爆炸的时代,对于海量数据采用分布式存储和分布式并行计算效率高;

1.8为什么需要Hadoop及Hadoop的由来?

(1)快速处理海量数据、存储海量数据、从海量数据中进行分析以产生价值

(2)分布式存储和并行计算将面临的问题:可扩展性、高可靠性、合并/综合从多个磁盘读取的数据进行分析,Hadoop提供了一个可靠的、可扩展的存储和分析平台。

1.9学习Hadoop大数据前提条件

所需技术:Java、SQL、Linux

2Hadoop生态系统及架构简介

2.1什么是Hadoop?

Hadoop是一个开源软件,是高可靠的、可伸缩的分布式计算框架。

2.2Hadoop的发展史

2.3hadoop的发行版本

2.4Hadoop的优势:高可靠性、高扩展性、高效性、高容错性

2.5Hadoop1和Hadoop2的区别

2.6Hadoop2框架的四个模块(组件):

Common:封装大量的API,为后面的模块

HDFS:分布式文件系统

YARN:做资源调度,分布式计算平台

MapReduce:分布式计算编程模型

2.7HDFS架构概述

2.8YARN架构概述

2.9MapReduce架构概述

2.10大数据生态体系架构

2.11Hadoop解决了什么问题

(1)解决海量数据存储

(2)解决海量数据处理

2.12Hadoop的三大缺陷:

(1)HDFS存储的文件不允许被修改

(2)HDFS不支持多用户并发写入

(3)HDFS不适合存储大量的小文件

2.13Hadoop的应用实例 

二、总结

在本节课中,知道了大数据简介的大概框架,对于为什么要学习这个大数据,我们生活中方方面面都用到大数据,就如我们的行程码,健康吗等,这个方面的发展还是比较好哒。

网友评论

搜索
最新文章
热门文章
热门标签