上海古都建筑设计集团,上海办公室装修设计公司,上海装修公司高质量的内容分享社区,上海装修公司我们不是内容生产者,我们只是上海办公室装修设计公司内容的搬运工平台

大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

guduadmin18小时前

文章目录

  • 1、Hadoop
  • 2、HDFS
  • 3、HIVE
  • 4、HBase
  • 5、Spark

1、Hadoop

  • Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。它提供了一个可扩展的分布式文件系统(HDFS)和一个分布式计算框架(MapReduce),可以在大量廉价硬件上进行并行计算。

2、HDFS

  • HDFS(Hadoop Distributed File System)是Hadoop的分布式文件系统。它被设计用于在集群中存储和管理大规模数据集。HDFS将数据分割成块,并将这些块复制到不同的计算节点上,以提供容错性和高可用性。
  • 据我了解,大部分公司一般将模型需要的数据例如csv/libsvm格式的文件都会保存成Hive表并存放在HDFS上。

3、HIVE

  • HIVE是基于Hadoop的数据仓库基础设施,提供了一种类似于SQL的查询语言(HiveQL),用于查询和分析存储在Hadoop上的数据。Hive可以将结构化数据映射到Hadoop的分布式文件系统上HDSF上&#x

网友评论

搜索
最新文章
热门文章
热门标签