上海古都建筑设计集团,上海办公室装修设计公司,上海装修公司高质量的内容分享社区,上海装修公司我们不是内容生产者,我们只是上海办公室装修设计公司内容的搬运工平台

SparkCore

guduadmin18小时前

一、RDD详解

1.1 什么是RDD

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。

  • Dataset:一个数据集合,用于存放数据的。
  • Distributed:RDD中的数据是分布式存储的,可用于分布式计算。
  • Resilient:RDD中的数据可以存储在内存中或者磁盘中。

 SparkCore,第1张

SparkCore,第2张

1.2 RDD的五大特征

前三个特征每个RDD都具备的,后两个特征可选的

1.2.1 RDD是有分区的

RDD的分区是RDD数据存储最小单位

SparkCore,第3张

网友评论

搜索
最新文章
热门文章
热门标签