第1章HBase简介
1.1HBase定义
HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。
1.2HBase数据模型
逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensionalmap。
1.2.1HBase逻辑结构
字典序:按位比较。
下图是一张表,但是一张表往往会被切分开来,分配在不同区域。
1.2.2HBase物理存储结构
该数据结构是对上图的store的一个详解
1.2.3数据模型
1)NameSpace
命名空间,类似于关系型数据库的DatabBase(数据库)概念,每个命名空间下有多个表。HBase有两个自带的命名空间,分别是hbase和default,hbase中存放的是HBase内置的表,default表是用户默认使用的命名空间。
2)Region
类似于关系型数据库的表概念。不同的是,HBase定义表时只需要声明列族即可,不需要声明具体的列。这意味着,往HBase写入数据时,字段可以动态、按需指定。因此,和关系型数据库相比,HBase能够轻松应对字段变更的场景。
3)Row
HBase表中的每行数据都由一个RowKey和多个Column(列)组成,数据是按照RowKey的字典顺序存储的,并且查询数据时只能根据RowKey进行检索,所以RowKey的设计十分重要。
4)Column
HBase中的每个列都由ColumnFamily(列族)和ColumnQualifier(列限定符)进行限定,例如info:name,info:age。建表时,只需指明列族,而列限定符无需预先定义。
5)TimeStamp
用于标识数据的不同版本(version),每条数据写入时,如果不指定时间戳,系统会自动为其加上该字段,其值为写入HBase的时间。
6)Cell
由{rowkey,columnFamily:columnQualifier,timeStamp}唯一确定的单元。cell中的数据是没有类型的,全部是字节码形式存贮。
1.3HBase基本架构
不完整版
架构角色:
1)RegionServer
RegionServer为Region的管理者,其实现类为HRegionServer,主要作用如下:对于数据的操作:get,put,delete;对于Region的操作:splitRegion、compactRegion。
2)Master
Master是所有RegionServer的管理者,其实现类为HMaster,主要作用如下:对于表的操作:create,delete,alter对于RegionServer的操作:分配regions到每个RegionServer,监控每个RegionServer的状态,负载均衡和故障转移。
3)Zookeeper
HBase通过Zookeeper来做Master的高可用、RegionServer的监控、元数据的入口以及集群配置的维护等工作。
4)HDFS
HDFS为HBase提供最终的底层数据存储服务,同时为HBase提供高可用的支持。
猜你喜欢
- 3小时前如何在spark中使用scikit-learn和tensorflow等第三方python包
- 3小时前计算机毕业设计——简单的网页设计
- 3小时前网络安全(黑客)—2024自学
- 3小时前网络安全(黑客技术)—2024自学
- 3小时前【计算机毕设选题】基于大数据的股票量化分析与股价预测系统
- 3小时前项目分享:基于大数据的股票数据分析系统设计与实现
- 3小时前TDengine Kafka Connector将 Kafka 中指定 topic 的数据(批量或实时)同步到 TDengine
- 3小时前软件架构设计的核心:抽象与模型、“战略编程”
- 3小时前计算机毕业设计 基于Hadoop的物品租赁系统的设计与实现 Java实战项目 附源码+文档+视频讲解
- 41分钟前小考成绩怎么查(小考成绩怎么查2024山西)
网友评论
- 搜索
- 最新文章
- 热门文章