HBase高阶（一）基础架构及存储原理

guduadmin18小时前

一、HBase介绍

简介

HBase是Hadoop生态系统中的一个分布式、面向列的开源数据库，具有高可伸缩性、高性能和强大的数据处理能力。广泛应用于处理大规模数据集。

HBase是一种稀疏的、分布式、持久的多维排序map

稀疏：对比关系型数据库和非关系型数据库，关系型数据库是以表格的形式进行存储，对存储的要求较高，每一行每一列都需要预留对应的存储空间，这就会造成存储空间的浪费。

分布式：海量数据保存在多台机器上。

持久化：将内存中的对象存储在数据库中，或者存储在磁盘文件中。

多维：noSQL数据库的本质是KV结构。像hashMap就是一种单维的kv结构，存储的数据不够全面、较为单一。

排序：无序的数据当想要查找的时候，需要遍历全表。而排序的表可以按照一些算法进行查找

map：由行键、列键和时间戳作为key，value是一个未解释的字节数组（未解释：经过序列化或没有经过UTF-8编码。这么做能够节省存储空间）

hbase的设计模型可以参考这篇文档：

Amandeep Khurana - 基本模型导论

1. 特点

我们都知道HBase是一种分布式的NoSQL 数据库。比起传统的 RDBMS，由于缺少RDBMS中的许多特性，HBase 更像是一种【数据存储-Data Store】而非【数据库-Data Base】。但是当集群中数据增加到一定程度时，传统RDBMS很难支撑起大量的存储需求，而HBase可以通过分裂rowkey，将数据分布式的存储在不同的RegionServer上。

数据模式：HBase是一种模式灵活的数据库系统，没有严格定义的表结构。
强一致性的读/写：HBase在默认情况下提供最终一致性，即写入操作的结果可能不会立即对所有读取操作可见。
存储与计算：HBase存储在HDFS，使用MapReduce进行计算
支持使用Java API进行编程访问
支持Block Cache和Bloom Filters进行大容量查询优化

2. 使用场景

当数据量够大，比如数亿行数据
没有使用到RDBMS的特性，如索引、事务、高级查询语言等
由于需要使用集群，所以需要保证有足够的硬件资源

二、HBase逻辑结构（概念）

1. 基础模型

一个Hbase表的逻辑结构是这样的：

HBase高阶（一）基础架构及存储原理,第1张

名词解释：

Column Family（列族）：HBase中的每个列都归属于某个列族，列族不能改变，一行可有多个列族，一个列族可有任意个列；
Column（列）：类似于关系型数据库中的列名。一般都是从属于某个列族，跟列族不一样，这些列都可以动态添加；
RowKey（行键）：行键是HBase记录条目的主键，物理存储时会按照RowKey的字典序排序存储，HBase基于RowKey实现索引。
存储特点：
- Key-Value（键值对）：每一列存储的是一个键值对，Key是列名，Value是列值。通过{行键，列族名，列名}可以唯一确定一个列单元并获取数据Value，和关系型数据库不同的是，HBase中的数据是没有类型的，都是以bytes形式存储；
- Byte（数据类型）：数据在HBase中以Byte存储，实际的数据类型交由用户转换；
- 多维：通过行、列能维持一个复杂的结构；
- 数据存储整体有序：按照rowkey的字典序排列，rowkey为byte数组；
- 稀疏矩阵：行与行之间的列数可以不同，但只有实际的列才会占用存储空间；
- Version（多版本）：每一列都可配置相应的版本数量，获取指定版本的数据（默认返回最新版本）。HBase 的版本维度按递减顺序存储，因此在从存储文件中读取时，最新的值首先被找到。
  
  【引申】
  
  由于HBase通过Put和Result支持“Bytes-in/Bytes-out”接口，因此任何可以转换为字节数组的内容都可以作为值存储。输入可以是字符串、数字、复杂对象，甚至是图像，只要它们可以转换为字节。
  
  类似于一个文件夹，里面可以存放各种类型的文件，比如文本文件、图片文件、视频文件等。你可以将这个文件夹看作是HBase表中的一行数据，而文件夹中的文件就是该行数据的值。无论是什么类型的文件，只要它们可以转换为字节，就可以存储在HBase中。
  
  2. 模型拆分
  
  一个表示数十亿行、数百万列，如果不进行拆分无法对其进行存储。
  - 首先横向以行为单位进行拆分。因为在数据表格使用时往往以行为单位，在写入时往往一次写入一行的数据。拆分完就把表格拆分出一个结构：Region。Region在拆分完之后会有对应的rowkey范围，每个Region的rowkey范围不一样，互相不交叉。用于实现分布式结构，拆分完之后可以放到不同的节点上。
  - 然后以列族为单位竖向切分。由于存在数百万列，不进行拆分数据量太大。切分出来的单位成为store。竖向切分为store，用于底层存储到不同的文件夹中，便于文件存储。
  - 切分region：放到不同的节点；切分store：拆分文件夹
    3. 多维映射的HBase表中的一行
    
    Key 由 [row key, column family, column qualifier, timestamp] 组成 Value 为每一个 cell 的内容
    
    三、HBase 物理存储结构
    
    虽然在概念级别上可以将表视为一组稀疏的行，但它们在物理上是按列族存储的，可以随时向现有列族添加新的列限定符(column_family:column_qualifier)。
    
    在上面图示中，拆分到最后一个存储单元是一个store。以一个store为例，value是实际存储的数值，也就是“张三”。
    Key由行号①rowkey、②列号（包括列族、列限定符）、③时间戳（用于标记版本）、④type（当前标记，如put、delete）组成。
    
    解释：
    - 修改：由于HBase是以HDFS为存储基础的数据库，而HDFS在对文件存储时只能新增、删除、不能修改，所以HBase不能修改数据。为了实现修改数据的功能，HBase通过时间戳来实现版本的标记。读取数据的时候有两个时间版本，新的版本会覆盖旧的版本，就会被认为数据已经修改。
    - 删除：与修改类似，为了实现对数据的删除，HBase通过对时间戳标记，实现对数据的删除。
    1. 数据模型
    - NameSpace（命名空间）：与database概念类似。每个命名空间下有多个表；
    - Table（表）：类似于关系型数据库中表的概念。但Hbase定义表时只需要声明列族，不需要声明具体的列；
    - Row：每行数据由一个Rowkey和多个Column（列）组成；
    - Column：每个列由Column Family（列族）和Column Qualifier（列限定符）进行限定。建表时只需要声明列族，列限定符无需预先定义；
    - Time Stamp：用于标识数据的不同版本（version），数据写入时会自动加上该字段，其值为写入HBase的时间；
    - Cell：由 {rowkey, column Family:column Qualifier, time Stamp} 唯一确定的单元。cell 中的数据是没有类型的，全部是字节码形式存贮。底层存储的一行数据为一个cell。（一个版本对应一个cel）
      
      2.自动分区
      
      HBase中扩展和负载均衡的基本单元是Region，Region本质上是以行键rowkey排序的连续存储区间。如果region太大，系统会动态拆分；如果region太小，系统同样会把多个region合并，以减少存储的文件数。
      
      四、HBase架构及设计
      Zookeeper，作为分布式的协调。RegionServer也会把自己的信息写到ZooKeeper中。
      HDFS是Hbase运行的底层文件系统
      RegionServer，理解为数据节点，存储数据的。
      Master RegionServer要实时的向Master报告信息。Master知道全局的RegionServer运行情况，可以控制RegionServer的故障转移和Region的切分。
      1. 主架构
      - client：当一个Client需要访问HBase集群时，Client需要先和Zookeeper来通信，获取路由表hbase-meta的存放地址。通过这个存放地址可以获得hbase:meta文件来找到的Client所需要的Region和对应的Region Server的地址，进行DML操作。
      - zookeeper：HMaster通过zookeeper实现分布式的管理。
      - HMaster / Backup-Master：HMaster 是 HBase 集群的主节点，负责管理整个集群的元数据（如表和列族信息）、调度和协调工作，以及处理管理操作。HMaster 负责分配和管理 RegionServer，负责 Region 的负载均衡、故障恢复和自动切分。在 HBase 中，每个集群通常只有一个 HMaster节点，在故障发生时可以通过自动故障转移来切换到另一台 HMaster。
      - HRegionServe：HRegionServer 是 HBase 集群中的工作节点，负责存储和处理数据。RegionServer将进程信息注册到zookeeper中，master读取zk中注册的信息，从而实现管理。每个 RegionServer 管理多个 HBase 表的 Region，每个 Region 负责存储表的一部分数据。HRegionServer 处理来自客户端的读写请求，并将数据存储到 HDFS 上。它还负责处理 Region的分裂、合并、迁移等操作，以及处理数据的压缩、缓存和预取。
      - HDFS：用于实际存储数据。
        2. 其他组成部分
        
        HLog：预写日志文件。负责记录着数据的操作日志，当HBase出现故障时可以进行日志重放、故障恢复。例如，磁盘掉电导致 MemStore中的数据没有持久化存储到 StoreFile，这时就可以通过HLog日志重放来恢复数据。
        HRegion：将表切分成多个region。
        Store：一个 Region 由多个 Store 组成，每个 Store 都对应一个 Column Family, Store 包含 MemStore 和 StoreFile。
        MemStore：内存数据存储，数据的写操作会先写到 MemStore 中，当MemStore 中的数据增长到一个阈值（默认64M）后，Region Server 会启动 flasheatch 进程将 MemStore 中的数据写人 StoreFile 持久化存储，每次写入后都形成一个单独的 StoreFile。
        StoreFile：保存实际数据的物理文件。MemStore 内存中的数据写到文件后就是StoreFile，StoreFile底层是以 HFile 的格式保存在HDFS上。HBase以Store的大小来判断是否需要切分Region。
        
        HFile / StoreFile：HFile 和 StoreFile 是同一个文件，只不过站在 HDFS 的角度称这个文件为HFile，站在HBase的角度就称这个文件为StoreFile。每个Store会有一个或者多个StoreFile，数据在每个StoreFile中都是有序的。
        
        HBase将表格的数据存储到HDFS上，按照 namespace -> table -> region -> store 的格式划分文件夹存储。在store内部存储HFile，内部为对应的cell。
        
        3. HBase 表的设计原则
        
        region 的大小设置在 10-50GB 之间；
        单个 cell 大小不超过 10MB。或使用mob机制存储数据时，单个mob列不大于50MB。否则，可以考虑将数据存储在HDFS中，并在HBase中存储一个指向数据在HDFS中位置的指针；
        一个典型的模式每个表有1到3个列族。HBase表不应该被设计成模仿RDBMS表；
        对于1-2个列族的表来说，region最好设置为50-100个；
        列族尽可能短，不能像RDBMS那样具有描述性；
        
        【注】mob是指"Mobile”（移动）的简称。它是一种特殊的存储机制，用于存储较大的数据值（例如大文本、图像、音频等），可以提供更高的读取性能和压缩比
        
        4. HBase 列族的设计原则
        
        HBase目前不能很好地处理超过两个或三个列族的任何东西，所以最好尽量减少列族的数量。
        如果单个表中存在多个列族，请注意表格的行数。如果列族A 有100万行，而列族B 有10亿行，那么列族A 的数据可能会分布在很多很多的 regionserver 中。会大大降低对列族A 进行大规模扫描的效率。
        
        5. HBase RowKey的设计原则
        
        参考 -> HBase rowkey的设计原则
        
        四、HBase原理
        
        写入过程
        
        当数据写入HBase时，首先会根据表的设计将数据写入对应的Region。每个Region维护一个HLog和MemStore。数据首先被追加到HLog中，以提供数据的持久性和故障恢复。然后数据被写入内存的MemStore中，当MemStore积累到一定的大小后，将其刷新到磁盘上的HFile中。同时，HBase还会对数据进行压缩和写缓存等优化操作。
        
        可以参考->HBase有写入数据，页面端显示无数据量_five小点心的博客-CSDN博客
        
        读取过程
        
        读取数据时，HBase首先在内存中的MemStore中查找数据，然后在HFile中进行查找。由于HFile支持块级索引，可以高效地定位到指定行的数据。HBase还可以利用块缓存（BlockCache）来加速数据的读取操作，通过将热点数据缓存在内存中，提高读取性能。
        
        故障恢复
        
        HBase通过复制机制实现数据的冗余备份，并通过多个RegionServer之间的数据复制来提供高可用性和容错性。当一个RegionServer宕机时，HBase会使用备份的数据进行自动故障转移，将失效的Region切换到其他可用的RegionServer上。
        
        自动切分
        
        HBase支持自动切分（Split）功能，当一个Region存储的数据过大时，HBase会自动将其切分为两个或多个Region，从而实现数据的均衡分布。