HBase概述

从1970年开始，大多数公司使用关系型数据库来存储和维护数据。随着大数据技术的出现，许多公司开始选择像Hadoop这样的分布式系统来存储和处理海量数据。

Hadoop简介

Hadoop使用分布式文件系统HDFS来存储数据，并使用MapReduce来处理数据。它擅长存储各种格式的大数据，支持任意格式，甚至非结构化的数据。此外，Hadoop生态系统中包含许多组件，例如Hive、Pig和Spark，这些组件进一步增强了数据处理的灵活性和效率。

Hadoop主要用于批量数据处理，通过顺序访问数据来实现。查找数据时必须遍历整个数据集，随机读取数据的效率较低。此外，Hadoop的MapReduce编程模型相对复杂，开发效率低，延迟高，不适合需要低延迟的数据处理任务。

NoSQL是指代非关系型数据库的通用术语，通常不使用SQL作为主要语言。HBase是BigTable的开源Java实现，建立在HDFS之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的NoSQL数据库系统。

HBase只支持通过主键（rowkey）或主键范围检索数据，仅支持单行事务。它适用于存储结构化和半结构化的松散数据。

HBase的查询功能简单，不支持join操作和复杂事务（只支持行级事务）。HBase更像是一个"数据存储"而不是"数据库"，因为它缺少关系型数据库中的特性，例如带类型的列、二级索引和高级查询语言。HBase中的数据类型为byte[]。

HBase的扩展主要依赖于横向扩展，通过增加廉价的服务器来提高存储和处理能力。例如，将集群从10个节点扩展到20个节点，存储能力和处理能力都会加倍。

HBase中的表特点：

HBase基于Hadoop集群搭建，弥补了Hadoop的一些局限性，例如高吞吐量的批量数据处理，但在随机查询和实时操作方面不如传统关系型数据库。HBase不支持join操作，仅有一种数据类型：byte[]，写入速度非常快。

HBase适用于存储非常大的表，支持上亿行和上百万列，常用于实时数据处理中。HBase与Hadoop集成，能够结合MapReduce、Hive和Spark等工具，支持复杂的数据分析和处理任务。

HDFS
- 适合存储大型文件的分布式文件系统。
- 不适合在文件中快速查询特定数据。
HBase
- 构建在HDFS之上，为大型表提供快速查找和更新。
- 数据存储在HDFS中名为「StoreFiles」的索引中，以便高速查找。
- 适合快速查询场景，但不适合大规模OLAP应用。

Hive
- 数据仓库工具，基于HDFS，适用于离线数据分析。
- 使用HQL来管理和查询数据，具有较高的延迟。
- 编写的HQL语句最终会被转换为MapReduce代码执行。
HBase
- NoSQL数据库，采用面向列存储的非关系型数据结构。
- 适用于单表数据存储，不适合JOIN操作。
- 基于HDFS，数据以HFile形式存放，RegionServer管理数据。
- 延迟低，适合在线业务，提供高效的数据访问速度。

Hive 和 HBase 是两种基于 Hadoop 的不同技术。

Hive：Hive 是一种类 SQL 的数据仓库工具，使用 HQL（Hive Query Language）进行查询，依赖于 MapReduce 任务运行，适用于批量数据分析和处理。
HBase：HBase 是构建在 Hadoop 之上的 NoSQL 数据库，采用键值（Key/Value）存储，擅长实时随机读写操作。
这两种工具可以结合使用。例如，Hive 适合统计查询，HBase 适合实时查询。数据可以从 Hive 写入 HBase，也可以从 HBase 写回 Hive。