大数据组件

菜单

本页目录

SparkSQL基础入门

什么是 SparkSQL

SparkSQL 是 Spark 生态系统中的一个模块，提供 SQL 风格的语法，方便处理结构化数据。
处理对象主要是 结构化数据，比如数据库表、CSV 文件等。

为什么学习 SparkSQL

功能强大：
- SQL 语言支持：提供 SQL 查询的能力，简洁易用。
- 性能强大：依靠 Spark 的分布式计算能力，支持对海量数据的高效计算。
- 自动优化：内置 Catalyst 优化器，能够自动进行查询优化。
- API 简单：可以通过 DataFrame 和 Dataset API 简单地实现数据操作。
- Hive 兼容：可以无缝集成 Hive，实现与 Hive 的数据交互。
企业使用广泛：
- 被大量企业用于处理业务数据，如 离线开发、数据仓库搭建、科学计算 和 数据分析。

SparkSQL 的特点

融合性：
- SQL 可以无缝地集成在 Spark 的代码中，结合其他编程语言（如 Scala、Java 或 Python）使用，随时可以用 SQL 处理数据。
统一数据访问：
- 提供一套标准 API，能够从不同数据源中读写数据，支持如 CSV、JSON、Parquet 等不同格式的数据源。
Hive 兼容：
- 可以直接使用 SparkSQL 计算 Hive 数据，支持读取和写入 Hive 数据表。
标准化连接：
- 支持标准化的 JDBC/ODBC 连接，方便和其他数据库或 BI 工具进行数据交互。

目录

上一篇 Spark-SQL

下一篇 SparkSQL和Hive的异同以及SparkSQL抽象数据