Spark: 分布式计算引擎框架概述

1. Spark 基于 MapReduce (MR) 开发

Spark 是一种强大的分布式计算框架，最初受到 Hadoop MapReduce 的启发。与 Hadoop 不同的是，Spark 专注于内存计算和优化处理流程，提高了计算性能和效率。

单机模式示意图

分布式模式示意图

Spark 集群中心化：Spark 集群中的资源管理和调度通常由中心化的组件（如 Spark 的 Master 节点或 YARN）管理，负责分配任务和协调节点之间的计算。

集群去中心化架构示意图

Kafka 去中心化：与 Spark 的中心化管理不同，Kafka 是一种去中心化的消息传输系统，多个节点可以平等地参与数据传输和处理，没有单一的控制节点。

框架：框架是一个不完整的计算程序，它提供了核心功能的实现，但不包括特定的业务逻辑。开发人员可以基于框架开发特定的业务应用程序。Spark 是一个典型的计算框架。
系统：一个完整的系统是包含所有功能的计算程序，具备从核心功能到业务逻辑的完整实现。

Spark宏观工作示意图

MapReduce (MR)：最早的 Hadoop MapReduce 使用 Java 编写。虽然 Java 具有广泛的使用范围，但它在处理大规模数据时显得不够灵活。
Spark：Spark 采用了 Scala 作为主要的开发语言。Scala 具有函数式编程的特性，特别适合进行大量的数据处理。除了 Scala，Spark 也支持 Java、Python 和 R 等语言。

MapReduce工作示意图

Spark工作示意图

Spark：Spark 通过优化计算过程，基于内存进行计算，极大提高了处理速度。Spark 可以将数据加载到内存中进行操作，减少了对磁盘 I/O 的依赖，从而加快了大规模数据的处理效率。

Spark 与 Hadoop 的关系：Spark 是对 Hadoop MapReduce 的优化和提升，专注于内存计算，大大提升了处理速度和可扩展性。尽管 Spark 通常用于替代 Hadoop MapReduce，但它仍然可以在 Hadoop 集群上运行，利用 HDFS（Hadoop Distributed File System）进行分布式存储。
分布式存储与计算的结合：Spark 中的数据被切分为多个分片（partition），并分布在集群的不同节点上。每个节点可以独立处理其分配到的数据分片，这种并行计算的方式极大地提高了数据处理效率。
核心组件：
- Spark Core：提供分布式任务调度和内存管理等核心功能。
- Spark SQL：支持结构化数据查询，允许使用 SQL 语法查询大数据。
- Spark Streaming：支持实时数据处理，适合处理流数据。
- MLlib：提供分布式机器学习算法的实现。
- GraphX：支持图计算，适合处理社交网络等图数据结构。