SparkSQL 的 Shuffle 分区数目

在 SparkSQL 中，当作业需要进行 Shuffle 操作时，默认的 Shuffle 分区数是由 spark.sql.shuffle.partitions 参数控制的。这个参数非常重要，因为它直接影响了任务的并行度和性能。以下是有关 spark.sql.shuffle.partitions 参数的一些整理和补充。

1. `spark.sql.shuffle.partitions` 参数介绍

参数名：spark.sql.shuffle.partitions
默认值：4（在一些旧的 Spark 版本中默认值是 200）
作用：控制 SparkSQL 中 Shuffle 阶段的默认分区数，也就是在有 Shuffle 操作（如 groupBy、join、orderBy 等）时，数据被重新划分的分区数量。
适用场景：对于集群模式运行，默认值 200 比较合适；而对于本地模式运行，200 个分区可能会造成过多的调度开销，因此应适当调整为较小的值。

2. 如何设置 `spark.sql.shuffle.partitions`

spark.sql.shuffle.partitions 参数可以在不同的地方进行设置，下面是三种常见的设置方式：

1. 配置文件中设置

可以在 Spark 的配置文件中设置该参数。在 conf/spark-defaults.conf 文件中添加如下配置：

spark.sql.shuffle.partitions 100

2. 提交 Spark 作业时设置

在通过 spark-submit 提交作业时，可以通过 --conf 参数来设置：

bin/spark-submit --conf "spark.sql.shuffle.partitions=100" my_spark_application.py

3. 代码中设置

可以在代码中通过 SparkSession 的配置项来进行设置：

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Example Application") \
    .master("local[*]") \
    .config("spark.sql.shuffle.partitions", "2") \
    .getOrCreate()

在上述代码中，将 spark.sql.shuffle.partitions 设置为 2，可以更好地适应本地运行的环境。

3. `spark.sql.shuffle.partitions` 参数的重要性

这个参数和Spark RDD中（spark.default.parallelism）设置并行度的参数是相互独立的

并行度与性能：spark.sql.shuffle.partitions 决定了 Shuffle 之后的数据被划分为多少个分区，每个分区会由一个任务（Task）进行处理。因此，该参数直接影响了并行度。如果分区数量设置过少，可能导致部分节点的负载过高；如果分区数量设置过多，则每个分区的数据量过小，反而会增加调度开销和任务启动的开销。

Shuffle

集群模式下的推荐值：在集群模式下运行时，默认的 200 个分区通常比较适合大部分场景，因为分区较多意味着可以更好地利用集群中的计算资源。
本地模式下的推荐值：在本地模式下，200 个分区会导致过多的任务调度开销，因此建议将 spark.sql.shuffle.partitions 设置为较小的值，例如 2、4、10 等。

4. 实际项目中的建议

集群运行：如果集群有足够多的计算节点，可以将 spark.sql.shuffle.partitions 保持为默认值 200，或者根据集群的核心数、内存等资源情况适当调整，以提高并行度。
本地运行：如果在本地调试或开发环境运行，可以将分区数设置为较小的值，比如 2 或 4，以减少任务的调度开销，加快本地运行速度。
调整依据：实际项目中可以通过查看 Spark Web UI 的 Stage 页面来确定是否需要调整分区数。过少的分区会导致任务处理时间过长，过多的分区则会导致任务调度时间变长。可以根据 Stage 的任务数和每个任务的执行时间进行适当的优化调整。

5. 通过 Spark Web UI 观察 Shuffle 分区数

在运行作业时，可以通过 Spark Web UI 观察 Shuffle 阶段的任务数量：

Stage 页面：查看各个 Stage 中的 Task 数量，可以判断当前的分区数是否合适。例如，如果一个 Stage 有 4 个 Task，说明当前的分区数是 4。
Shuffle 分区影响：分区数较少，意味着每个分区处理的数据量较大；而分区数较多，则每个分区的数据量减少，但是任务调度和管理的开销会增加。因此，可以通过观察各个 Stage 的执行情况来确定是否需要优化分区数。

6. 总结

spark.sql.shuffle.partitions 是 Spark SQL 中控制 Shuffle 阶段分区数的重要参数，它影响作业的并行度和整体性能。
在集群模式下运行时，可以使用默认值 200，也可以根据集群资源适当增大或减小。
在本地运行时，建议将分区数设置得较小（如 2、4、10），以减少任务调度开销。
可以通过 Spark Web UI 的监控页面观察各个 Stage 的任务数，进一步优化 Shuffle 分区数，使作业性能达到最佳。

合理调整 spark.sql.shuffle.partitions 可以显著提高 Spark 作业的执行效率，尤其是在处理大量数据或复杂查询时，对于提升性能和减少开销非常有效。