8.spark自适应查询-AQE之自适应调整Shuffle分区数量-CSDN博客

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

概述

自适应查询执行AQE是 Spark SQL中的一种优化技术它利用运行时统计信息来选择最高效的查询执行计划自Apache Spark 3.2.0以来默认启用该计划。从Spark 3.0开始AQE有三个主要功如下

自适应查询AQE(Adaptive Query Execution)
- 自适应调整Shuffle分区数量
  - 原理
  - 默认环境配置
  - 修改配置
- 动态调整Join策略
- 动态优化倾斜的 Join

主要功能

自适应调整Shuffle分区数量

当spark.sql.adaptive.enabled和spark.sql.adaptive.coalescePartitions.enabled配置均为true时自适应调整Shuffle分区数量功能就启动了

属性名称	默认值	功能	版本
spark.sql.adaptive.enabled	true	必备条件之一	3.0.0
spark.sql.adaptive.coalescePartitions.enabled	true	必备条件之二	3.0.0
spark.sql.adaptive.advisoryPartitionSizeInBytes	64 MB	自适应优化期间`shuffle`分区的建议大小以字节为单位。当Spark`合并小`的shuffle分区或`拆分倾斜`的shuffler分区时它就会生效。	3.0.0
spark.sql.adaptive.coalescePartitions.parallelismFirst	true	当为true时Spark在合并连续的shuffle分区时会忽略`Spark.sql.adaptive.advisoryPartitionSizeInBytes`默认64MB指定的目标大小并且只遵循`Spark.sql.adaptive.salecePartitions.minPartitionSize`默认1MB指定的最小分区大小以最大限度地`提高并行性`。这是为了在启用自适应查询执行时避`免性能回归`。建议将此配置设置为`false`并遵守`spark.sql.adaptive.advisoryPartitionSizeInBytes`指定的目标大小。	3.2.0

原理

Spark在处理海量数据的时候其中的Shuffle过程是比较消耗资源的也比较影响性能因为它需要在网络中传输数据。
shuffle 中的一个关键属性是分区的数量。
分区的最佳数量取决于数据自身大小但是数据大小可能在不同的阶段、不同的查询之间有很大的差异这使得这个数字很难精准调优。
如果分区数量太多每个分区的数据就很小读取小的数据块会导致IO效率降低并且也会产生过多的task, 这样会给Spark任务带来更多负担。
如果分区数量太少那么每个分区处理的数据可能非常大处理这些大分区的数据可能需要将数据溢写到磁盘例如排序或聚合操作这样也会降低计算效率。

Spark初始会设置一个较大的Shuffle分区个数这个数值默认是200后续在运行时会根据动态统计到的数据信息将小的分区合并也就是慢慢减少分区数量。

测试时将以SELECT workorder,unitid,partid,partname,routeid,lineid from ods.xx where dt ='2023-06-24' group by workorder,unitid,partid ,partname ,routeid,lineid 语句进行测试为了看出 Shuffle 的效果group 字段多了一些

将初始的 Shuffle 分区数量设置为 5所以在 Shuffle 过程中数据会产生5 个分区。如果没有开启自适应调整Shuffle分区数量这个策略Spark会启动5个Recuce任务来完成最后的聚合。但是这里面有3个非常小的分区为每个分区分别启动一个单独的任务会浪费资源并且也无法提高执行效率。如下图
在这里插入图片描述
开启自适应调整 Shuffle 分区数量之后Spark 会将这3个数据量比较小的分区合并为 1 个分区让1个reduce任务处理

默认环境配置

测试案例:

案例环境使用的是 spark 3.2.4 kyuubi 1.7.1 版本使用一张 20 亿的表做优化测试的也可以准备一个 json 文件加载后转成 DataFrame

在这里插入图片描述

SELECT  workorder,unitid,partid,partname,routeid,lineid  from ods.xx where dt ='2023-06-24' group by workorder,unitid,partid ,partname ,routeid,lineid

在这里插入图片描述

由上两个图可以看出21任务每个任务只是 3~4 M 这样原因是因

spark.sql.adaptive.coalescePartitions.parallelismFirst = true

修改配置

spark.sql.adaptive.coalescePartitions.parallelismFirst=false

在这里插入图片描述

可以看出两三千万的数据shuffle 处理上还是有倾斜的但海量数据下基本上是接近64m的。

结束

至此自适应调整Shuffle分区数量就结束了。

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

返回列表

上一篇：java使用stream流把集合中元素的属性空值赋值为0，BigDecimal类型属性使用reduce()自定义运算符，避免计算的时候导致报错-CSDN博客

下一篇：一种libuv实现websockets服务的解决方案-CSDN博客

“8.spark自适应查询-AQE之自适应调整Shuffle分区数量-CSDN博客” 的相关文章

浅谈研发实践的技术债与效能提升1年前 (2023-02-02)

C++ 使用 new 创建二维数组1年前 (2023-02-02)

数论笔记-整除1年前 (2023-02-02)

ARP欺骗攻击：利用driftnet截获图片数据流1年前 (2023-02-02)

一文带你学会python新年倒计时1年前 (2023-02-02)

Windows server——部署DHCP服务（2）1年前 (2023-02-02)

华为云服务-运维篇-负载均衡介绍与平台算法使用1年前 (2023-02-02)

新职场之道-破除认知，享受神秘1年前 (2023-02-02)

MySQL笔记01: MySQL入门_1.3 MySQL启动停止与登录1年前 (2023-02-02)

电脑本地安装不同版本MySQL1年前 (2023-02-02)