rocketmq报错的问题排查和记录 RemotingTooMuchRequestException

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

  大家好

    我是烤鸭。连续3天同一时间遇到rocketmq不可用。第一天持续1分钟第二天持续10分钟第三天持续40分钟。线上版本使用的4.9.2以下源码均看的这个版本。

问题描述

12:00 左右服务大量报错报错日志主要是

org.apache.rocketmq.remoting.exception.RemotingTooMuchRequestException: sendDefaultImpl call timeout

偶尔有几条

org.apache.rocketmq.client.exception.MQBrokerException: CODE: 2  DESC: [PCBUSY_CLEAN_QUEUE]broker busy, start flow control for a while, period in queue: 1481ms, size of queue: 33
org.apache.rocketmq.client.exception.MQClientException: No route info of this topic:xxxx

日志分析&原因猜想

排除网络和业务服务问题

首先我们要排除网络原因或者我们本地服务配置的问题。

流量没有增长rocketmq的整体QPS也很低不可能是网上说的几万QPS导致服务刷盘慢导致的。

第一天出问题的时候就让运维把rocketmq的日志拉下来看了由于rocketmq集群是用容器刚搭的很多监控都没有。

日志断点认定broker问题

只能通过日志猜发现broker是在短时间内停摆。

watermark.log中的日志正常应该每秒连续输出的现在出现了断点。

2023-01-11 12:00:01 - [WATERMARK] Pull Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:01 - [WATERMARK] Query Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:01 - [WATERMARK] Transaction Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:12 - [WATERMARK] Send Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:12 - [WATERMARK] Pull Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:12 - [WATERMARK] Query Queue Size: 0 SlowTimeMills: 0

再根据 PCBUSY_CLEAN_QUEUE 看下 DefaultMessageStore.java 源码

osPageCacheBusyTimeOutMills = 8000

这个配置是刷盘的超时时间默认1s我们配置的是8s。记录的上一次commitlog的刷盘时间每10ms检查1次如果间隔时间超过设置这个值的话isOSPageCacheBusy 的时候才会抛出这个异常。

private void cleanExpiredRequest() {
    while (this.brokerController.getMessageStore().isOSPageCacheBusy()) {
        try {
            if (!this.brokerController.getSendThreadPoolQueue().isEmpty()) {
                final Runnable runnable = this.brokerController.getSendThreadPoolQueue().poll(0, TimeUnit.SECONDS);
                if (null == runnable) {
                    break;
                }

                final RequestTask rt = castRunnable(runnable);
                rt.returnResponse(RemotingSysResponseCode.SYSTEM_BUSY, String.format("[PCBUSY_CLEAN_QUEUE]broker busy, start flow control for a while, period in queue: %sms, size of queue: %d", System.currentTimeMillis() - rt.getCreateTimestamp(), this.brokerController.getSendThreadPoolQueue().size()));
            } else {
                break;
            }
        } catch (Throwable ignored) {
        }
    }

也猜想过是不是服务器时间变动导致的不过立刻被否定了因为持续了数分钟中间断断续续不是一瞬间的事。

如果服务器时间同步后拨那应该只报一段时间。而且服务器的时间有监控并没发现问题。

罪魁祸首

12点肯定执行了什么触发了broker的宕机而且发生了主从切换。不过第三天主从切换后仍然不可用持续近1小时才恢复。

看日志发现 DLedgerCleanSpaceService 这个线程执行Flush data cost 耗时特别长。

2023-01-11 12:00:00 INFO DLedgerCleanSpaceService - unmap file[REF:0] /home/rocketmq/store/dledger-n2/data/xxxxxxxxxxxx OK
2023-01-11 12:00:00 INFO DLedgerCleanSpaceService - close file channel /home/rocketmq/store/dledger-n2/data/xxxxxxxxxxxxx OK
...省略部分日志,主从节点传输不同
INFO DLedgerFlushDataService - Flush data cost=12341 ms

我们看下这个配置不配置默认的也是04这个是删除之前的 commitlog的时间设置本来设置的4点不过容器时区问题现在变成12点执行了。

deleteWhen=04

源码 DLedgerMmapFileStore.java

两个flush耗时巨长。

@Override public void doWork() {
    try {
        long start = System.currentTimeMillis();
        DLedgerMmapFileStore.this.dataFileList.flush(0);
        DLedgerMmapFileStore.this.indexFileList.flush(0);
        if (DLedgerUtils.elapsed(start) > 500) {
            logger.info("Flush data cost={} ms", DLedgerUtils.elapsed(start));
        }

        if (DLedgerUtils.elapsed(lastCheckPointTimeMs) > dLedgerConfig.getCheckPointInterval()) {
            persistCheckPoint();
            lastCheckPointTimeMs = System.currentTimeMillis();
        }

        waitForRunning(dLedgerConfig.getFlushFileInterval());
    } catch (Throwable t) {
        logger.info("Error in {}", getName(), t);
        DLedgerUtils.sleep(200);
    }
}

实景复盘

第一天出事的时候查了一天监控没有也不太好定位问题还以为官方有什么bug而且只持续了1分钟有点掉以轻心了。

等到第二天出事的时候运维反馈发现网上类似情况把配置修改完重启了理论上增加了删除次数应该不会报错了。

deleteWhen=01;04;07;10;13;17;19;22

第三天出事的时候傻眼了也终于找到问题了。

因为这时候来找运维的人不止我们一个部门所有部署在容器的rocketmq集群都受影响了这些集群共通点就是挂载的同一个外挂硬盘。再加上配置都是一样的不一定哪个集群12点删除日志的时候把磁盘性能打满了影响了其他集群。

这里还有一个问题

本来容器集群就是新上的使用的人并不多QPS肯定不高commitlog也不多。

就算同时触发删除也不至于影响broker几十分钟。

运维给的解释是外挂磁盘的性能实在是太差了500M文件删起来都费劲离谱。

解决方案

因为之前部署的rocketmq集群都是用虚机部署的本地的磁盘环境又都是相互隔离的删除个几十G文件性能还是能保证的。

  • 升级磁盘既然知道磁盘性能直接硬件先解决不过没有解决隔离性问题
  • 更换虚机集群问题都能解决就是业务端需要重启还要考虑服务丢失问题
  • 更换容器集群分离集群挂载目录升级磁盘同上

总结

这次的问题就是容器外挂磁盘的性能问题导致其次还有多个集群共用一个磁盘目录也是问题。

公司新推出的组件不要着急尝试之前推出的apisix网关也是不少人反馈接入之后有问题。

除非有KPI要求其他还是稳定为主。尤其是新搞的这种连监控都不全的真的太危险了。

一出问题运维就说就是没有错误日志是不是网络问题或者服务配置问题。

太盲目扩张也不好还是稳扎稳打做基建更重要。

参考文章

https://www.cnblogs.com/dingwpmz/p/12104702.html

滴滴出行基于RocketMQ构建企业级消息队列服务的实践_架构_江海挺_InfoQ精选文章

https://www.luckycxy.com/articles/2018/05/13/1643729483089.html

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

“rocketmq报错的问题排查和记录 RemotingTooMuchRequestException” 的相关文章