【RabbitMQ 实战】12 镜像队列-CSDN博客

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

一、镜像队列的概念

RabbitMQ的镜像队列是将消息副本存储在一组节点上以提高可用性和可靠性。镜像队列将队列中的消息复制到一个或多个其他节点上并使这些节点上的队列保持同步。当一个节点失败时其他节点上的队列不受影响因为它们上面都有消息的备份。这提高了消息的可靠性和可用性。

镜像队列的设置可以在创建队列时定义。您可以指定要创建的节点数和要在哪些节点上运行备份队列。 RabbitMQ支持同步和异步镜像模式。在同步模式下消息必须被复制到所有备份节点而在异步模式下消息可以被复制到一个或多个备份节点。

使用镜像队列可以确保消息减少丢失概率并且可以减少消息传递失败的可能性。这使得RabbitMQ成为一种可靠的消息传递解决方案。

二、配置镜像队列

使用策略Policy来配置镜像策略策略使用正则表达式来配置需要应用镜像策略的队列名称以及在参数中配置镜像队列的具体参数。

按此步骤创建镜像策略该策略为所有 mirror_ 开头的队列创建 3 副本镜像
在这里插入图片描述
在这里插入图片描述
参数解释

Name: policy的名称用户自定义。

Pattern: queue的匹配模式正则表达式。^表示所有队列都是镜像队列。

Definition: 镜像定义包括三个部分ha-sync-mode、ha-mode、ha-params。

ha-mode: 指明镜像队列的模式有效取值范围为all/exactly/nodes。
all表示在集群所有的代理上进行镜像。
exactly表示在指定个数的代理上进行镜像代理的个数由ha-params指定。
nodes表示在指定的代理上进行镜像代理名称通过ha-params指定。
ha-params: ha-mode模式需要用到的参数。
ha-sync-mode: 表示镜像队列中消息的同步方式有效取值范围为automaticmanually。
automatic表示自动向master同步数据。
manually表示手动向master同步数据。
Priority: 可选参数 policy的优先级。

也可以通过命令行来进行添加
rabbitmqctl set_policy [-p vhost] [–priority priority] [–apply-to apply-to] name pattern definition

上面的示例如下

rabbitmqctl set_policy --priority 0 --apply-to queues mirror_queue "^mirror_" '{"ha-mode":"exactly","ha-params":3,"ha-sync-mode":"automatic"}'

三、使用镜像队列

我们建好了policy后就可以建一个队列了只要符合上面我们建的镜像队列policy那么该队列就会自动创建为镜像队列

镜像队列显示的蓝色 +1 表示同步副本数为 1 个。
显示的 mirror-queue为该队列应用的镜像策略。在这里插入图片描述
点击队列名称可以进入查看队列详细信息从中可以看出队列的主节点、从节点和镜像策略
在这里插入图片描述
参数说明
镜像队列有许多配置参数表达了镜像队列的镜像策略和异常后的晋升策略。

下面来详细解释一下这些配置参数的意义

镜像策略

ha-modeha-params结果
exactlycount集群中队列副本的数量主队列加上镜像。count值为1表示一个副本只有主节点。如果主节点不可用则其行为取决于队列是否持久化。count值为2表示两个副本一个队列主队列和一个队列镜像。换句话说:“镜像数=节点数-1”。如果运行队列主服务器的节点变得不可用队列镜像将根据配置的镜像提升策略自动提升到主服务器。如果集群中的可用节点数少于count则将队列镜像到所有节点。如果集群中有多个计数节点并且一个包含镜像的节点宕机那么将在另一个节点上创建一个新镜像。使用’ exactly ‘模式和’ ha-promot-on-shutdown ': ’ always '可能是危险的因为队列可以跨集群迁移并在停机时变得不同步。
all不设置队列跨集群中的所有节点镜像。当一个新节点被添加到集群中时队列将被镜像到该节点。这个设置非常保守。建议设置的副本值为大多数节点N / 2 + 1。镜像到所有节点会给所有集群节点带来额外的负担包括网络I/O、磁盘I/O和磁盘空间的使用。
nodes节点名称队列被镜像到节点名中列出的节点。节点名是在rabbitmqctl cluster_status中出现的Erlang节点名它们的形式通常是“rabbit@hostname”。如果这些节点名中有任何一个不是集群的一部分则不构成错误。如果在声明队列时列表中的节点都不在线则将在声明客户机连接的节点上创建队列。

新镜像同步策略

ha-sync-mode说明
manual这是默认模式。新队列镜像将不接收现有消息它只接收新消息。一旦使用者耗尽了仅存在于主服务器上的消息新的队列镜像将随着时间的推移成为主服务器的精确副本。如果主队列在所有未同步的消息耗尽之前失败则这些消息将丢失。您可以手动完全同步队列详情请参阅未同步的镜像部分。
automatic当新镜像加入时队列将自动同步。值得重申的是队列同步是一个阻塞操作。如果队列很小或者您在RabbitMQ节点和ha-sync-batch-size之间有一个快速的网络那么这是一个很好的选择。

从节点晋升策略

镜像队列主节点出现故障时最老的从节点会被提升为新的主节点。如果新提升为主节点的这个副本与原有的主节点并未完成数据的同步那么就会出现数据的丢失而实际应用中出现数据丢失可能会导致出现严重后果。

rabbitmq 提供了 ha-promote-on-shutdownha-promote-on-failure 两个参数让用户决策是保证队列的可用性还是保证队列的一致性两个参数分别控制正常关闭、异常故障情况下从节点是否提升为主节点其可设置的值为 when-synced 和 always。

ha-promote-on-shutdown/ha-promote-on-failure说明
when-synced从节点与主节点完成数据同步才会被提升为主节点
always无论什么情况下从节点都将被提升为主节点

注意事项

多少个镜像才是最优的

镜像到所有节点会增加所有集群节点的负载包括网络 I/O、磁盘 I/O 和磁盘空间的使用。

在大多数情况下在每个节点上都有一个副本是不必要的。对于3个或更多节点的集群建议复制到N/2+1个节点例如 3 个节点集群中的 2 个节点或 5 个节点集群中的 3 个节点。

由于某些数据可能天生是短暂的或对时间非常敏感因此对某些队列使用较少的镜像甚至不使用任何镜像是完全合理的。

生产者确认和事务

镜像队列同时支持生产者确认和事务机制。在事务机制中只有当前事务在全部镜像中执行之后客户端才会收到 Tx.Commit-OK 的消息。

同样的在生产者确认机制中生产者进行当前消息确认的前提是该消息被全部镜像接收。

流控

RabbitMQ 使用信用证机制限制消息生产的速度。当生产者收到队列的所有镜像授予的信用时才允许发送新的消息。这里的信用指的时发送许可。如果有镜像没有授予生产者信用会导致生产者生产阻塞。生产者会一直被阻塞直到所有镜像都授予它信用值或者有的镜像从集群中断开。

Erlang 通过定时向所有节点发送心跳的方式检测断开的情况。发送心跳的间隔可以用 net_ticktime 来控制。

主节点失效和消费者取消

从镜像队列中消费的客户端可能希望知道他们所消费的队列已经失败转移。当镜像队列发生故障时哪些消息被发送到哪个消费者的信息就丢失了因此所有未被确认的消息都会被重新发送并设置了 redelivered 的标志。消费者可能希望知道这将会发生。

如果是这样他们可以使用参数 x-cancel-on-ha-failover 设置为 true。然后它们的消费将在故障转移时被取消并发送消费者取消通知。

Channel channel = ...;
Consumer consumer = ...;
Map<String, Object> args = new HashMap<String, Object>();
args.put("x-cancel-on-ha-failover", true);
channel.basicConsume("my-queue", false, args, consumer);

这将使用参数集创建一个新的消费者。

四、镜像队列原理

4.1 镜像队列的数据流

4.1.1 客户端连接主节点

首先看生产者消费者直接与主节点连接的情况。该情况下队列的主副本所在的节点与生产者/消费者直接连接效率较高。
在这里插入图片描述

生产者消费者连接到 RabbitMQ 后在 RabbitMQ 内部会创建对应的 ConnectionChannel 进程。

Connecton 进程从 socket 上接收生产者发送的消息后投递到 Channel 进程。

在 Channel 进程中根据消息发送的 exchange 与消息的 routing-key在内部数据库的路由表中查找所有匹配的 Queue 的进程 PID然后将消息投递到Queue 的进程中。在镜像队列的情况下Channel 进程除了将消息发送给队列的 Leader 进程外还会将消息发送给队列所有的 Follower 进程而 Follower 进程都在远端节点上因此这里就多了一次集群间的网络交互。

镜像队列的 Leader 进程收到消息后需要将消息同步给所有的 Follower 进程。RabbitMQ 采用 GM组播算法实现镜像队列中的 Leader 和所有 Follower 都会发送一次消息和接收一次消息同时还会发送一次对消息的 ACK和接收一次消息的 ACK。

综上所述生产者发送一条消息队列 Leader 进程所在节点会收到两次一次是生产者发送的一次是队列 Follower 进程发送的同样也会将消息对外发送两次一次是生产者对应的 Channel 进程将消息发送给队列的 Follower 进程一次是队列的 Leader 进程进行广播同步将消息发送给 Follower 进程。此外镜像队列的GM算法实现 每条消息还会有额外的确认消息在集群间进行发送。

再结合图中的情况一条消息从生产者到消费Node1节点是2进3出的流量Node2节点是2进1出的流量。

4.1.2 客户端连接从节点

在这里插入图片描述

如果生产者和消费者连接的是从节点根据镜像队列的机制只有主节点向外提供服务所以镜像队列的消费需要由 node2 的队列消费消息。

一条消息从生产到消费生产者消费者连接的节点是3进3出队列master进程所在的节点是2进2出。

4.2 镜像队列的实现原理

4.2.1 普通队列结构

在这里插入图片描述

通常队列由两部分组成

amqqueue_process 负责协议相关的消息处理即接收生产者发布的消息、向消费者投递消息、处理消息 confirm、acknowledge 等等
backing_queue它提供了相关的接口供 amqqueue_process 调用完成消息的存储以及可能的持久化工作等。

4.2.2 镜像队列结构

在这里插入图片描述

镜像队列同样由这两部分组成amqqueue_process 仍旧进行协议相关的消息处理backing_queue 则是由 master 节点和 slave 节点组成的一个特殊的 backing_queue。Leader 节点和 Follower 节点都由一组进程组成一个负责消息广播的 GM一个负责对 GM 收到的广播消息进行回调处理。

在 Leader 节点上回调处理是 coordinator在slave节点上则是 mirror_queue_slave。mirror_queue_slave 中包含了普通的 backing_queue 进行消息的存储Leader 节点中 backing_queue 包含在 mirror_queue_master 中由 amqqueue_process 进行调用。

4.2.3 GM(Guaranteed Multicast)

GM 模块实现的是一种可靠的组播通信协议该协议能够保证组播消息的原子性即保证组中活着的节点要么都收到消息要么都收不到。

它的实现大致为将所有的节点形成一个循环链表每个节点都会监控位于自己左右两边的节点当有节点新增时相邻的节点保证当前广播的消息会复制到新的节点上 : 当有节点失效时相邻的节点会接管以保证本次广播的消息会复制到所有的节点。在 Leader 和 Follower 上的这些 GM 形成一个组 (gm_group) 这个组的信息会记录在 Mnesia 中。不同的镜像队列形成不同的组。操作命令从 Leader 对应的 GM 发出后顺着链表传送到所有的节点。由于所有节点组成了一个循环链表 Leader 对应的 GM 最终会收到自己发送的操作命令这个时候 Leader 就知道该操作命令都同步到了所有的 slave 上。

4.2.4 消息的广播

消息从 Leader 节点发出顺着节点链表发送。在这期间所有的 Follower 节点都会对消息进行缓存当 Leader 节点收到自己发送的消息后会再次广播 ack 消息同样 ack 消息会顺着节点链表经过所有的 Follower 节点其作用是通知 Follower 节点可以清除缓存的消息当 ack 消息回到 Leader 节点时对应广播消息的生命周期结束。

下图为一个简单的示意图A 节点为 Leader 节点广播一条内容为 test 的消息。1 表示消息为广播的第一条消息id=A表示消息的发送者为节点 A。右边是Follower 节点记录的状态信息。

在这里插入图片描述

为什么所有的节点都需要缓存一份发布的消息呢

master发布的消息是依次经过所有slave节点在这期间的任何时刻有可能有节点失效那么相邻的节点可能需要重新发送给新的节点。例如A->B->C->D->A形成的循环链表A为master节点广播消息发送给节点BB再发送给C如果节点C收到B发送的消息还未发送给D时异常结束了那么节点B感知后节点C失效后需要重新将消息发送给D。同样如果B节点将消息发送给C后B,C节点中新增了E节点那么B节点需要再将消息发送给新增的E节点。

五 镜像队列实践

在 RabbitMQ 3.8 中发布了新的 Quorum Queues旨在完全代替原有的镜像队列。

在许多情况下仲裁队列将是比传统队列镜像更好的选择。鼓励读者熟悉仲裁队列并考虑它们而不是经典的镜像队列

5.1、镜像队列的缺点

镜像队列最大的问题是其同步算法造成的低性能。镜像队列有如下几个设计缺陷

5.1.1 设计缺陷 1broker 离线后重新上线

基本的问题是当 broker 离线并再次恢复时它在镜像中的任何数据都将被丢弃。这是关键的设计缺陷。现在镜像已恢复在线但为空管理员需要做出决定:是否同步镜像。“同步”意味着将当前消息从 leader 复制到镜像。

5.1.2 设计缺陷 2同步阻塞

此时第二个致命的设计缺陷显露了出来。如果要同步消息会阻塞整个队列让这个队列不可用。当队列比较短的时候这通常不是什么问题但当队列很长或者消息总大小很大的时候同步将会需要很长时间。不仅如此同步会导致集群中与内存相关的问题有时甚至会导致同步卡住需要重新启动。

默认情况下所有镜像队列都会自动同步但也有人用户不同步镜像。这样所有新消息都将被复制老消息都不会被复制这将减少冗余会使消息丢失的概率加大。

这个问题也引发滚动升级的问题因为重新启动的 broker 将丢弃其所有数据并需要同步来恢复全部数据冗余。

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: RabbitMQ