接触mgr有一段时间了,mysql 8.0.23的到来,基于mysql group replicaion(mgr)的高可用架构又提供了新的架构思路。
灾备机房的slave,如何更好的支持主机房的mgr?
mgr 到底可以坏几个节点?
这次我就以上2个问题,和大家简单聊下mgr的一些思想和功能。
一、mysql group relication 成员数量的容错能力
上面的表格相信大家不会陌生了,我经常在面试里会问:“4个节点的mgr,最多坏几个呢?” ,多数人回答:“最多坏1个,坏2个就脑裂不能工作了。”
那我们来看看mgr的处理方式,是不是这个答案呢?
1)我们具有一个4节点mgr
埋一个问题:这个图一看就是single模式,但箭头不是单向,是不是画错了?
2)此时,second-04突然宕机了,那么mgr集群会成什么样子呢?
集群此时状态会变成:
- 每个节点会固定时间交换各自信息。
- 当没有收到second-04节点信息后,其他成员会等待5秒。
- 这个期间second-04肯定没有发出来消息,于是健康成员认为second-04是可疑状态,标记unreachable状态。
- 然后健康成员按照参数:group_replication_member_expel_timeout,继续等待(此时second-04依然是unreachable状态)。
- 当超过了group_replication_member_expel_timeout时间,健康成员就把second-04节点驱逐出集群了。
那么重点来了,敲黑板
在second-04,没有被驱逐出去时:
此时集群是(4节点-3健康-1坏),这个期间如果继续坏1个节点,那么集群变成(4节点-2健康-2坏),集群没有满足多数原则,每个节点都无法写入了(除非人工干预,强制指定集群成员list)。
在second-04,被驱逐出去后:
此时集群是(3节点-3健康-0坏),4节点集群退化成3节点健康集群了,这个时候,集群依然可以继续坏一个节点,变成(3节点-2健康-1坏)
所以4节点集群是否可以坏1个还是2个,具体要看集群处理过程哪个阶段哦。
ps:
我们说说刚才埋的问题:这个图一看就是single模式,但箭头不是单向,是不是画错了?
首先single模式,second节点默认是不能写入的,但只是由于second节点的super-read-only开启了。
将second节点super-read-only = 0,second节点可以正常写入,并可以同步其他节点(primary和其他second),传输还是基于paxos协议的。
跑个火车:second节点反向同步其他节点,是不会经过冲突检测阶段(理论效率要高于多写模式),没有验证,大家有兴趣可以研究下。
二、 asynchronous connection failover
mysql 8.0.22,推出了异步复制连接故障转移,很多朋友都发文做了介绍,这里我只简单描述下:
1)同机房1主1从,异地机房单独放一个slave节点
2)master 故障,将slave-01变成master,slave-02无法连接原master
3)如果对slave-02配置了“异步连接故障转移配置”,那么slave-02在识别原master故障后,会自动尝试按照预先定义好的配置,与原slave-01(新master)建立复制关系:
这个功能非常好,引用三方工具(例如mha的修复主从关系)已经可以被mysql原生功能代替了。
但我测试完,又有了几点疑虑:
1. “异步”复制故障转移,难道不支持半同步架构?不能确保数据不丢失,还是无法完全代替mha啊?
答:其实是支持增强半同步的。
2. 要预先配置故障转移的master list,那么a机房架构变更,还要去维护机房b的节点吗?
答:是的。
3. 如果a机房是mgr,那么mgr的节点(master)异常,但服务没有关,可以访问,机房b节点岂不是一直连接着?
答:是的
然后,mysql 8.0.23发布了,带来了此功能的增强:
slave可以支持mgr集群,并且可以动态识别mgr成员,来建立master-slave关系了
最后让我们跑一圈:
1)首先我们有3节点的mgr集群,版本8.0.22(异步连接故障转移,是作用在slave的io thread上的,所以slave是8.0.23版本就成)
+----------------------------+-------------+--------------+-------------+---------------------+ | now(6) | member_host | member_state | member_role | view_id | +----------------------------+-------------+--------------+-------------+---------------------+ | 2021-01-22 13:41:27.902251 | mysql-01 | online | secondary | 16112906030396799:9 | | 2021-01-22 13:41:27.902251 | mysql-02 | online | primary | 16112906030396799:9 | | 2021-01-22 13:41:27.902251 | mysql-03 | online | secondary | 16112906030396799:9 | +----------------------------+-------------+--------------+-------------+---------------------+
2)然后我们在独立slave节点,指定slave上“对master连接故障转移列表”
select asynchronous_connection_failover_add_managed('ch1', 'groupreplication', 'aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1', 'mysql-02', 3306, '', 80, 60); 简单解释下参数: ch1:chanel名称 groupreplication:强制写死的参数,目前支持mgr集群 aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1:mgr组名(参数 group_replication_group_name) mysql-02:mgr成员之一 80:primary节点的优先级(0-100),多主相同优先级则随机选择节点充当master。 60:second节点的优先级(0-100),基本就是给single模式准备的
3)为slave指定复制通道信息
change replication source to source_user='rpl_user', source_password='123456', source_host='mysql-02',source_port=3306,source_retry_count=2,source_connection_auto_failover=1,source_auto_position=1 for channel 'ch1';
4)启动slave,并查看“连接的可转移列表”
不开启io thread,是不会自动识别mgr成员的。并且复制用户
rpl_user需要在mgr节点对performance_schema具有select权限
start slave; select * from performance_schema.replication_asynchronous_connection_failover; +--------------+----------+------+-------------------+--------+--------------------------------------+ | channel_name | host | port | network_namespace | weight | managed_name | +--------------+----------+------+-------------------+--------+--------------------------------------+ | ch1 | mysql-01 | 3306 | | 60 | aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1 | | ch1 | mysql-02 | 3306 | | 80 | aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1 | | ch1 | mysql-03 | 3306 | | 60 | aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1 | +--------------+----------+------+-------------------+--------+--------------------------------------+
5)然后我们将mysql-02 stop group_replication(不是关闭服务),
slave列表自动淘汰mysql-02,重新与其他节点建立连接– mysql-02(primary):
stop group_replication; -- slave: select * from performance_schema.replication_asynchronous_connection_failover; +--------------+----------+------+-------------------+--------+--------------------------------------+ | channel_name | host | port | network_namespace | weight | managed_name | +--------------+----------+------+-------------------+--------+--------------------------------------+ | ch1 | mysql-01 | 3306 | | 80 | aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1 | | ch1 | mysql-03 | 3306 | | 60 | aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1 | +--------------+----------+------+-------------------+--------+--------------------------------------+ show slave status\g *************************** 1. row *************************** slave_io_state: waiting for master to send event master_host: mysql-01 master_user: rpl_user master_port: 3306 connect_retry: 60 master_log_file: mybinlog.000003 read_master_log_pos: 4904 relay_log_file: mysql-01-relay-bin-ch1.000065 relay_log_pos: 439 relay_master_log_file: mybinlog.000003 slave_io_running: yes slave_sql_running: yes ...
至此,配置完成。后面mgr节点增、减,slave都可以自动维护这个列表。不贴其他用例了。
ps:
如果想手工切换slave已建立的master节点(primary)连接到其他节点(second)上,只需要删除“复制连接的可转移列表”,重新调整second优先级加回即可。
-- 删除配置 select asynchronous_connection_failover_delete_managed('ch1', 'aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1'); -- 重新添加,调整second优先级高于primary select asynchronous_connection_failover_add_managed('ch1', 'groupreplication', 'aaaaaaaaaaaa-aaaa-aaaa-aaaaaaaaaaa1', 'mysql-03', 3306, '', 60, 80);
参考连接:
https://mysqlhighavailability.com/automatic-asynchronous-replication-connection-failover/
https://my.oschina.net/u/4591256/blog/4813037
https://dev.mysql.com/doc/refman/8.0/en/replication-functions-source-list.html
到此这篇关于mysql 8.0.23中复制架构从节点自动故障转移的文章就介绍到这了,更多相关mysql自动故障转移内容请搜索www.887551.com以前的文章或继续浏览下面的相关文章希望大家以后多多支持www.887551.com!