合 PG高可用之主从流复制+keepalived 的高可用

2022年2月11日

0 1599 3

Tags： PG 高可用 failover switchover 故障切换

👉 本文共约3977个字，系统预计阅读时间或需15分钟。

简介
环境架构
配置主从流复制
主机环境准备
主库放开防火墙
主库创建复制用户
在从库对主库进行备份
还原从库
修改从库primary_conninfo参数
启动从库
查询复制状态
PostgreSQL数据库配置
配置keepalived
安装
配置keepalived
keepalived.conf
check_pg.sh
failover.sh
赋权
启动keepalived
验证高可用
停止主库的数据库服务
关闭主库的OS
关闭主库的keepalived
关闭备库的数据库或keepalived服务或OS
总结

简介

常见的高可用架构：

pg + keepalived：https://www.dbaup.com/pggaokeyongzhizhucongliufuzhikeepalived-degaokeyong.html
pg + pgpool：pgpool-II和pgpoolAdmin的使用
pg + repmgr：PostgreSQL高可用之repmgr（1主2从+1witness）+Pgpool-II实现主从切换+读写分离+负载均衡
pg + Patroni + etcd：PG高可用集群之Patroni + etcd + HAProxy + keepalived + Prometheus + Grafana监控部署

通过keepalived 来实现 PostgreSQL 数据库的主从自动切换，以达到高可用。当主节点宕机时，从节点可自动切换为主节点，继续对外提供服务。

在这一方案中Keepalived程序主要用来探测PostgreSQL主库是否存活，如果Keepalived主节点或主库故障，Keepalived备节点将接管VIP 并日激活流复制备库．从而实现高可用。

Keepalived的介绍：

环境架构

IP地址	操作系统	主机名	角色	端口	说明
172.72.6.6	CentOS 7.6	lhrpg66	主库	5433	安装postgesql 13.3 + keepalived v1.3.5
172.72.6.7	CentOS 7.6	lhrpg67	从库	5433	安装postgesql 13.3 + keepalived v1.3.5
172.72.6.8			VIP		在pg66和pg67之间进行漂移

配置主从流复制

参考：PG12高可用之1主2从流复制环境搭建及切换测试

主机环境准备

-- 创建PG高可用环境专用网络
docker network create --subnet=172.72.6.0/24 pg-network

-- 申请主机
docker rm -f lhrpg66
docker run -d --name lhrpg66 -h lhrpg66 \
  -p 64306:5433 --net=pg-network --ip 172.72.6.6 \
  -v /sys/fs/cgroup:/sys/fs/cgroup \
  --privileged=true lhrbest/lhrpgall:2.0 \
  /usr/sbin/init

docker rm -f lhrpg67
docker run -d --name lhrpg67 -h lhrpg67 \
  -p 64307:5433 --net=pg-network --ip 172.72.6.7 \
  -v /sys/fs/cgroup:/sys/fs/cgroup \
  --privileged=true lhrbest/lhrpgall:2.0 \
  /usr/sbin/init

[root@docker35 ~]# docker ps
CONTAINER ID   IMAGE                  COMMAND            CREATED          STATUS          PORTS                                         NAMES
a320c1882201   lhrbest/lhrpgall:2.0   "/usr/sbin/init"   23 seconds ago   Up 21 seconds   0.0.0.0:64307->5433/tcp, :::64307->5433/tcp   lhrpg67
e9c67922b0e8   lhrbest/lhrpgall:2.0   "/usr/sbin/init"   26 seconds ago   Up 24 seconds   0.0.0.0:64306->5433/tcp, :::64306->5433/tcp   lhrpg66

-- 创建PG高可用环境专用网络

docker network create --subnet=172.72.6.0/24 pg-network

-- 申请主机

docker rm -f lhrpg66

docker run -d --name lhrpg66 -h lhrpg66 \

-p 64306:5433 --net=pg-network --ip 172.72.6.6 \

-v /sys/fs/cgroup:/sys/fs/cgroup \

--privileged=true lhrbest/lhrpgall:2.0 \

/usr/sbin/init

docker rm -f lhrpg67

docker run -d --name lhrpg67 -h lhrpg67 \

-p 64307:5433 --net=pg-network --ip 172.72.6.7 \

-v /sys/fs/cgroup:/sys/fs/cgroup \

--privileged=true lhrbest/lhrpgall:2.0 \

/usr/sbin/init

[root@docker35 ~]# docker ps

CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES

a320c1882201 lhrbest/lhrpgall:2.0 "/usr/sbin/init" 23 seconds ago Up 21 seconds 0.0.0.0:64307->5433/tcp, :::64307->5433/tcp lhrpg67

e9c67922b0e8 lhrbest/lhrpgall:2.0 "/usr/sbin/init" 26 seconds ago Up 24 seconds 0.0.0.0:64306->5433/tcp, :::64306->5433/tcp lhrpg66

注意：该容器已安装PostgreSQL 13.3，故只需要配置主从即可，安装用户为pg13。
需要关闭其它版本的pg：
systemctl stop pg11
systemctl stop pg12
systemctl stop pg94
systemctl stop pg96
systemctl stop postgresql-13.service
systemctl disable pg11
systemctl disable pg12
systemctl disable pg94
systemctl disable pg96
systemctl disable postgresql-13.service

主库放开防火墙


cat  << EOF > /pg13/pgdata/pg_hba.conf
# TYPE  DATABASE    USER    ADDRESS       METHOD
local     all       all                    trust
host      all       all   127.0.0.1/32     trust
host      all       all    0.0.0.0/0        md5
host   replication  all    0.0.0.0/0        md5
EOF

cat << EOF > /pg13/pgdata/pg_hba.conf

# TYPE DATABASE USER ADDRESS METHOD

local all all trust

host all all 127.0.0.1/32 trust

host all all 0.0.0.0/0 md5

host replication all 0.0.0.0/0 md5

EOF

👉 注意添加replication

主库创建复制用户

su - pg13
psql
create user replhr password 'lhr' replication;

su - pg13

psql

create user replhr password 'lhr' replication;

👉 创建用户需要加上replication选项。

在从库对主库进行备份

mkdir /bk
chown pg13.postgres /bk

su - pg13
pg_basebackup -h 172.72.6.6 -p 5433 -U replhr -l bk20220210 -F p -P -R -D /bk

mkdir /bk

chown pg13.postgres /bk

su - pg13

pg_basebackup -h 172.72.6.6 -p 5433 -U replhr -l bk20220210 -F p -P -R -D /bk

执行完成后，会产生文件standby.signal，如下：

[pg13@lhrpg67 ~]$ pg_basebackup -h 172.72.6.6 -p 5433 -U replhr -l bk20220210 -F p -P -R -D /bk
Password: 
WARNING:  skipping special file "./.s.PGSQL.5433"
WARNING:  skipping special file "./.s.PGSQL.5433"
23411/23411 kB (100%), 1/1 tablespace
[pg13@lhrpg67 ~]$ ll /bk
total 260
-rw------- 1 pg13 postgres    209 Feb 10 16:27 backup_label
-rw------- 1 pg13 postgres 135710 Feb 10 16:27 backup_manifest
drwx------ 5 pg13 postgres   4096 Feb 10 16:27 base
-rw------- 1 pg13 postgres     33 Feb 10 16:27 current_logfiles
drwx------ 2 pg13 postgres   4096 Feb 10 16:27 global
drwx------ 2 pg13 postgres   4096 Feb 10 16:27 pg_commit_ts
drwx------ 2 pg13 postgres   4096 Feb 10 16:27 pg_dynshmem
-rw------- 1 pg13 postgres    243 Feb 10 16:27 pg_hba.conf
-rw------- 1 pg13 postgres   1636 Feb 10 16:27 pg_ident.conf
drwx------ 2 pg13 postgres   4096 Feb 10 16:27 pg_log
drwx------ 4 pg13 postgres   4096 Feb 10 16:27 pg_logical
drwx------ 4 pg13 postgres   4096 Feb 10 16:27 pg_multixact
drwx------ 2 pg13 postgres   4096 Feb 10 16:27 pg_notify
drwx------ 2 pg13 postgres   4096 Feb 10 16:27 pg_replslot
drwx------ 2 pg13 postgres   4096 Feb 10 16:27 pg_serial
drwx------ 2 pg13 postgres   4096 Feb 10 16:27 pg_snapshots
drwx------ 2 pg13 postgres   4096 Feb 10 16:27 pg_stat
drwx------ 2 pg13 postgres   4096 Feb 10 16:27 pg_stat_tmp
drwx------ 2 pg13 postgres   4096 Feb 10 16:27 pg_subtrans
drwx------ 2 pg13 postgres   4096 Feb 10 16:27 pg_tblspc
drwx------ 2 pg13 postgres   4096 Feb 10 16:27 pg_twophase
-rw------- 1 pg13 postgres      3 Feb 10 16:27 PG_VERSION
drwx------ 3 pg13 postgres   4096 Feb 10 16:27 pg_wal
drwx------ 2 pg13 postgres   4096 Feb 10 16:27 pg_xact
-rw------- 1 pg13 postgres    314 Feb 10 16:27 postgresql.auto.conf
-rw------- 1 pg13 postgres  28184 Feb 10 16:27 postgresql.conf
-rw------- 1 pg13 postgres      0 Feb 10 16:27 standby.signal

[pg13@lhrpg67 ~]$ pg_basebackup -h 172.72.6.6 -p 5433 -U replhr -l bk20220210 -F p -P -R -D /bk

Password:

WARNING: skipping special file "./.s.PGSQL.5433"

23411/23411 kB (100%), 1/1 tablespace

[pg13@lhrpg67 ~]$ ll /bk

total 260

-rw------- 1 pg13 postgres 209 Feb 10 16:27 backup_label

-rw------- 1 pg13 postgres 135710 Feb 10 16:27 backup_manifest

drwx------ 5 pg13 postgres 4096 Feb 10 16:27 base

-rw------- 1 pg13 postgres 33 Feb 10 16:27 current_logfiles

drwx------ 2 pg13 postgres 4096 Feb 10 16:27 global

drwx------ 2 pg13 postgres 4096 Feb 10 16:27 pg_commit_ts

drwx------ 2 pg13 postgres 4096 Feb 10 16:27 pg_dynshmem

-rw------- 1 pg13 postgres 243 Feb 10 16:27 pg_hba.conf

-rw------- 1 pg13 postgres 1636 Feb 10 16:27 pg_ident.conf

drwx------ 2 pg13 postgres 4096 Feb 10 16:27 pg_log

drwx------ 4 pg13 postgres 4096 Feb 10 16:27 pg_logical

drwx------ 4 pg13 postgres 4096 Feb 10 16:27 pg_multixact

drwx------ 2 pg13 postgres 4096 Feb 10 16:27 pg_notify

drwx------ 2 pg13 postgres 4096 Feb 10 16:27 pg_replslot

drwx------ 2 pg13 postgres 4096 Feb 10 16:27 pg_serial

drwx------ 2 pg13 postgres 4096 Feb 10 16:27 pg_snapshots

drwx------ 2 pg13 postgres 4096 Feb 10 16:27 pg_stat

drwx------ 2 pg13 postgres 4096 Feb 10 16:27 pg_stat_tmp

drwx------ 2 pg13 postgres 4096 Feb 10 16:27 pg_subtrans

drwx------ 2 pg13 postgres 4096 Feb 10 16:27 pg_tblspc

drwx------ 2 pg13 postgres 4096 Feb 10 16:27 pg_twophase

-rw------- 1 pg13 postgres 3 Feb 10 16:27 PG_VERSION

drwx------ 3 pg13 postgres 4096 Feb 10 16:27 pg_wal

drwx------ 2 pg13 postgres 4096 Feb 10 16:27 pg_xact

-rw------- 1 pg13 postgres 314 Feb 10 16:27 postgresql.auto.conf

-rw------- 1 pg13 postgres 28184 Feb 10 16:27 postgresql.conf

-rw------- 1 pg13 postgres 0 Feb 10 16:27 standby.signal

👉 在PG12之前，-R备份结束之后会自动生成recovery.conf文件，用来做流复制判断主从同步的信息。但是从PG12开始，这个文件已经不需要了。只需要在参数文件postgresql.conf中配置primary_conninfo参数即可。

还原从库

-- 关闭从库，删除从库的数据文件，并且将备份文件覆盖从库的数据文件
pg_ctl stop
cp -r /bk/* /pg13/pgdata/

-- 关闭从库，删除从库的数据文件，并且将备份文件覆盖从库的数据文件

pg_ctl stop

cp -r /bk/* /pg13/pgdata/

修改从库primary_conninfo参数

cat >> /pg13/pgdata/postgresql.conf <<"EOF"

primary_conninfo = 'host=172.72.6.6 port=5433 user=replhr password=lhr'

EOF

cat >> /pg13/pgdata/postgresql.conf <<"EOF"

primary_conninfo = 'host=172.72.6.6 port=5433 user=replhr password=lhr'

EOF

启动从库

pg_ctl start

1	pg_ctl start

主库进程：

[root@lhrpg66 /]# ps -ef|grep pg13
pg13      1053     0  0 16:16 ?        00:00:00 /pg13/pg13/bin/postgres -D /pg13/pgdata -p 5433
pg13      1054  1053  0 16:16 ?        00:00:00 postgres: logger 
pg13      1056  1053  0 16:16 ?        00:00:00 postgres: checkpointer 
pg13      1057  1053  0 16:16 ?        00:00:00 postgres: background writer 
pg13      1058  1053  0 16:16 ?        00:00:00 postgres: walwriter 
pg13      1059  1053  0 16:16 ?        00:00:00 postgres: autovacuum launcher 
pg13      1060  1053  0 16:16 ?        00:00:00 postgres: stats collector 
pg13      1061  1053  0 16:16 ?        00:00:00 postgres: logical replication launcher 
pg13      1827  1053  0 16:29 ?        00:00:00 postgres: walsender replhr 172.72.6.7(51662) streaming 0/3000148
root      2024   551  0 16:32 pts/0    00:00:00 grep --color=auto pg13

[root@lhrpg66 /]# ps -ef|grep pg13

pg13 1053 0 0 16:16 ? 00:00:00 /pg13/pg13/bin/postgres -D /pg13/pgdata -p 5433

pg13 1054 1053 0 16:16 ? 00:00:00 postgres: logger

pg13 1056 1053 0 16:16 ? 00:00:00 postgres: checkpointer

pg13 1057 1053 0 16:16 ? 00:00:00 postgres: background writer

pg13 1058 1053 0 16:16 ? 00:00:00 postgres: walwriter

pg13 1059 1053 0 16:16 ? 00:00:00 postgres: autovacuum launcher

pg13 1060 1053 0 16:16 ? 00:00:00 postgres: stats collector

pg13 1061 1053 0 16:16 ? 00:00:00 postgres: logical replication launcher

pg13 1827 1053 0 16:29 ? 00:00:00 postgres: walsender replhr 172.72.6.7(51662) streaming 0/3000148

root 2024 551 0 16:32 pts/0 00:00:00 grep --color=auto pg13

从库进程：

[root@lhrpg67 /]# ps -ef|grep pg13
pg13      1900     0  0 16:29 ?        00:00:00 /pg13/pg13/bin/postgres
pg13      1901  1900  0 16:29 ?        00:00:00 postgres: logger 
pg13      1902  1900  0 16:29 ?        00:00:00 postgres: startup recovering 000000010000000000000003
pg13      1903  1900  0 16:29 ?        00:00:00 postgres: checkpointer 
pg13      1904  1900  0 16:29 ?        00:00:00 postgres: background writer
pg13      1905  1900  0 16:29 ?        00:00:00 postgres: stats collector
pg13      1906  1900  0 16:29 ?        00:00:00 postgres: walreceiver streaming 0/3000148
root      2186   540  0 16:32 pts/0    00:00:00 grep --color=auto pg13

[root@lhrpg67 /]# ps -ef|grep pg13

pg13 1900 0 0 16:29 ? 00:00:00 /pg13/pg13/bin/postgres

pg13 1901 1900 0 16:29 ? 00:00:00 postgres: logger

pg13 1902 1900 0 16:29 ? 00:00:00 postgres: startup recovering 000000010000000000000003

pg13 1903 1900 0 16:29 ? 00:00:00 postgres: checkpointer

pg13 1904 1900 0 16:29 ? 00:00:00 postgres: background writer

pg13 1905 1900 0 16:29 ? 00:00:00 postgres: stats collector

pg13 1906 1900 0 16:29 ? 00:00:00 postgres: walreceiver streaming 0/3000148

root 2186 540 0 16:32 pts/0 00:00:00 grep --color=auto pg13

查询复制状态

-- 主库查看wal日志发送状态
select * from pg_stat_replication;

-- 从库查看wal日志接收状态
select * from pg_stat_wal_receiver;

-- 也可以通过该名称查看
pg_controldata  | grep state

-- 也可以查看这个，主库是f代表false ；备库是t，代表true
select pg_is_in_recovery();

-- 主库查看wal日志发送状态

select * from pg_stat_replication;

-- 从库查看wal日志接收状态

select * from pg_stat_wal_receiver;

-- 也可以通过该名称查看

pg_controldata | grep state

-- 也可以查看这个，主库是f代表false ；备库是t，代表true

select pg_is_in_recovery();

主库查询复制状态：

C:\Users\lhrxxt>psql -U postgres -h 192.168.66.35 -p 64306
Password for user postgres:
psql (14.0, server 13.3)
Type "help" for help.

postgres=# select * from pg_stat_replication;
 pid | usesysid | usename | application_name | client_addr | client_hostname | client_port |         backend_start         | backend_xmin |   state   | sent_lsn  | write_lsn | flush_lsn | replay_lsn | write_lag | flush_lag | replay_lag | sync_priority | sync_state |          reply_time
-----+----------+---------+------------------+-------------+-----------------+-------------+-------------------------------+--------------+-----------+-----------+-----------+-----------+------------+-----------+-----------+------------+---------------+------------+-------------------------------
 623 |    16430 | replhr  | walreceiver      | 172.72.6.7  |                 |       51676 | 2022-02-10 16:37:28.351635+08 |              | streaming | 0/3000060 | 0/3000060 | 0/3000060 | 0/3000060  |           |           |            |             0 | async      | 2022-02-10 16:38:58.583056+08
(1 row)

postgres=# \x
Expanded display is on.
postgres=# select * from pg_stat_replication;
-[ RECORD 1 ]----+------------------------------
pid              | 623
usesysid         | 16430
usename          | replhr
application_name | walreceiver
client_addr      | 172.72.6.7
client_hostname  |
client_port      | 51676
backend_start    | 2022-02-10 16:37:28.351635+08
backend_xmin     |
state            | streaming
sent_lsn         | 0/3000060
write_lsn        | 0/3000060
flush_lsn        | 0/3000060
replay_lsn       | 0/3000060
write_lag        |
flush_lag        |
replay_lag       |
sync_priority    | 0
sync_state       | async
reply_time       | 2022-02-10 16:39:18.625797+08

C:\Users\lhrxxt>psql -U postgres -h 192.168.66.35 -p 64306

Password for user postgres:

psql (14.0, server 13.3)

Type "help" for help.

postgres=# select * from pg_stat_replication;

-----+----------+---------+------------------+-------------+-----------------+-------------+-------------------------------+--------------+-----------+-----------+-----------+-----------+------------+-----------+-----------+------------+---------------+------------+-------------------------------

623 | 16430 | replhr | walreceiver | 172.72.6.7 | | 51676 | 2022-02-10 16:37:28.351635+08 | | streaming | 0/3000060 | 0/3000060 | 0/3000060 | 0/3000060 | | | | 0 | async | 2022-02-10 16:38:58.583056+08

(1 row)

postgres=# \x

Expanded display is on.

postgres=# select * from pg_stat_replication;

-[ RECORD 1 ]----+------------------------------

pid | 623

usesysid | 16430

usename | replhr

application_name | walreceiver

client_addr | 172.72.6.7

client_hostname |

client_port | 51676

backend_start | 2022-02-10 16:37:28.351635+08

backend_xmin |

state | streaming

sent_lsn | 0/3000060

write_lsn | 0/3000060

flush_lsn | 0/3000060

replay_lsn | 0/3000060

write_lag |

flush_lag |

replay_lag |

sync_priority | 0

sync_state | async

reply_time | 2022-02-10 16:39:18.625797+08

pg_stat_replication是一个视图，主要用于监控PG流复制情况。在这个系统视图中每个记录只代表一个slave。因此，可以看到谁处于连接状态，在做什么任务。pg_stat_replication也是检查slave是否处于连接状态的一个好方法。

每个字段代码的含义：

• pid: 这代表负责流连接的wal_sender进程的进程ID。例如“postgres: walsender replhr 172.72.6.3(40056) streaming 0/7000148”。

• usesysid: 每个内部用户都有一个独一无二的编号。该系统的工作原理很像UNIX。 usesysid 是 (PostgreSQL) 用户连接到系统的唯一标识符。

• usename: (不是用户名, 注意少了 r)，它存储与用户相关的 usesysid 的名字。这是客户端放入到连接字符串中的东西。

• application_name:这是同步复制的通常设置。它可以通过连接字符串传递到master。

• client_addr: 它会告诉您流连接从何而来。它拥有客户端的IP地址。

• client_hostname: 除了客户端的IP，您还可以这样做，通过它的主机名来标识客户端。您可以通过master上的postgresql.conf中的log_hostname启用DNS反向查找。

• client_port: 这是客户端用来和WALsender进行通信使用的TPC端口号。如果不本地UNIX套接字被使用了将显示-1。

• backend_start: 它告诉我们slave什么时间创建了流连接。

本人提供Oracle(OCP、OCM)、MySQL(OCP)、PostgreSQL(PGCA、PGCE、PGCM)等数据库的培训和考证业务，私聊QQ646634621或微信dbaup66，谢谢！

后续精彩内容已被站长无情隐藏，请输入验证码解锁本文！

获取验证码：请先关注本站微信公众号，然后回复“验证码”，获取验证码。在微信里搜索“AiDBA”或者“dbaup6”或者微信扫描右侧二维码都可以关注本站微信公众号。

打赏赞(3)

标签： PG 高可用 failover switchover 故障切换

小麦苗

学习或考证，均可联系麦老师，请加微信db_bao或QQ646634621

发表回复取消回复

要发表评论，您必须先登录。

1、声明：本网站有部分文章整合或转载自网络，文章著作权归属原作者或原团队；若有侵权，深表歉意，请联系本站站长进行处理，谢谢！！！
2、本站提供数据库的培训和考证业务，培训包含但不限于Oracle、MySQL、PostgreSQL、SQL Server、国产数据库等，考证包括但不限于Oracle OCP、Oracle OCM、MySQL OCP、PGCA、PGCE、PGCM等，私聊QQ646634621或微信dbaup66，非诚勿扰，谢谢！！！
3、麦老师新建了《西安DBA数据架构师》微信群，有志同道合的朋友可以私聊我入群，我们一起聊技术，聊生活，空了可以喝酒约饭。
4、为了方便大家更有针对性的讨论学习数据库，故新建数据库分类群，包括Oracle群、MySQL群、SQL Server群、PG&GP群、国产&信创群。志同道合的朋友可以入群聊技术聊人生，捣乱的勿进，喷子勿进，极端人士勿进，谢谢。

合 PG高可用之主从流复制+keepalived 的高可用

简介

环境架构

配置主从流复制

主机环境准备

主库放开防火墙

主库创建复制用户

在从库对主库进行备份

还原从库

修改从库primary_conninfo参数

启动从库

查询复制状态

相关文章

您可能还喜欢...

发表回复取消回复

网站公告

网站寄语

本站其它工具

搜索本网站

标签云☁

网站日历

网站归档

网站分类

2024 年 11 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

合 PG高可用之主从流复制+keepalived 的高可用

简介

环境架构

配置主从流复制

主机环境准备

主库放开防火墙

主库创建复制用户

在从库对主库进行备份

还原从库

修改从库primary_conninfo参数

启动从库

查询复制状态

相关文章

您可能还喜欢...

密码保护PG 12新特性汇总

PG数据库的启动和关闭

PG中的组合查询

发表回复 取消回复

网站公告

网站寄语

本站其它工具

搜索本网站

标签云☁

网站日历

网站归档

网站分类

发表回复取消回复