本节内容介绍运维过程中,可能涉及到的 NeonSAN 服务的启停操作。
步骤 1:逐个登录 NeonSAN 节点服务器。
步骤 2:在 NeonSAN 节点上使用 supervisor 启动各服务:
启动 store 服务:
supervisorctl start neonstore
启动 center 服务:
supervisorctl start neoncenter
启动 monitor 服务:
supervisorctl start neonmonitor
启动 prometheus 服务:
supervisorctl start prometheus
启动 alertmanager 服务:
supervisorctl start alertmanager
启动数据库服务:
supervisorctl start galera_cluster
启动 zookeeper 服务:
supervisorctl start zookeeper
步骤 3:在 NeonSAN 节点上使用 supervisor 命令停止各服务:
停止 store 服务:
supervisorctl stop neonstore
停止 center 服务:
supervisorctl stop neoncenter
停止 monitor 服务:
supervisorctl stop neonmonitor
停止 prometheus 服务:
supervisorctl stop prometheus
停止 alertmanager 服务:
supervisorctl stop alertmanager
停止数据库服务:
supervisorctl stop galera_cluster
停止 zookeeper 服务:
supervisorctl stop zookeeper
步骤 4:在 NeonSAN 节点上使用 supervisor 命令重启各服务:
重启 store 服务:
supervisorctl restart neonstore
重启 center 服务:
supervisorctl restart neoncenter
重启 monitor 服务:
supervisorctl restart neonmonitor
重启 prometheus 服务:
supervisorctl restart prometheus
重启 alertmanager 服务:
supervisorctl restart alertmanager
重启数据库服务:
supervisorctl restart galera_cluster
重启 zookeeper 服务:
supervisorctl restart zookeeper
开机与关机
关机然后再开机,保证 NeonSAN 状态不变,不引起降级的步骤如下:
关机
关闭 NeonSAN 集群,不引起降级的步骤如下:
操作步骤:
步骤 1:关闭使用 NeonSAN 的服务或应用(如:Oracle 应用等),确保没有 IO。
步骤 2:卸载 volume,如 qbd/qemu 等。
qbd -u vol/move_1 -c /etc/neonsan/qbd.conf
备注:
volume 与配置参数,需根据实际情况修改。
步骤 3:查看集群状态,确保集群状态正常,且无正在执行的异步任务:
neonsan list_store
neonsan list_ssd
neonsan list_volume -detail
neonsan list_job
备注:
若存在 STATUS 不为 OK 的 store 节点,需调查,并解决问题。
若存在 STATUS 不为 OK 的 SSD,需调查,并解决问题。
若存在 STATUS 不为 OK 的 volume,需调查,并解决问题。
若存在正在执行的异步任务,需等待该异步任务执行完成。
最终确保所有 store,SSD,volume 的 STATUS 均为 OK,且异步任务
列表中,所有任务均执行完成。
步骤 4:备份数据库:
sh /etc/neonsan/backup-db.sh 192.168.2.6
备注:
若脚本 backup-db.sh 不存在,可参考:脚本资源,获取该脚本,并上
传至节点服务器。
若目录/var/log/neonsan 不存在,需手动创建目录后,再执行如上命
令。
192.168.2.6 为 NeonSAN 集群中的数据库节点 IP。需根据实际情况
进行修改。数据库类型为 Galera,则 IP 为任一 Galera 节点 IP,数
据库类型为 Xenondb,则 IP 为 Xenondb 的虚 IP。
步骤 5:停掉集群中的监控服务:
supervisorctl stop prometheus
supervisorctl stop alertmanager
supervisorctl stop neonmonitor
步骤 6:逐个登录集群的 store 节点,停掉该节点上的 store 服务:
supervisorctl stop neonstore
步骤 7:逐个登录集群的 center 节点,停掉该节点上的 center 服务:
supervisorctl stop neoncenter
步骤 8:逐个登录集群的数据库节点,停掉该节点上的数据库服务:
Xenondb 数据库:
/opt/xenondb/bin/xenon_service.py stop
Galera 数据库:
supervisorctl stop galera_cluster
步骤 9:逐个登录集群的 zookeeper 节点,停掉该节点上的 zookeeper 服务:
supervisorctl stop zookeeper
步骤 10:逐个服务器关机。
开机
启动 NeonSAN 集群的步骤如下:
操作步骤:
步骤 1:逐个服务器开机。
步骤 2:逐个登录 zookeeper 节点,启动该节点上的 zookeeper 服务。
supervisorctl start zookeeper
备注:
zookeeper 启动后,需查看 zookeeper 的状态,若 zookeeper 的状
态异常,需调查相关原因并解决:
# supervisorctl status zookeeper
zookeeper RUNNING pid 15638, uptime 27 days, 23:23:02 //状态为 RUNNING
# /opt/zookeeper-3.4.13/bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.13/bin/../conf/zoo.cfg
Mode: leader //集群中仅一个节点为 leader,其他均为 follower
步骤 3:逐个登录集群的数据库节点,启动该节点上的数据库服务:
Xenondb 数据库:
/opt/xenondb/bin/xenon_service.py start
Galera 数据库可参考《GALERA Cluster 安装部署及使用说明》 运
维章节相关内容进行操作。
数据库服务启动后,查看数据库状态:
//xenondb
# /opt/xenondb/bin/xenoncli cluster status
//galera
# supervisorctl status galera_cluster
# /opt/galera/bin/galera_cluster status //galera v1.0.1 需依次在 galera 节点上查看本节点 galera 状态
确认数据库状态正常,若异常,需调查相关原因并解决。
步骤 4:逐个登录集群的 center 节点,启动该节点上的 center 服务:
supervisorctl start neoncenter
备注:
确认 center 服务正常启动,若异常,需调查相关原因并解决。
步骤 5:逐个登录集群的 store 节点,启动该节点上的 store 服务:
supervisorctl start neonstore
备注:
确认 store 服务正常启动,若异常,需调查相关原因并解决。
步骤 6:逐个登录集群的节点,查看该节点上各服务状态:
supervisorctl status
备注:
步骤 7:查看集群状态:
neonsan list_store
neonsan list_ssd
neonsan list_volume -detail
备注:
store,SSD,volume 的 STATUS 均为 OK。若异常,需调查相关原因并解决。
步骤 8:逐个登录集群的节点,启动该节点上的监控服务:
supervisorctl start prometheus
supervisorctl start alertmanager
supervisorctl start neonmonitor
备注:
确认监控服务正常启动,若异常,需调查相关原因并解决。
步骤 9:挂载 volume:
qbd -m vol/move_1 -c /etc/neonsan/qbd.conf
备注:
volume 与配置参数,需根据实际情况修改。
步骤 10:开启客户端。
备注:
先启动部分 client,验证 OK 后,再启动剩余 client。
集群断电与恢复
参考开机与关机相关内容。在集群关闭之后,加上断电操作。开启集群之前,