青云Neonsan维护

服务的开启与停止

本节内容介绍运维过程中,可能涉及到的 NeonSAN 服务的启停操作。

步骤 1:逐个登录 NeonSAN 节点服务器。
步骤 2:在 NeonSAN 节点上使用 supervisor 启动各服务:

启动 store 服务:

supervisorctl start neonstore

启动 center 服务:

supervisorctl start neoncenter

启动 monitor 服务:

supervisorctl start neonmonitor

启动 prometheus 服务:

supervisorctl start prometheus

启动 alertmanager 服务:

supervisorctl start alertmanager

启动数据库服务:

supervisorctl start galera_cluster

启动 zookeeper 服务:

supervisorctl start zookeeper
步骤 3:在 NeonSAN 节点上使用 supervisor 命令停止各服务:

停止 store 服务:

supervisorctl stop neonstore

停止 center 服务:

supervisorctl stop neoncenter

停止 monitor 服务:

supervisorctl stop neonmonitor

停止 prometheus 服务:

supervisorctl stop prometheus

停止 alertmanager 服务:

supervisorctl stop alertmanager

停止数据库服务:

supervisorctl stop galera_cluster

停止 zookeeper 服务:

supervisorctl stop zookeeper
步骤 4:在 NeonSAN 节点上使用 supervisor 命令重启各服务:

重启 store 服务:

supervisorctl restart neonstore

重启 center 服务:

supervisorctl restart neoncenter

重启 monitor 服务:

supervisorctl restart neonmonitor

重启 prometheus 服务:

supervisorctl restart prometheus

重启 alertmanager 服务:

supervisorctl restart alertmanager

重启数据库服务:

supervisorctl restart galera_cluster

重启 zookeeper 服务:

supervisorctl restart zookeeper

开机与关机

关机然后再开机,保证 NeonSAN 状态不变,不引起降级的步骤如下:

关机

关闭 NeonSAN 集群,不引起降级的步骤如下:

操作步骤:
步骤 1:关闭使用 NeonSAN 的服务或应用(如:Oracle 应用等),确保没有 IO。
步骤 2:卸载 volume,如 qbd/qemu 等。
qbd -u vol/move_1 -c /etc/neonsan/qbd.conf

备注:

volume 与配置参数,需根据实际情况修改。

步骤 3:查看集群状态,确保集群状态正常,且无正在执行的异步任务:
neonsan list_store
neonsan list_ssd
neonsan list_volume -detail
neonsan list_job

备注:

  • 若存在 STATUS 不为 OK 的 store 节点,需调查,并解决问题。

  • 若存在 STATUS 不为 OK 的 SSD,需调查,并解决问题。

  • 若存在 STATUS 不为 OK 的 volume,需调查,并解决问题。

  • 若存在正在执行的异步任务,需等待该异步任务执行完成。

  • 最终确保所有 store,SSD,volume 的 STATUS 均为 OK,且异步任务

    列表中,所有任务均执行完成。

步骤 4:备份数据库:
sh /etc/neonsan/backup-db.sh 192.168.2.6

备注:

  • 若脚本 backup-db.sh 不存在,可参考:脚本资源,获取该脚本,并上

    传至节点服务器。

  • 若目录/var/log/neonsan 不存在,需手动创建目录后,再执行如上命

    令。

  • 192.168.2.6 为 NeonSAN 集群中的数据库节点 IP。需根据实际情况

    进行修改。数据库类型为 Galera,则 IP 为任一 Galera 节点 IP,数

    据库类型为 Xenondb,则 IP 为 Xenondb 的虚 IP。

步骤 5:停掉集群中的监控服务:
supervisorctl stop prometheus
supervisorctl stop alertmanager
supervisorctl stop neonmonitor
步骤 6:逐个登录集群的 store 节点,停掉该节点上的 store 服务:
supervisorctl stop neonstore
步骤 7:逐个登录集群的 center 节点,停掉该节点上的 center 服务:
supervisorctl stop neoncenter
步骤 8:逐个登录集群的数据库节点,停掉该节点上的数据库服务:

Xenondb 数据库:

/opt/xenondb/bin/xenon_service.py stop

Galera 数据库:

supervisorctl stop galera_cluster
步骤 9:逐个登录集群的 zookeeper 节点,停掉该节点上的 zookeeper 服务:
supervisorctl stop zookeeper
步骤 10:逐个服务器关机。

开机

启动 NeonSAN 集群的步骤如下:

操作步骤:

步骤 1:逐个服务器开机。
步骤 2:逐个登录 zookeeper 节点,启动该节点上的 zookeeper 服务。
supervisorctl start zookeeper

备注:

zookeeper 启动后,需查看 zookeeper 的状态,若 zookeeper 的状

态异常,需调查相关原因并解决:

# supervisorctl status zookeeper
zookeeper RUNNING pid 15638, uptime 27 days, 23:23:02 //状态为 RUNNING
# /opt/zookeeper-3.4.13/bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.13/bin/../conf/zoo.cfg
Mode: leader //集群中仅一个节点为 leader,其他均为 follower
步骤 3:逐个登录集群的数据库节点,启动该节点上的数据库服务:

Xenondb 数据库:

/opt/xenondb/bin/xenon_service.py start

Galera 数据库可参考《GALERA Cluster 安装部署及使用说明》 运

维章节相关内容进行操作。

数据库服务启动后,查看数据库状态:

//xenondb
# /opt/xenondb/bin/xenoncli cluster status
//galera
# supervisorctl status galera_cluster
# /opt/galera/bin/galera_cluster status //galera v1.0.1 需依次在 galera 节点上查看本节点 galera 状态

确认数据库状态正常,若异常,需调查相关原因并解决。

步骤 4:逐个登录集群的 center 节点,启动该节点上的 center 服务:
supervisorctl start neoncenter

备注:

确认 center 服务正常启动,若异常,需调查相关原因并解决。

步骤 5:逐个登录集群的 store 节点,启动该节点上的 store 服务:
supervisorctl start neonstore

备注:

确认 store 服务正常启动,若异常,需调查相关原因并解决。

步骤 6:逐个登录集群的节点,查看该节点上各服务状态:
supervisorctl status

备注:

除监控服务外,其他服务状态均为 RUNNING。

步骤 7:查看集群状态:
neonsan list_store
neonsan list_ssd
neonsan list_volume -detail

备注:

store,SSD,volume 的 STATUS 均为 OK。若异常,需调查相关原因并解决。

步骤 8:逐个登录集群的节点,启动该节点上的监控服务:
supervisorctl start prometheus
supervisorctl start alertmanager
supervisorctl start neonmonitor

备注:

确认监控服务正常启动,若异常,需调查相关原因并解决。

步骤 9:挂载 volume:
qbd -m vol/move_1 -c /etc/neonsan/qbd.conf

备注:

volume 与配置参数,需根据实际情况修改。

步骤 10:开启客户端。

备注:

先启动部分 client,验证 OK 后,再启动剩余 client。

集群断电与恢复

参考开机与关机相关内容。在集群关闭之后,加上断电操作。开启集群之前,

增加上电操作即可。