BG9FQP

服务的开启与停止

本节内容介绍运维过程中，可能涉及到的 NeonSAN 服务的启停操作。

步骤 1：逐个登录 NeonSAN 节点服务器。

步骤 2：在 NeonSAN 节点上使用 supervisor 启动各服务：

启动 store 服务：

supervisorctl start neonstore

启动 center 服务：

supervisorctl start neoncenter

启动 monitor 服务：

supervisorctl start neonmonitor

启动 prometheus 服务：

supervisorctl start prometheus

启动 alertmanager 服务：

supervisorctl start alertmanager

启动数据库服务：

supervisorctl start galera_cluster

启动 zookeeper 服务：

supervisorctl start zookeeper

步骤 3：在 NeonSAN 节点上使用 supervisor 命令停止各服务：

停止 store 服务：

supervisorctl stop neonstore

停止 center 服务：

supervisorctl stop neoncenter

停止 monitor 服务：

supervisorctl stop neonmonitor

停止 prometheus 服务：

supervisorctl stop prometheus

停止 alertmanager 服务：

supervisorctl stop alertmanager

停止数据库服务：

supervisorctl stop galera_cluster

停止 zookeeper 服务：

supervisorctl stop zookeeper

步骤 4：在 NeonSAN 节点上使用 supervisor 命令重启各服务：

重启 store 服务：

supervisorctl restart neonstore

重启 center 服务：

supervisorctl restart neoncenter

重启 monitor 服务：

supervisorctl restart neonmonitor

重启 prometheus 服务：

supervisorctl restart prometheus

重启 alertmanager 服务：

supervisorctl restart alertmanager

重启数据库服务：

supervisorctl restart galera_cluster

重启 zookeeper 服务：

supervisorctl restart zookeeper

开机与关机

关机然后再开机，保证 NeonSAN 状态不变，不引起降级的步骤如下:

关机

关闭 NeonSAN 集群，不引起降级的步骤如下:

操作步骤：

步骤 1：关闭使用 NeonSAN 的服务或应用（如：Oracle 应用等），确保没有 IO。

步骤 2：卸载 volume，如 qbd/qemu 等。

qbd -u vol/move_1 -c /etc/neonsan/qbd.conf

备注：

volume 与配置参数，需根据实际情况修改。

步骤 3：查看集群状态，确保集群状态正常，且无正在执行的异步任务：

neonsan list_store
neonsan list_ssd
neonsan list_volume -detail
neonsan list_job

备注：

若存在 STATUS 不为 OK 的 store 节点，需调查，并解决问题。
若存在 STATUS 不为 OK 的 SSD，需调查，并解决问题。
若存在 STATUS 不为 OK 的 volume，需调查，并解决问题。
若存在正在执行的异步任务，需等待该异步任务执行完成。
最终确保所有 store，SSD，volume 的 STATUS 均为 OK，且异步任务
列表中，所有任务均执行完成。

步骤 4：备份数据库：

sh /etc/neonsan/backup-db.sh 192.168.2.6

备注：

若脚本 backup-db.sh 不存在，可参考：脚本资源，获取该脚本，并上
传至节点服务器。
若目录/var/log/neonsan 不存在，需手动创建目录后，再执行如上命
令。
192.168.2.6 为 NeonSAN 集群中的数据库节点 IP。需根据实际情况
进行修改。数据库类型为 Galera，则 IP 为任一 Galera 节点 IP，数
据库类型为 Xenondb，则 IP 为 Xenondb 的虚 IP。

步骤 5：停掉集群中的监控服务：

supervisorctl stop prometheus
supervisorctl stop alertmanager
supervisorctl stop neonmonitor

步骤 6：逐个登录集群的 store 节点，停掉该节点上的 store 服务：

supervisorctl stop neonstore

步骤 7：逐个登录集群的 center 节点，停掉该节点上的 center 服务：

supervisorctl stop neoncenter

步骤 8：逐个登录集群的数据库节点，停掉该节点上的数据库服务：

Xenondb 数据库：

/opt/xenondb/bin/xenon_service.py stop

Galera 数据库：

supervisorctl stop galera_cluster

步骤 9：逐个登录集群的 zookeeper 节点，停掉该节点上的 zookeeper 服务：

supervisorctl stop zookeeper

步骤 10：逐个服务器关机。

开机

启动 NeonSAN 集群的步骤如下:

操作步骤：

步骤 1：逐个服务器开机。

步骤 2：逐个登录 zookeeper 节点，启动该节点上的 zookeeper 服务。

supervisorctl start zookeeper

备注：

zookeeper 启动后，需查看 zookeeper 的状态，若 zookeeper 的状

态异常，需调查相关原因并解决：

# supervisorctl status zookeeper
zookeeper RUNNING pid 15638, uptime 27 days, 23:23:02 //状态为 RUNNING
# /opt/zookeeper-3.4.13/bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.13/bin/../conf/zoo.cfg
Mode: leader //集群中仅一个节点为 leader，其他均为 follower

步骤 3：逐个登录集群的数据库节点，启动该节点上的数据库服务：

Xenondb 数据库：

/opt/xenondb/bin/xenon_service.py start

Galera 数据库可参考《GALERA Cluster 安装部署及使用说明》运

维章节相关内容进行操作。

数据库服务启动后，查看数据库状态：

//xenondb
# /opt/xenondb/bin/xenoncli cluster status
//galera
# supervisorctl status galera_cluster
# /opt/galera/bin/galera_cluster status //galera v1.0.1 需依次在 galera 节点上查看本节点 galera 状态

确认数据库状态正常，若异常，需调查相关原因并解决。

步骤 4：逐个登录集群的 center 节点，启动该节点上的 center 服务：

supervisorctl start neoncenter

备注：

确认 center 服务正常启动，若异常，需调查相关原因并解决。

步骤 5：逐个登录集群的 store 节点，启动该节点上的 store 服务：

supervisorctl start neonstore

备注：

确认 store 服务正常启动，若异常，需调查相关原因并解决。

步骤 6：逐个登录集群的节点，查看该节点上各服务状态：

supervisorctl status

备注：

除监控服务外，其他服务状态均为 RUNNING。

步骤 7：查看集群状态：

neonsan list_store
neonsan list_ssd
neonsan list_volume -detail

备注：

store，SSD，volume 的 STATUS 均为 OK。若异常，需调查相关原因并解决。

步骤 8：逐个登录集群的节点，启动该节点上的监控服务：

supervisorctl start prometheus
supervisorctl start alertmanager
supervisorctl start neonmonitor

备注：

确认监控服务正常启动，若异常，需调查相关原因并解决。

步骤 9：挂载 volume：

qbd -m vol/move_1 -c /etc/neonsan/qbd.conf

备注：

volume 与配置参数，需根据实际情况修改。

步骤 10：开启客户端。

备注：

先启动部分 client，验证 OK 后，再启动剩余 client。

集群断电与恢复

参考开机与关机相关内容。在集群关闭之后，加上断电操作。开启集群之前，

增加上电操作即可。

青云Neonsan维护

服务的开启与停止

步骤 1：逐个登录 NeonSAN 节点服务器。

步骤 2：在 NeonSAN 节点上使用 supervisor 启动各服务：

步骤 3：在 NeonSAN 节点上使用 supervisor 命令停止各服务：

步骤 4：在 NeonSAN 节点上使用 supervisor 命令重启各服务：

开机与关机

关机

操作步骤：

步骤 1：关闭使用 NeonSAN 的服务或应用（如：Oracle 应用等），确保没有 IO。

步骤 2：卸载 volume，如 qbd/qemu 等。

步骤 3：查看集群状态，确保集群状态正常，且无正在执行的异步任务：

步骤 4：备份数据库：

步骤 5：停掉集群中的监控服务：

步骤 6：逐个登录集群的 store 节点，停掉该节点上的 store 服务：

步骤 7：逐个登录集群的 center 节点，停掉该节点上的 center 服务：

步骤 8：逐个登录集群的数据库节点，停掉该节点上的数据库服务：

步骤 9：逐个登录集群的 zookeeper 节点，停掉该节点上的 zookeeper 服务：

步骤 10：逐个服务器关机。

开机

步骤 1：逐个服务器开机。

步骤 2：逐个登录 zookeeper 节点，启动该节点上的 zookeeper 服务。

步骤 3：逐个登录集群的数据库节点，启动该节点上的数据库服务：

步骤 4：逐个登录集群的 center 节点，启动该节点上的 center 服务：

步骤 5：逐个登录集群的 store 节点，启动该节点上的 store 服务：

步骤 6：逐个登录集群的节点，查看该节点上各服务状态：

步骤 7：查看集群状态：

步骤 8：逐个登录集群的节点，启动该节点上的监控服务：

步骤 9：挂载 volume：

步骤 10：开启客户端。

集群断电与恢复