阿里云服务器突然终止服务且重启失败的解决方法
本文将为您介绍服务器突然终止服务且重启失败的原因和解决方法。
问题描述
服务器使用了一段时间,突然终止服务,重启无效果或重启失败。
问题原因和解决方法
出现该问题的原因及相应的解决方法如下:
•不同账户启动过Agent,导致目录权限不一致。
确认方法如下:
i.登录ECS,切换至root账号。
ii.执行命令ps -ef | grep zoo | grep -v cdp。
如果返回两个进程,则说明是该原因导致,解决方法如下:
i.登录ECS,对上述ps出的两个进程执行kill -9。
ii.执行命令chown admin:admin /home/admin/ -R。
iii.执行命令/home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart,重启Agent。
句柄数被过多占用。
确认方法如下:
▫登录ECS,执行命令grep "temporarily unavailable" /home/admin/alisatasknode/logs/alisatasknode.log。如果有结果返回,则说明有问题。
▫重启Agent失败,报错为Caused by: java.io.IOException: error=11, Resource temporarily unavailable。
如果确认是该原因导致的问题,请根据下述方法解决:
i.切换至root账号下,执行命令ps -ef | grep zoo | grep -v cdp。
ii.对上述ps出的进程全部执行kill -9命令。
iii.执行命令chown admin:admin /home/admin/ -R。
iv.执行命令/home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart,重启Agent。
•专有网络的ECS的UUID发生变化。
i.登录ECS,执行命令dmidecode | grep UUID,确认返回的UUID是否全部为小写字母(假设原来是大写)。
ii.将返回的结果和资源组列表 > 自定义资源组页面服务器管理对话框中的结果进行对比。
如果确认是该原因导致的问题,请在自定义资源组页面删除原来大写UUID的服务器,重新添加小写UUID的服务器。
说明 如果出现服务器无法删除,报错remove node failed, exception: [3006:ERROR_GATEWAY_EXIST_TASKS]:gateway tasks not empty的情况,请记录服务器所在区域,并复制报错内容,提交工单进行咨询。
我有话说: