五一假期,中间有几天没使用云平台虚拟机。早上一来,同事的虚拟机连接不上。由于原来负责云平台运维的同事刚刚离职,这里我只有硬着头皮临时顶上。查找原因,得以解决,暂记方法,以后参考。其实是很低级的问题,这里我记录下来主要是供菜鸟们参考,提供一个解决问题思路和方法,如果是大牛,那么请您请绕道,呵呵。废话不多少,下面正式开始:
1.根据目前云平台的dashboard (http://192.168.**.** )使用管理员账户登陆,根据Project,查找到对应IP;
2.根据此IP对应intances进入相应的详细信息界面:查看其Instance Overview,包括Name、ID及status等;
目前如下:
Instance Overview
Info
Name:haochuang_I24_Infoworks_update_F2_test2
ID:14c48904-fd38-4f39-bcae-ddd37b592c03
Status:Hard_Reboot
3.查询该instance所在实体机:
nova-manage vm list |grep haochuang_I24_Infoworks_update_F2_test2
可以获取到结果:test-compute23
4.连接当前实体机:192.168.××.××,并查询相关服务:
可以看到服务已经挂掉,那么启动此服务:service nova-computer start,结果报错,根据报错信息可以看到空间满的缘故,如下:
5.找到问题原因,解决就好办。查找/ 目录下的大文件:
du --max-depth=1 / | sort -rn,层层查找,结果看到 /var/log/nova 下面的日志过大,单个日志达到11GB,可以 cat > nova-compute.log、cat > nova-dhcpbridge.log清空其中的日志信息,然后再重新启动nova-computer服务
6.服务启动之后,根据虚拟机的ID查找对应的instance:
然后通过 virt-manager 命令启动虚拟机管理,在管理界面中控制并启动虚拟机。
7.期间遇到此问题:“Error: viewer connection to hypervisor host got refused or disconnected!”,这时候可以通过强制停止,再重新启动的方法,尝试挽救虚拟机。
8.虚拟机启动之后,如果可以ping通,则连接上去验证是否正确。
最终验证正确,虚拟机可用,数据未丢失 :-)