Nutanix PC 업데이트 후 VM 콘솔이 안 열릴 때? 당황하지 마세요 (KB-20558 트러블슈팅)

Nutanix Prism Central는 점점 중요한 역할의 비중이 높아지고 있습니다. 라이선스 부터 시작해서, 여러 기능들을 추가할 수 있게 되었고, 오늘은 Prism Central 의 이야기를 해보려고 합니다. 

아침 출근길을 공포로 만드는 Prism Central 'Disconnected' 빨간 불

평소처럼 모니터링 대시보드를 열었는데, 멀쩡하던 CVM(Controller VM)들이 Prism Central(PC)에서 'Disconnected' 상태로 변해 있다면 등줄기에 식은땀이 흐르기 마련이에요. 서비스 자체가 당장 죽은 건 아니지만, 중앙 관리가 불가능해지고 복제나 야간 백업 스케줄이 멈춰버릴 수 있는 아주 긴박한 상황이죠.

Nutanix 환경에서 이런 연결 끊김은 단순히 랜선이 빠진 문제가 아니라 인증서 만료, 시간 동기화 실패, 혹은 특정 서비스의 교착 상태 등 원인이 정말 거미줄처럼 얽혀 있어요. 공식 문서인 KB-20558은 아주 기초적인 점검 흐름만 짚어주기 때문에, 지난주 금융권 고객사에서 직접 마주했던 변수들과 가장 먼저 찔러봐야 할 핵심 포인트를 엔지니어의 시각으로 정리해봤어요.


지금 내 클러스터 상태는? 가장 먼저 던져야 할 질문

장애가 났을 때 가장 먼저 확인해야 할 건 클러스터가 Prism Central에 정상적으로 등록은 되어 있는지, 데이터베이스상으로 어떤 상태로 인식되고 있는지를 파악하는 일이에요. 단순히 대시보드 화면에 안 보인다고 냅다 재등록(Register) 버튼부터 눌렀다가는, 기존 메타데이터가 꼬여서 복구 시간이 두 배로 늘어날 수 있거든요.

가장 먼저 CVM 중 하나에 SSH로 접속해서 현재 연동 정보를 터미널로 뽑아봐야 해요. 이 명령어는 복잡한 멀티 클러스터 관리 상태를 직관적인 텍스트로 정리해서 보여주며, 'Remote Connection' 항목이 유효한지 체크하는 것이 트러블슈팅의 첫걸음입니다.

ncli multicluster get-cluster-state

명령어 실행 결과를 보면 연동된 Prism Central의 논리적 이름과 고유 ID, 그리고 현재 통신 상태가 주르륵 출력됩니다. 여기서 우리가 눈여겨봐야 할 핵심은 'Remote Connection' 항목의 값이 'Disconnected'로 표시되는지 여부예요. 만약 연결이 뚝 끊겨 있거나 아예 등록 정보 자체가 비어있다면, 단순 네트워크 단절을 넘어 인증 토큰 증발을 강하게 의심해야 합니다.


네트워크 문제일까, 인증 문제일까? 한눈에 비교하기

트러블슈팅의 골든 타임을 지키려면 지금 겪고 있는 장애가 '길이 막힌 것(네트워크)'인지, 아니면 '문지기가 막는 것(인증)'인지를 재빨리 구분해야 해요. 제가 현장에서 밤을 새우며 겪었던 수많은 사례들을 바탕으로, 가장 빈번하게 발생하는 주요 원인을 아래 표로 정리해 보았습니다.

구분 주요 증상 원인 의심 포인트 해결 방향
네트워크(Network) Ping 실패, 9440 포트 응답 없음 방화벽 정책 변경, VLAN 태깅 오류 보안 팀에 포트 개방 확인 요청
인증(Auth/Token) ID/PW 불일치, 401 Unauthorized PC 암호 변경 후 업데이트 누락 ncli 명령어로 자격 증명 재등록
시간(NTP/Time) 인증서 만료 에러, 시간 편차 발생 NTP 서버 동기화 실패 CVM 및 PC 시간 일치화 작업
서비스(Service) 특정 프로세스 Down 상태 Aplos, Insights 서비스 행(Hang) 관련 서비스 재시작 및 메모리 점검

9440 포트는 열려 있나요? 통신 경로의 무결성 검사

Nutanix 관리자 통신의 핵심 통로이자 생명줄은 바로 9440 포트예요. HTTPS 기반의 REST API 통신이 모두 이 포트를 통해 이루어지는데, 주말 사이 사내 방화벽 정책이 바뀌거나 스위치 교체 작업 중에 이 포트가 허무하게 막히는 경우가 의외로 잦습니다.

단순히 핑(Ping) 테스트만 성공했다고 해서 안심하고 넘어가면 절대 안 돼요. 실제 웹 서비스 포트가 열려 있는지 확인하기 위해 CVM에서 Prism Central IP를 대상으로 통신 테스트를 수행해야 합니다. 아래의 curl 명령어는 -k 옵션으로 SSL 인증서 오류를 강제로 무시하고 오직 포트 응답성만 순수하게 테스트할 수 있게 해줍니다.

curl -k -v https://<Prism_Central_IP>:9440

이 명령어를 날렸을 때 화면에 'Connected to...'라는 반가운 메시지가 뜨면, 일단 방화벽 등 네트워크 인프라 구간은 무죄라고 확정 지을 수 있어요. 반대로 'Connection refused' 메시지가 바로 떨어지거나 기약 없는 'Timeout'이 발생한다면 상황은 완전히 달라집니다. 이는 십중팔구 방화벽 룰이 수정되었거나 ACL이 꼬인 것이니 즉시 사내 네트워크 담당자를 찾아가야 할 타이밍이에요.

Prism Central 내부 서비스는 건강한지 들여다보기

네트워크 통신망도 멀쩡하고 NTP 시간도 딱 맞는데 계속 끊겨 있다면, 이제는 Prism Central VM 안에서 구동되는 자체 서비스들의 건강 상태를 짚어봐야 할 차례예요. 특히 'Aplos'나 'Insights' 같은 무거운 관리 서비스들이 메모리 부족이나 알 수 없는 데드락(Deadlock)에 빠져 조용히 멈춰 있는 경우가 종종 있거든요.

PC에 직접 SSH로 접근해서 백그라운드로 도는 수십 개의 마이크로서비스들이 제대로 살아있는지 전수 조사를 시작해야 합니다. 웹에서는 볼 수 없는 백엔드의 진짜 상태를 확인하는 과정으로, 서비스 하나라도 계속해서 재시작 중이라면 연결은 절대 붙지 않습니다.

genesis status

결과 화면을 보면 다양한 서비스 이름 옆에 대괄호로 묶인 PID 숫자들이 표시되는 것을 확인할 수 있습니다. 만약 유독 특정 서비스(예: Aplos) 옆의 숫자가 비어있는 채 빈 대괄호 [] 로 나타나거나, 명령어를 칠 때마다 PID가 바뀐다면 프로세스가 무한 재시작의 늪에 빠진 거예요. 이럴 땐 당장 해당 서비스의 FATAL 로그 파일 분석으로 넘어가야 합니다.

💡 현업 엔지니어가 알려주는 실무 주의사항

  • 비밀번호 변경의 끔찍한 나비효과: 보안 감사 시즌에 Prism Central의 관리자 비밀번호를 바꾸셨나요? 담당자가 자기 PC 비밀번호 바꾸듯 슥 바꿨다가 연결된 클러스터 5개가 전부 날아간(Disconnected) 고객사 사례가 있었습니다. PC 암호를 바꿨다면 반드시 각 CVM 클러스터에서도 변경된 자격 증명을 업데이트해 주셔야 해요.
  • 숨어있는 시한폭탄, 인증서 만료: Nutanix AOS 버전이 낮은 구형 장비를 그대로 운영 중이시라면 자체 서명 인증서 만료로 인해 통신이 거부될 수 있어요. 정기적인 라이프사이클 관리(LCM)를 통해 클러스터 버전을 최신으로 유지하는 것이 주말 출근을 막는 지름길입니다.
  • PC VM의 조용한 리소스 고갈: Prism Central은 은근히 메모리를 많이 먹어 치우는 괴물이에요. 초기에 구축해 둔 사양 그대로인데 관리하는 노드 수만 계속 늘렸다면, OOM(Out of Memory)으로 인한 서비스 행(Hang) 현상이 빈번해집니다.

그리고 정말 가끔 마주하는 황당한 케이스지만, CVM의 /home 파티션 용량이 100% 꽉 차서 시스템이 로그를 기록하지 못해 관련 프로세스가 멈추는 경우도 있어요. 트러블슈팅이 막힐 때는 df -h 명령어로 기본 디스크 용량부터 확인하는 습관을 들이세요!

"트러블슈팅은 언제나 막막하지만, 이렇게 하나씩 원인을 소거해 나가다 보면 결국 답이 보이더라고요. 오늘 제 경험이 갑작스러운 'Disconnected' 알람으로 당황하셨을 누군가에게 작은 힌트가 되었기를 바랍니다. 혹시 이 방법으로도 해결이 안 되거나, 더 특이한 케이스를 겪으셨다면 댓글로 공유해 주세요. 함께 고민해 보겠습니다. 다들 평온한 인프라 운영 되시길 응원합니다!"

댓글 쓰기

0 댓글

이 블로그 검색

태그

신고하기

프로필

이미지alt태그 입력