오늘은 Nutanix 초보자에게 도움이 될만한 이야기를 좀 더 쉽게 표현하도록 해볼께요! 필드에 나가서 많이 겪으실 내용을 정리하여 전달해 드립니다. PCVM /home full 현상에 아래 이야기를 통해 대해 확인해 보세요!
주말 내내 넷플릭스 몰아보느라 뻐근한 몸 이끌고 출근했는데, 자리에 앉기도 전에 고객사 전화가 울린다. 이거 진짜 불길한 신호거든. 보통 월요일 아침은 커피 향 맡으면서 로그나 슬슬 훑어야 하는데, 수화기 너머 담당자 목소리가 이미 안드로메다까지 하이톤으로 올라가 있다. "지금 Nutanix Prism 접속이 아예 안 됩니다! 다 죽었어요!"
"다 안 돼요!"라는 말에 속아 넘어가지 않는 법
솔직히 엔지니어 인생이 맨날 불 꺼주러 다니는 소방수라지만, 아침부터 이러면 멘탈이 바사삭 부서진다. 일단 진정하고 원격부터 붙었다. VPN 타고 들어가서 Prism IP를 브라우저에 쳤는데, 웬걸? 너무 잘 뜬다. 로그인 창이 아주 예쁘게 나를 반기네. 나도 모르게 입 밖으로 툭 튀어나왔다. "어? 잘 되는데요?"
알고 보니 메인 Prism(AOS)이 죽은 게 아니었다. 그 안에서 돌아가는 중앙 컨트롤러, 그러니까 Prism Central(PC) 접속이 안 되는 걸 담당자가 "다 죽었다"라고 뭉뚱그려 던진 거다. 여기서 초보 엔지니어들이 꼭 기억해야 할 게 있다. 고객의 증상 설명을 100% 믿지 마라. 그들은 전문가가 아니다. 어떤 IP가 안 되는지, 구체적으로 어떤 화면이 뜨는지 직접 눈으로 확인하기 전까진 아무것도 확신하면 안 된다. 엉뚱한 데서 삽질하다가 시간 다 버리기 딱 좋으니까.
이 경험을 통해 알게 된 장애 대응 꿀팁
- 고객의 "안 돼요"는 "어딘가 불편해요"로 필터링해서 듣자.
- 핑(Ping)이 나간다고 서비스가 정상인 건 절대 아니다.
- SSH 접속이 된다면 일단 절반은 성공한 거다.
핑은 가는데 웹은 하얀색? 범인은 구린내 나는 파티션
PC(Prism Central) UI는 여전히 무한 뺑뺑이 중이다. 핑은 기막히게 나가는데 웹 포트(80, 443)가 응답이 없다. 고민할 것 없이 바로 Putty 열고 SSH로 들어갔다. 다행히 로그인 프롬프트는 뜬다. 근데 명령어를 치는데 자꾸 튕긴다. 뱉어낸다는 표현이 맞겠다. 여기서 짬에서 나오는 바이브가 뇌리를 스쳤다.
접속은 되는데 간단한 명령어조차 안 먹힌다? 이건 십중팔구 로그 파일 하나 만들
공간조차 없다는 뜻이다. 시스템 파티션, 특히 아이노드(inode)가 꽉 찼을 때
나오는 전형적인 증상이다. 꾸역꾸역 df -h를 쳐보니 빙고.
/home 파티션이 100% 사용 중으로 찍혀 있다. 'No space left on
device' 에러가 터미널을 도배하기 시작한다.
글로벌 버그 KB-5228, 너였구나?
원인 잡았으니 벤더사 레퍼런스를 뒤졌다. 내 뇌피셜로 파일 막 지웠다가 나중에 장애 보고서 쓸 때 독박 쓰면 안 되니까. Nutanix KB 포털에 키워드 때려 넣으니 바로 하나 걸린다. KB-5228. PC 2022.9 이상 버전에서 특정 프로세스가 미쳐 날뛰면서 아이노드를 다 잡아먹고 파티션을 꽉 물어버리는 고질적인 버그였다. 나만 겪는 일이 아니라는 사실에 묘한 안도감이 든다.
고객한테 바로 브리핑 들어갔다. "지금 쓰시는 버전 글로벌 버그입니다. 찌꺼기 지워봤자 또 차요. 이건 버전 업그레이드 말고는 답 없습니다." 당장 고쳐내라는 고객의 압박에 목표 버전을 안정적인 2023.4.x로 잡고 작업을 시작했다.
"왜 안 끝나요?" 옆에서 쪼아대는 고객 대처법
뉴타닉스의 자랑인 '원클릭(1-Click)' 업그레이드를 돌렸다. 버튼 하나면 지가 알아서 파일 가져오고 롤링 업그레이드 치니까 사실 내가 할 건 모니터링뿐이다. 근데 작업 시작한 지 20분도 안 됐는데 담당자가 난리가 났다. "언제 켜집니까?", "점심 전엔 되나요?" 아주 귀에서 피가 날 지경이다.
수억짜리 인프라 장비가 무슨 동네 피씨방 컴퓨터 재부팅하듯이 뚝딱 켜지는 줄 아는 모양이다. 백엔드에서 데이터 마이그레이션하고 무중단 테스트 다 거치면서 올라가는 건데 말이다. 쪼아댄다고 게이지가 빨리 차는 것도 아니고. 꾹 참고 단호하게 한마디 했다. "지금 데이터 옮기는 중이라 강제로 끄면 진짜 대형 사고 납니다. 무조건 기다리세요."
장애 복구 완료, 그 허무한 마무리에 대하여
마침내 게이지 100% 찍고 서비스가 정상으로 올라왔다. 대시보드에 초록색 불이 빵빵하게 켜지는 걸 확인하니 그제야 긴장이 풀린다. 방금 전까지 사람 달달 볶던 담당자가 갑자기 목소리 싹 깔면서 "아유, 고생하셨어요. 감사합니다"라며 인사를 건넨다. 참, 마음이 갈대 같다.
초보 엔지니어를 위한 실패 없는 트러블슈팅 리스트
- 정확한 타겟팅: Prism(AOS)인지 Prism Central(PC)인지부터 확실히 구분해라.
-
SSH는 최후의 보루: UI가 죽었을 때 당황하지 말고 터미널로
붙어서
df -h부터 쳐봐라. - 근거 있는 조치: 반드시 벤더사의 KB(Knowledge Base) 번호를 확인하고 작업해라. 나중에 보고서 쓸 때 너의 방패가 된다.
- 시간 벌기: 업그레이드 시간은 항상 넉넉하게 불러라. 1시간 걸릴 거 같으면 2시간이라고 말해야 니 멘탈이 보존된다.
오늘도 이렇게 파티션 버그 하나를 머릿속에 찐하게 새겼다. 엔지니어의 삶이란 게 결국 이런 사소한 경험치들이 쌓여서 만들어지는 거니까. 다음엔 제발 월요일 아침 말고 목요일 오후쯤 터져주길 바랄 뿐이다.
다들 알겠지만, Nutanix 는 문제가 생기면 KB까지 찍어 준다는 사실 ~ 뭐 정확한 원인은 엔지니어인 당사자가 찾아야겠지만 그래도 마음의 위로는 될까 싶다.
✔ KB정보: pcvm_disk_usage_check 에 대해 알아보세요.

0 댓글