뉴타닉스(Nutanix) 셧다운? 클러스터 ON/OFF 절차방법 알아보기

유지보수 사이트에서 종종 클러스터 내리는 경우가 있습니다. 보통 정전작업이나, 교체, 및 패치등 여러가지 상황이 있는데요. 오늘은 그런 작업에 필요한 클러스터 ON/OFF 절차에 대해 알아보도록 하겠습니다. 

내 주말 돌려내... 정전 작업 오더가 떨어졌다.

유지보수를 하다 보면 피할 수 없는 이벤트가 바로 건물 정전이야. 어느 날 담당자가 아주 해맑은 목소리로 "건물 정전 작업 때문에 전체 시스템 OFF 해야 하니까 장비 지원 좀 와주세요" 하더라고. 언제냐고? 이번 주 주말. 아, 내 소중한 주말이 이렇게 또 공중분해 되는구나 속으로 오열했지. 근데 뭐 어쩌겠어. 까라면 까야지. 정신줄 꽉 잡고 고객한테 정확한 시간, 일정, 요구사항을 캐물었어. 작업 시간은 6시간 정도 확보했다고 하더라. 나한테 작업 절차서랑 계획서를 내놓으라는데, 여기서 진짜 중요한 게 있어. 선 긋기. 나는 엔지니어니까 클러스터 내리는 인프라 작업만 책임지고, 그 위에 돌아가는 특정 솔루션이나 어플리케이션 서비스 확인은 무조건 담당자들이 알아서 해야 한다고 쐐기를 박았지. 순서 꼬이면 나중에 피곤해지니까. 

이것만은 외워둬! 실전 셧다운 & 기동 절차서

담당자한테 넘겨줬던, 내 피와 땀이 섞인 작업 절차야. 그냥 막 끄면 클러스터 다 망가지는 거 알지? 순서가 생명이야.

1. 조심조심 내려보자 (Shutdown)

단계 핵심 작업 포인트 명령어 / 비고
1. 일반 VM 완전 종료 Prism Element 접속해서 모든 Guest VM을 안전하게 셧다운해. 담당자들이 자기네 서비스 내렸는지 두 번 세 번 확인해야 해. (VM 켜져 있으면 클러스터 안 내려가) (Prism UI에서 진행)
2. PC 중지 PC 접속(nutanix /nutanix/4u) 후 상태 확인하고 스톱. cluster status
cluster stop
sudo shutdown -h now
3. Files 종료 전체 파일 서버 종료. (Files 안 쓰는 곳이면 이 단계는 패스) afs <afs> infra.stop *
4. 클러스터 중지 아무 CVM이나 접속해서 완전히 죽었는지 확인해. 모든 VM이 꺼져야만 클러스터가 멈춰. cluster stop
cluster status
5. CVM & AHV 종료 각 노드별로 CVM 먼저 내리고, 마지막으로 AHV 내리면 끝. CVM: cvm_shutdown -P now
AHV: shutdown -h now

식은땀 줄줄... 빨간 불이 왜 거기서 나와?

작업 당일 아침 8시부터 부지런히 시스템을 다 내렸지. 정전 시작되기 전에 안전하게 오프라인 만들어 놓고 대기 타는 시간이 제일 지루해. 서버실 에어컨 바람은 또 왜 그렇게 차가운지, 가져간 겉옷을 둘둘 말고 구석에 쪼그려 앉았어. 웅웅거리던 랙 소음이 정전과 함께 뚝 끊기면 진짜 세상에 나 혼자 남은 기분이랄까? 노트북으로 다운받아 온 넷플릭스 영화를 틀어놨는데, 솔직히 눈에 하나도 안 들어오더라. 이따 기동할 때 삑사리 나면 어떡하지 하는 불안감 때문에 말이지. 드디어 복전이 됐다는 연락. "이제 시스템 올리셔도 됩니다~" 여유롭게 전산실 들어가서 장비 전면부 파워 버튼을 꾹꾹 눌렀어. 쿨러가 우아앙 돌면서 부팅되는 소리가 나길래, 역순으로 살리면 되니까 금방 가겠지 생각했거든. 근데 서버 부팅 화면을 멍하니 보고 있는데, 갑자기 장비 섀시에 시뻘건 알람 불빛이 팍! 켜지는 거야. 와, 진짜 순간 심장 덜컹했어. '아, 오늘 집에 못 가나? 벤더사에 기술 지원 전화 돌려야 하나? 고객한테는 뭐라고 변명하지?' 온갖 최악의 시나리오가 뇌리를 스쳤거든. 분명히 셧다운 절차대로 깔끔하게 내렸는데 대체 왜 에러가 뿜어지냐고. 숨 한 번 크게 쉬고 자세히 째려보니까 전원 쪽 알람이네? 서버 뒷면으로 호다닥 뛰어가서 파워 코드를 만져봤지. 겉보기엔 멀쩡하게 꽂혀 있었는데, 손으로 꾹 눌러보니까 덜컥 하면서 살짝 헐거워져 있던 게 들어가는 느낌이 나더라. 누가 작업하다 건드린 건지, 진동 때문인지 모르겠지만 아무튼 콱! 하고 다시 꽂아 넣었어. 그러니까 바로 쿨러 소리 안정되면서 빨간 불 꺼지고 정상 부팅되더라. 진짜 십년감수해서 헛웃음만 나왔어. 

IPMI 접속 후 작업 진행 준비 장면
IPMI 접속 후 작업 진행 준비하는 장면


🙏 IPMI 접속 후 작업하는 이유를 모른다면 다시 공부해라 ㅎ 

2. 심폐소생술 들어간다 (Startup)

가슴을 쓸어내리며 기동 작업을 마무리했어. 뉴타닉스 만져본 사람들은 이 타이밍이 얼마나 쫄깃한지 알 거야. 보통 전원 버튼을 누르면 하이퍼바이저와 CVM 은 자동 기동되거든? 그런데 만약 기동이 안되어 있다면 아래 단계를 확인해보고 진행하면 돼. 

단계 핵심 작업 포인트 명령어 / 비고
1. CVM 확인 및 기동 AHV 접속해서 CVM이 살았는지 죽었는지(Shut off)부터 확인. 죽어있으면 깨워줘야 해. 확인: virsh list --all | grep CVM
기동: virsh start cvm_name
2. 클러스터 시작 Prism CVM 접속해서 클러스터 구동. 이거 안 올라오면 당연히 Prism 접속도 안 돼. cluster start
(체크: cs |grep -v UP)
3. 부가 서비스 복구 Files 쓰면 다시 올리고, PC 접속해서 시작해. Prism 리더 잘 잡혔는지 꼭 체크. cs |egrep -i "cvm: |prism"
4. 숨 막히는 모니터링 Genesis 상태 띄워놓고 서비스들이 줄줄이 [UP]으로 바뀌는 걸 기다려. 여기서 하나라도 뻗으면 진짜 골치 아프니까 눈 부릅뜨고 봐야 해. watch -d genesis status

이 경험을 통해 알게 된 인프라 작업 꿀팁

이날 식은땀 쫙 빼고 나서 확실히 깨달은 게 있어. 현장에서 구르는 엔지니어들이라면 이거 꼭 기억해 둬.
  • R&R(역할과 책임)은 칼같이: "어플리케이션은 담당자분이, 클러스터는 제가 합니다." 이 말 한마디가 주말 출근의 피로도를 결정해. 애매하게 잘해주겠다고 떠안지 마.
  • 물리적 연결부터 의심하라: 장비 기동할 때 알람 뜨면 로그부터 뒤지지 말고 뒤통수(전원 코드, 랜선)부터 꽉꽉 눌러봐. 의외로 허무하게 해결되는 경우가 태반이야.
  • 대기 시간은 생각보다 길다: 정전 작업 지원 가면 끄고 켜는 시간보다 멍때리는 시간이 3배는 길어. 볼거리, 먹거리, 푹신한 방석 챙겨가는 건 생존 필수템.
시스템 정상 기동 확인하고, 서비스 다 올라온 거 본 다음에 담당자가 "덕분에 잘 끝났습니다" 하더라. 그제야 입꼬리 싹 올라가면서 "저 이제 퇴근해도 되죠?" 하고 가벼운 발걸음으로 전산실을 빠져나왔지. 
아무튼  쉬는 날에 일하는거면 빨리 처리하고 집에 가서 쉬는게 제일 좋겠지? 오래 일할수록 나만 힘드니깐 말야.  

댓글 쓰기

0 댓글

이 블로그 검색

태그

신고하기

프로필

이미지alt태그 입력