뉴타닉스 장애 났을 때 192.168.5.254 모르면 퇴근 못 하는 이유

요즘 장애가 많이 발생하는데 그중 CVM 장애 시 발생한 경험을 들려드리도록 하겠습니다. 제 실수로 인한 경험이지만, 그래도 도움되길 바라면서 이야기 시작해 볼께요. 제이야기는 경어체는 생략합니다.

진짜 피 말리는 상황 한번 상상해 봐. 스위치 만지다가 VLAN 태깅 실수했거나 LACP 꼬여서 CVM 외부 핑이 싹 다 끊겼어. 식은땀이 줄줄 흐르지. 이때 초보 엔지니어들 백이면 백 외부 관리 IP만 붙잡고 왜 안 들어가지냐며 모니터만 노려봐. 근데 그럴 때가 아니야. 무조건 IPMI 타고 호스트로 기어 들어가야 살 수 있어. 거기서 쳐야 할 마법의 주문이 바로 ssh nutanix@192.168.5.254 이거야.

왜 하필 xx.254번인데? 네트워크 팀도 모르는 내부망의 비밀

뉴타닉스 아키텍처 까보면 진짜 재밌어. 밖에서는 안 보이는 지들만의 은밀한 내부망이 있거든? 대역이 192.168.5.0/24야. 하이퍼바이저랑 CVM이 외부 스위치 안 타고 내부 가상 스위치(AHV면 virbro 같은 거)로 지들끼리 쑥덕거리는 통로지.

이 안에서 .1은 호스트 본인이고, .254는 무조건 내 뱃속에 있는 그 CVM이야.

외부망이 다 죽어 자빠져도 이 내부망은 짱짱하게 살아있어. 그러니까 물리적 네트워크가 박살 나거나 초기 구축할 때 IP 세팅 덜 돼서 아무것도 안 될 때. 이때 254번이 외부와 완전히 단절된 CVM으로 들어가는 최후의 동아줄, 비상 백도어가 되는 거야.


192.168.5.2 썼다가 남의 CVM 죽인 썰 푼다 (조심해라 진짜)

근데 여기서 또 초보들이 엄청나게 하는 실수가 있어. 매뉴얼 대충 보고 "어? 192.168.5.2로 들어가도 되던데요?" 이래. 미친 짓이야. 진짜 큰일 나. 제발 하지 마.

맞아. 평소에는 xx.2 쳐도 로컬 CVM으로 들어가져. 근데 내가 진짜 피눈물 흘려보고 하는 소리야. 예전에 노드 3대짜리 클러스터에서 1번 노드 CVM 메모리 불량 나서 교체해야 했어. 매뉴얼 보니까 유지보수 모드 띄우라네? 아무 생각 없이 ssh nutanix@192.168.5.2 치고 들어가서 cvm_shutdown -P now 날렸어. 화면 까매지는 거 보고 '아, 퇴근이다' 싶었지. 근데 10초 뒤에 내 전화기가 미친 듯이 울리는 거야. DB팀, 웹팀, 심지어 부장님까지. 왜? 2번 노드 CVM이 뻗었거든.

뉴타닉스는 똑똑해서 xx.2로 트래픽이 가면 "어? 1번 얘 지금 상태 안 좋네? 옆집 CVM으로 연결해 줘야지" 하고 2번 노드로 동적 리디렉션(Autopathing)을 쏴버렸던 거야. 나는 1번 죽인다고 친 건데 멀쩡히 서비스 돌아가던 2번 명줄을 끊어버린 거지. 진짜 그날 시말서 쓰면서 손 덜덜 떨렸다. 상상만 해도 끔찍하지 않아? 휴먼 에러 방지하려면. 무조건. 묻지도 따지지도 말고 .254 써야 해. 얘는 리디렉션 그딴 거 없고 오직 내 로컬 CVM 멱살만 꽉 잡고 안 놔주거든.

이 경험을 통해 알게 된 뉴타닉스 장애 복구 꿀팁

기억해. 장애 나면 당황하지 말고 머릿속에 이 프로세스만 딱 띄워.

  • IPMI 호스트 콘솔 접속 우선: 외부 통신 끊기면 무조건 호스트 콘솔부터 잡아. 거기가 시작점이야.
  • 명확한 타겟팅은 254: 유지보수나 CVM 재부팅 작업할 때는 xx.2 말고 무조건 xx.254로 접속해서 다른 정상 노드 건드리는 대형 사고를 원천 차단해라.
  • 네트워크 복구 명령어: xx.254 타고 CVM 들어갔으면 change_cvm_vlan 같은 명령어로 꼬인 네트워크 풀어주면 퇴근 쌉가능.


초기 구축 때 IP 안 올라와서 멘붕 왔어?

처음 뉴타닉스 빡스 까고 랙에 마운트 한 다음에 Foundation(초기 구축 툴) 돌려본 사람들은 알 거야. 벤더사 엔지니어가 와서 하면 스무스하게 쫙 올라가던데, 내가 혼자 해보려고 하면 현실은 시궁창이지. 툭하면 중간에 뻗어버리고 IP 할당은 지 멋대로 엉켜있어. 서버실 온도는 18도인데 내 등줄기에는 식은땀이 줄줄 흘러. 노드 4개 묶어서 클러스터 만들어야 하는데 3번 노드 CVM만 갑자기 행방불명 상태가 된단 말이지.

이럴 때 짬 안 차는 애들은 스위치 포트 불빛만 멍하니 쳐다보면서 랜선 뺐다 꼈다 물리적인 삽질만 계속해. 먼지 구덩이 바닥에 쪼그려 앉아서 선배한테 전화하면 "야 이 XX야, 핑도 안 나가는데 전화를 왜 해!" 하고 쌍욕부터 먹지. 그때 필요한 게 뭐다? 바로 254번이야.

근데 여기서 초보들이 또 착각하는 게 있어. 서버 뒤에 노트북 들고 가서 랜선 다이렉트로 꽂으면 254로 바로 통신이 되는 줄 아는데, 절대 아니지. 192.168.5.254는 철저하게 내부 가상 스위치용 대역이니까. 그럼 어떻게 하냐고? 장비 벤더마다 부르는 이름 다르잖아. HP면 iLO, 델이면 iDRAC, 레노버면 IMM, 아니면 범용 IPMI. 무조건 이걸 타고 들어가서 가상화 호스트(하이퍼바이저) 콘솔 화면부터 비집고 들어가야 해.

이 호스트가 바로 베이스캠프야. 외부 네트워크 구성이 완전 개판이라도, 호스트 콘솔 쉘만 떨어지면 게임 끝난 거거든. 여기서 덜덜 떨리는 손으로 ssh nutanix@192.168.5.254를 찌르면? 신기루처럼 사라졌던 그 잘난 CVM이 까만 터미널 화면에 떡하니 나타나. 거기서 수동으로 네트워크 서비스 툭 쳐서 띄워주면 진짜 퇴근하는 건데. 이거 모르면 며칠 밤새우고 서버실 귀신 되는 거야.


기본기 튼튼한 놈이 진짜 사고 친 거 다 수습한다

엔지니어 짬바는 화려한 스크립트 수백 개 외우는 게 아니라. 진짜 다 죽어갈 때 어디로 찔러야 살아나는지 그 급소를 아는 거에서 나오더라. 뉴타닉스 만지면서 밥 먹고 살 거면 이 내부 주소 체계는 뇌에 문신처럼 새겨놔. 그래야 진짜 장애 났을 때 키보드 샷건 안 치고 멋지게 트러블슈팅 할 수 있으니까.

오늘도 한 껀 정리 합니다. 굿 밤 보내세요!!

댓글 쓰기

0 댓글

이 블로그 검색

태그

신고하기

프로필

이미지alt태그 입력