서초구 긴급 출동 썰: 뉴타닉스(Nutanix) 디스크 교체시 필수 유의사항

이번 시간에는 Nutanix Disk 교체 방법에 대해 알아보고자 합니다 . Nutanix는 HW 벤더 선택이 가능하기 때문에 벤더에서 지원하는 가이드를 중심으로 찾게 되지만, 기본적으로 Nutaix 가이드를 먼저 보시고 벤더가이드를 보완적으로 보시면 도움이 됩니다. 이야기 시작해 볼께요. 

 "OO님! 큰일 났어요! Prism 화면 다 빨개요! 빨리 와주세요!" 어휴. 사무실에서 믹스커피 한잔 뜯으려는데 전화통에 불이 났다. 담당자 목소리는 이미 영혼이 반쯤 나간 상태. 증상을 들어보니 Boot RAID Volume Degraded 경고 메시지가 떴단다. 속으로는 '아니 뭐 클러스터 디스크 하나 나갔다고 당장 서비스 다 죽는 것도 아닌데 왜 이리 난리야' 싶었지. 하지만 어쩌겠어. 짐 바리바리 싸들고 서초구 고객사로 넘어갔지. 그놈의 강남 교통체증. 차 꽉 막힌 도로에서 가다 서기를 반복하니까 짜증이 확 밀려오더라. 현장 도착해서 콘솔부터 열어봤는데 예상대로 디스크 하나가 보기 좋게 빨간색으로 죽어 있었어. 클러스터에서는 이미 논리적으로 완전히 격리된 상태. 그냥 물리적으로 뽑고 새 거 끼워 넣기만 하면 되는 아주 예쁜 타이밍이었다. ㅋ  마침 수급 요청했던 새 파트도 내 손에 들려 있었고 바로 수술대 위에 올렸지.

Prism Diagram 에서 디스크 Failure 확인 장면
Prism Diagram 에서 디스크 Failure 확인 장면

야, 디스크 죽었다고 USB처럼 냅다 뽑냐?

 진짜 신입 엔지니어들이 현장 가서 제일 많이 치는 사고가 이거야. 빨간불 들어왔다고 눈 뒤집혀서 하드디스크 확 뽑아버리는 거. 아직 데이터 이사 안 끝났는데 냅다 뽑으면 시스템이 얼마나 기겁하겠어? 완전히 죽어서 시스템이 버린 카드 취급할 때는 바로 뽑아도 무방해. 하지만 어설프게 고장 난 상태라면 얘기가 달라. 무조건 Prism 관리 화면 들어가서 'Remove Disk'를 누르고 인내심을 가져야 해. 데이터가 다른 안전한 디스크로 전부 리빌딩(Rebuilding) 될 때까지 숨 참고 기다려라. 진짜 이 기본을 안 지켜서 데이터 날려먹는 사람 수두룩하게 봤다.

G9 장비 건드릴 때 옛날 버릇 못 고치면 피 본다

요즘 나오는 G9 최신 장비들은 아키텍처가 달라졌어. HBA 컨트롤러 펌웨어 손보겠다고 G6나 G7 만지던 시절 버릇처럼 sas3flash 명령어 때려 넣지? 그 순간 CVM 그대로 얼어붙는다. 무조건 StorCLI라는 새로운 도구를 써야 해. 구시대 유물 명령어 함부로 입력했다가 서비스 통으로 날려먹고 밤새우는 일 없길 바란다.
"형, 창고에 용량 더 큰 디스크 굴러다니는데 이거 그냥 끼워도 돼요?" 어, 끼워도 돼. AOS 6.0 버전 이상 올라갔으면 에러는 안 뱉어. 근데 시스템이 바보는 아니거든. 원래 있던 작은 디스크 사이즈에 맞춰서 파티션을 잘라버려. 남는 공간은 그냥 허공에 증발하는 거지. 진짜 용량을 늘려 쓰고 싶으면 꼼수 부리지 말고 그 노드에 꽂힌 디스크 전체를 다 큰 걸로 물갈이해줘야 돼.

남이 쓰던 '중고 디스크'를 가져왔을 때 벌어지는 일

파트가 없어서 다른 테스트 장비에서 굴러먹던 디스크를 빼왔다고 치자. 꽂아보면 거의 100%일거야.. '마운트되지 않음(Unmounted Disk)'. 시스템 입장에선 출처를 알 수 없는 정체불명의 데이터가 묻어있으니까 더럽다고 뱉어내는 거야. 이럴 땐 Prism에서 해당 디스크 콕 찍고 'Repartition and Add' 버튼 눌러서 뇌 세척 한 번 싹 돌려줘야 해.ㅋ  알아서 싹 지우고 자기 입맛에 맞게 포맷하거든. 아, 물론 그 디스크 안에 진짜 살려야 할 중요한 데이터가 있었다면? 버튼 누르는 순간 돌이킬 수 없는 강을 건너는 거니까 확인 두 번 세 번 해라. 

CVM 부팅 디스크 교체 장면
CVM 부팅 디스크 교체 장면

💡 이 경험을 통해 알게 된 실패하지 않는 뉴타닉스 교체 꿀팁

지금부터 아주 중요한 팩트만 리스트로 꽂아줄 테니까 메모장 켜고 적어라. 이거 헷갈리면 나중에 사고 친다.
  • 데이터 드라이브는 쫄지 말고 핫스왑: 일반 데이터 저장용 디스크(HDD/SSD)는 핫스왑 지원한다. 유지보수 모드(Maintenance Mode) 굳이 안 걸어도 돼. Prism에서 제거 처리만 끝났으면 물리적으로 빼고 새 거 꽂아. 알아서 돌기 시작한다.
  • 부팅 드라이브(M.2) 죽었을 땐 무조건 셧다운: CVM 부팅 디스크 교체하면서 핫스왑 하려고 들면 그날이 제사상 차리는 날이다. 무조건 acli host.enter_maintenance_mode 치고 진입해. CVM 완전히 서비스 내리고 교체하는 게 국룰이다.
  • 레노버 VROC 환경의 함정: 일부 G9 장비에서 VROC RAID 쓰는 경우가 있어. 이때 새로 끼우는 M.2 드라이브는 파티션이 1바이트라도 남아있으면 안 돼. 완벽한 백지상태(Raw)여야 리빌드가 정상적으로 돈다.
  • ESXi 환경이라면 한 번 더 의심해라: CVM 꺼진 상태에서 디스크 갈아끼우고 다시 부팅했는데 "PCI device unknown" 에러 뿜으면서 안 올라올 때가 있어. 하드웨어가 바뀌어서 기존 설정 파일이 길을 잃은 거다. 설정 파일 들어가서 미아 된 예전 장치 기록 줄을 싹 지워줘야 정상적으로 살아난다.
작업 다 끝나고 클러스터 상태가 All Green으로 쫙 올라오니까 그제야 고객사 담당자 얼굴에 혈색이 확 돌더라. 연신 고맙다고 허리 굽혀 인사하는데, 뭐 내 일이니까. 사실 장비 만지는 사람 입장에선 장애 처리 끝나고 녹색불 볼 때가 제일 짜릿하긴 해. 다시 사무실로 돌아오는 길은 차도 안 막히고 기분도 꽤 상쾌했다. 

서버실 들어갈 일 있으면 장비 뜯기 전에 이 내용 한 번쯤 머릿속에 시뮬레이션 돌려보고 들어가라. 안 그러면 피눈물 흘린다.

항상 작업하기 전에 시률레이션을 돌리고 경우의 수를 생각하면서 작업을 하지만 무조건 잘 해결만은 되지 않습니다. 그러나 그런 최소한의 노력들이 실수를 하지않게 끔 예방해 준다는 것을 명심하세요. 

아무 생각없이 무뇌로 작업을 하면 항상 사고가 터집니다.  그럼 다음글로 다시 만날께요. 
오늘도 장애 조금만있는 하루 보내시길 바랍니다. ^^  

댓글 쓰기

0 댓글

이 블로그 검색

태그

신고하기

프로필

이미지alt태그 입력