"OO님! 큰일 났어요! Prism 화면 다 빨개요! 빨리 와주세요!"
어휴. 사무실에서 믹스커피 한잔 뜯으려는데 전화통에 불이 났다. 담당자 목소리는 이미 영혼이 반쯤 나간 상태. 증상을 들어보니 Boot RAID Volume Degraded 경고 메시지가 떴단다. 속으로는 '아니 뭐 클러스터 디스크 하나 나갔다고 당장 서비스 다 죽는 것도 아닌데 왜 이리 난리야' 싶었지. 하지만 어쩌겠어. 짐 바리바리 싸들고 서초구 고객사로 넘어갔지. 그놈의 강남 교통체증. 차 꽉 막힌 도로에서 가다 서기를 반복하니까 짜증이 확 밀려오더라.
현장 도착해서 콘솔부터 열어봤는데 예상대로 디스크 하나가 보기 좋게 빨간색으로 죽어 있었어. 클러스터에서는 이미 논리적으로 완전히 격리된 상태. 그냥 물리적으로 뽑고 새 거 끼워 넣기만 하면 되는 아주 예쁜 타이밍이었다. ㅋ 마침 수급 요청했던 새 파트도 내 손에 들려 있었고 바로 수술대 위에 올렸지.
![]() |
| Prism Diagram 에서 디스크 Failure 확인 장면 |
야, 디스크 죽었다고 USB처럼 냅다 뽑냐?
진짜 신입 엔지니어들이 현장 가서 제일 많이 치는 사고가 이거야. 빨간불 들어왔다고 눈 뒤집혀서 하드디스크 확 뽑아버리는 거. 아직 데이터 이사 안 끝났는데 냅다 뽑으면 시스템이 얼마나 기겁하겠어?
완전히 죽어서 시스템이 버린 카드 취급할 때는 바로 뽑아도 무방해. 하지만 어설프게 고장 난 상태라면 얘기가 달라. 무조건 Prism 관리 화면 들어가서 'Remove Disk'를 누르고 인내심을 가져야 해. 데이터가 다른 안전한 디스크로 전부 리빌딩(Rebuilding) 될 때까지 숨 참고 기다려라. 진짜 이 기본을 안 지켜서 데이터 날려먹는 사람 수두룩하게 봤다.
G9 장비 건드릴 때 옛날 버릇 못 고치면 피 본다
요즘 나오는 G9 최신 장비들은 아키텍처가 달라졌어. HBA 컨트롤러 펌웨어 손보겠다고 G6나 G7 만지던 시절 버릇처럼sas3flash 명령어 때려 넣지? 그 순간 CVM 그대로 얼어붙는다.
무조건 StorCLI라는 새로운 도구를 써야 해. 구시대 유물 명령어 함부로 입력했다가 서비스 통으로 날려먹고 밤새우는 일 없길 바란다.
"형, 창고에 용량 더 큰 디스크 굴러다니는데 이거 그냥 끼워도 돼요?" 어, 끼워도 돼. AOS 6.0 버전 이상 올라갔으면 에러는 안 뱉어. 근데 시스템이 바보는 아니거든. 원래 있던 작은 디스크 사이즈에 맞춰서 파티션을 잘라버려. 남는 공간은 그냥 허공에 증발하는 거지. 진짜 용량을 늘려 쓰고 싶으면 꼼수 부리지 말고 그 노드에 꽂힌 디스크 전체를 다 큰 걸로 물갈이해줘야 돼.
남이 쓰던 '중고 디스크'를 가져왔을 때 벌어지는 일
파트가 없어서 다른 테스트 장비에서 굴러먹던 디스크를 빼왔다고 치자. 꽂아보면 거의 100%일거야.. '마운트되지 않음(Unmounted Disk)'. 시스템 입장에선 출처를 알 수 없는 정체불명의 데이터가 묻어있으니까 더럽다고 뱉어내는 거야. 이럴 땐 Prism에서 해당 디스크 콕 찍고 'Repartition and Add' 버튼 눌러서 뇌 세척 한 번 싹 돌려줘야 해.ㅋ 알아서 싹 지우고 자기 입맛에 맞게 포맷하거든. 아, 물론 그 디스크 안에 진짜 살려야 할 중요한 데이터가 있었다면? 버튼 누르는 순간 돌이킬 수 없는 강을 건너는 거니까 확인 두 번 세 번 해라.![]() |
| CVM 부팅 디스크 교체 장면 |
💡 이 경험을 통해 알게 된 실패하지 않는 뉴타닉스 교체 꿀팁
지금부터 아주 중요한 팩트만 리스트로 꽂아줄 테니까 메모장 켜고 적어라. 이거 헷갈리면 나중에 사고 친다.- 데이터 드라이브는 쫄지 말고 핫스왑: 일반 데이터 저장용 디스크(HDD/SSD)는 핫스왑 지원한다. 유지보수 모드(Maintenance Mode) 굳이 안 걸어도 돼. Prism에서 제거 처리만 끝났으면 물리적으로 빼고 새 거 꽂아. 알아서 돌기 시작한다.
- 부팅 드라이브(M.2) 죽었을 땐 무조건 셧다운: CVM 부팅 디스크 교체하면서 핫스왑 하려고 들면 그날이 제사상 차리는 날이다. 무조건
acli host.enter_maintenance_mode치고 진입해. CVM 완전히 서비스 내리고 교체하는 게 국룰이다. - 레노버 VROC 환경의 함정: 일부 G9 장비에서 VROC RAID 쓰는 경우가 있어. 이때 새로 끼우는 M.2 드라이브는 파티션이 1바이트라도 남아있으면 안 돼. 완벽한 백지상태(Raw)여야 리빌드가 정상적으로 돈다.
- ESXi 환경이라면 한 번 더 의심해라: CVM 꺼진 상태에서 디스크 갈아끼우고 다시 부팅했는데 "PCI device unknown" 에러 뿜으면서 안 올라올 때가 있어. 하드웨어가 바뀌어서 기존 설정 파일이 길을 잃은 거다. 설정 파일 들어가서 미아 된 예전 장치 기록 줄을 싹 지워줘야 정상적으로 살아난다.
서버실 들어갈 일 있으면 장비 뜯기 전에 이 내용 한 번쯤 머릿속에 시뮬레이션 돌려보고 들어가라. 안 그러면 피눈물 흘린다.
항상 작업하기 전에 시률레이션을 돌리고 경우의 수를 생각하면서 작업을 하지만 무조건 잘 해결만은 되지 않습니다. 그러나 그런 최소한의 노력들이 실수를 하지않게 끔 예방해 준다는 것을 명심하세요.
아무 생각없이 무뇌로 작업을 하면 항상 사고가 터집니다. 그럼 다음글로 다시 만날께요.
오늘도 장애 조금만있는 하루 보내시길 바랍니다. ^^


0 댓글