최근 자주 발생하는 CVM /home Full 현상에 대해 저의 경험을 대화형식으로 전달해 보려고 합니다. 옆에 이야기를 듣는사람처럼 들어보세요.
내가 평소처럼 고객사 점검을 나갔던 날이었어. 서버실 특유의 쿰쿰한 에어컨 바람을 맞으며 여유롭게 점검을 하고 있었지. 그런데 터미널 창을 열자마자 눈에 확 들어오는 시뻘건 경고 메시지. 아, 오늘도 늦게 가겠다 싶었어. Nutanix CVM의 /home 파티션 사용량이 90%를 찍고 있더라고. 턱 끝까지 숨이 차오른 상태랄까. 얼마 전 겪었던 PCVM(Prism Central VM) 문제랑 비슷해 보였지만, 이건 다른 유형의 문제야. CVM은 뉴타닉스의 모든 입출력을 담당하는 심장이거든.
리눅스 서버라고 생각했나요? 그럼 퇴근은 포기하세요
리눅스 좀 만져봤다는 엔지니어들이 가장 많이 저지르는 실수가 뭔지 알아? 용량 없다고 무지성으로 rm -rf 날리는 거야. 근데 CVM은 그러면 진짜 답 없어. 이건 단순한 OS가 아니라 컨트롤러 VM이라고. 아무 파일이나 생각 없이 지웠다가는 데이터 손실은 기본이고 서비스 자체가 멈추는 대참사가 일어날 수 있거든. 뉴타닉스가 바보가 아닌 이상 이런 상황을 대비해서 공식 가이드인 KB-1540을 만들어 제공해주는 이유가 뭐겠어 아무튼 나도 고객사 담당자 얼굴 한 번 쳐다보고, 바로 이 '치트키'를 꺼내 들었지. 담당자 표정이 아주 안 좋았거든.
CVM의 /home 파티션은 딱 40GB로 고정되어 있어. 로그, 오래된 코어 파일, 업데이트 소프트웨어가 쌓이면 업그레이드가 실패하는 건 예삿일이고, 최악의 경우 서비스 장애까지 와. 임계값 75% 넘으면 경고 알람 뜨니까, 그때 바로 움직여야 해. "나중에 하지 뭐" 하다가 진짜 골치 아파진다.
해결의 열쇠: KB-1540 승인 스크립트 활용법
옆에서 안절부절못하며 "서비스 끊기는 거 아니냐"고 묻는 고객한테 내가 한마디 했지. "뉴타닉스에서 공식 승인한 스크립트가 있으니까 걱정 마세요." 핵심은 KB-1540_clean.sh라는 녀석이야. 이 녀석이 진짜 영리한 게, 지워도 되는 찌꺼기만 귀신같이 골라내서 청소해 주거든. 사람이 직접 하나하나 찾아서 지우는 그 지겨운 '노가다'를 대신 해주는 고마운 존재지. 스크립트가 돌아가는 동안 나는 고객이랑 다음 AOS 업그레이드 일정을 잡으며 여유를 좀 부렸어. ㅋ
이 경험을 통해 알게 된 CVM 용량 확보 꿀팁 (실패하지 않는 법)
- PCVM이랑 헷갈리면 지옥문 열림: Prism Central VM 용량 문제는 KB-5228을 봐야 해. CVM용 스크립트를 거기다 쓰면 절대 안 돼. 구조 자체가 완전 다르거든.
- 무조건 nutanix 계정 사용: 가끔 root로 들어가서 작업하려는 사람들이 있는데, 권한 꼬이고 보안 정책 걸리면 더 복잡해져. 반드시
nutanix계정으로 로그인하는 게 기본 중의 기본이야. - 범인 찾기용 옵션 -d 1:
du -h -d 1옵션을 써봐. 디렉터리 깊이를 1단계만 보여주니까 어떤 놈이 용량을 가장 많이 처먹고 있는지 한눈에 들어와. - 상호작용 모드 적극 활용: 스크립트 돌릴 때 하나씩 물어보게 설정하면 훨씬 안전해. "이거 지워도 돼?"라고 물어볼 때 눈으로 직접 확인하는 거지.
![]() |
KB-1540_clean.sh 대화형 모드 실행 시 |
실전에서 바로 써먹는 명령어 순서 (복사해서 쓰세요)
일단 어디가 문제인지 정밀 조사부터 해야겠지? 아래 명령어를 쳐서 용량 차지하는 상위 15개를 싹 뽑아봐. 이걸 보면 범인이 누군지 바로 견적 나와.
allssh "du -h -d 2 -x /home/nutanix/data |sort -h -r |head -n 15"
범인을 확인했으면 이제 승인된 스크립트를 실행할 차례야. 나는 터미널 색깔 없이 깔끔하게 결과만 보는 걸 좋아해서 --no_color 옵션을 자주 써. 로그가 주르륵 올라가면서 용량이 확보되는 걸 보면 카타르시스가 느껴질 정도야. ㅋ
./nutanix_home_clean.py --no_color
절대로 하지 말아야 할 '금기 사항'과 버그 정보
입이 마르도록 말하지만 rm -rf는 진짜 최후의 수단이고, 매뉴얼에 명시되어 있을 때만 써야 해. 그리고 요즘 LCM 버전 2.6 대 쓰는 곳 많지? 거기선 로그 수집 버그 때문에 용량이 미친 듯이 차는 이슈가 있어. 그럴 땐 KB-14671도 같이 챙겨봐야 해. 작은 불씨 하나 방치했다가 나중에 AOS 업그레이드할 때 '공간 부족'이라는 거대한 벽에 부딪히면 그때서야 후회한다니까.
청소가 끝났으면 뒷정리도 전문가답게 하자. 다운로드했던 스크립트랑 임시 로그 파일들 싹 지워주고. 마지막으로 NCC(Nutanix Cluster Check)를 돌려서 전체 시스템 상태가 'Pass'인지 확인해야 비로소 마음 놓고 퇴근할 수 있는 거야. 점검 결과가 초록색으로 도배될 때의 그 쾌감, 엔지니어라면 다들 알지?
ncc health_checks hardware_checks disk_checks disk_usage_check --cvm_list=<CVM_IP>
용량 확보 후 칼퇴를 보장하는 마무리 노하우
90%까지 치솟았던 사용량이 40%대로 뚝 떨어지는 걸 확인하고 나니 시끄럽게 울려대던 알람도 싹 사라졌어. 고객도 안심하고, 나도 덕분에 기분 좋게 칼퇴했지. 사실 이런 문제는 주기적인 AOS 업그레이드로 미리미리 예방하는 게 제일 좋아. 최신 버전일수록 이런 자잘한 용량 문제들을 알아서 해결하는 똑똑한 로직이 들어가 있거든. 오늘 핵심 다시 짚어준다. 스크립트 믿고, 함부로 rm 안 쓰고, PCVM이랑 헷갈리지 말 것. 이 세 가지만 기억하면 CVM 용량 문제로 밤샐 일은 절대 없을 거야. 다들 현명하게 일하고 빨리 퇴근하자고!
CVM /home Full 현상 이야기 잘 들으셨나요 ? 뭐 별거 없는 내용이지만, 이렇게 이야기하면 항상 기억에 남거든요. 엔지니어는 기록하는 습관이 필요한 거 아시죠?

0 댓글