저번 1탄에 이어 2탄입니다. 솔직히 말할게요. 뉴타닉스 처음 만지면 디스크 구조에서 다들 멘붕 옵니다. 개념을 제대로 안 잡고 넘어가서 그래요. 교과서적인 뜬구름 잡는 소리 다 빼고, 당장 장비 앞에서 터미널 열었을 때 알아야 하는 진짜 이야기만 해봅시다.
CVM 부팅 디스크, 넌 대체 정체가 뭐냐?
장비마다 다르겠지만, 서버 딱 열어보면 480GB짜리 쪼매난 M.2 NVMe SSD 2개가 보일 겁니다. "오, 빠른 NVMe! 여기다 VM 올리면 되겠다" 하시는 분들 있는데, 큰일 날 소리. 이거 데이터 저장용 아닙니다. 절대.
이 480GB M.2 두 개는 철저하게 CVM 운영체제와 시스템 파일만 담는 '부팅 전용' 공간입니다. 고장 나면 서버 전체가 뻗어버리니까 무조건 RAID 1 미러링으로 단단하게 묶여 있죠.
진짜 VM 데이터는 어디 가냐고요? 저기 덩치 큰 3.4TB짜리 SSD나 일반 하드디스크들(Performance/Capacity Tier). 거기로 갑니다. 역할 분담이 아주 확실해요.
![]() |
| CVM 부팅 디스크 모습 |
터미널 열고 df -h 쳤을 때 뇌정지 오는 분들 주목
ssh로 CVM 접속해서 df -h 치는 순간 화면에 md0, md1, loop 막 명령어와 결과값이 쏟아지죠? 복잡하게 생각할 필요 하나도 없습니다. 딱 3개만 외우세요.
- md0, md1 (루트 파티션): 이게 진짜 재밌는 놈들입니다. 평소엔 하나만 일해요. 근데 AOS 업그레이드할 때 얘네 둘이 바통 터치를 합니다. 무중단 업데이트의 핵심이죠. 어제는 md0가 대장이었다가 업그레이드 끝나면 md1이 대장이 되는 식.
- md2 (/home): 유저 데이터 들어가는 곳. 여긴 항상 고정입니다.
- loop 어쩌구 (/var, /tmp 등): 시스템 로그나 임시 파일 쌓이는 곳. 용량 안 먹는 자잘한 시스템 파일들이니까 신경 끄셔도 좋습니다.
![]() |
| CVM 부팅디스크 RAID 구성 |
![]() |
| CVM 부팅디스크 구조형식 |
진짜 데이터 스토리지의 두 가지 맛: Stargate vs SPDK
이게 오늘 내용 중 제일 중요합니다. 3.4TB짜리 퍼포먼스 디스크들도 일하는 방식이 완전히 다릅니다.
먼저 Stargate Storage. 이건 정통파 리눅스 I/O 스택을 탑니다. 커널 거치고, 파일시스템 거치고. Cassandra 메타데이터나 무작위 쓰기를 받아내는 OpLog를 저장하는 든든한 국밥 같은 역할을 하죠.
근데 /dev/fuse로 잡혀 있는 SPDK 기반 NVMe 디스크? 얘는 완전 생태계 교란종입니다. 리눅스 커널? 쿨하게 패스해버립니다. 유저 스페이스에서 다이렉트로 NVMe 하드웨어랑 통신해버려요. FUSE 메커니즘을 써서 중간 다리 다 끊어버리고 레이턴시를 극한으로 줄여버리죠.. 미친 듯한 고성능 I/O가 필요한 워크로드는 무조건 이쪽으로 타게 됩니다.
이 경험을 통해 알게 된 뉴타닉스 스토리지 실전 꿀팁
현업에서 서버 터지고 등골 서늘해지며 깨달은 사실들입니다. 이거만 알아도 엔지니어 수명 3년은 연장됩니다.
- 데이터 디스크 죽었다고 CVM 안 죽는다: 초보자들이 제일 많이 하는 착각. 3.4T짜리 데이터 디스크 뻑나도 CVM 운영체제는 안전한 M.2에 분리되어 있습니다. 쫄아서 장비 내리지 말고 가이드대로 정상적인 Remove 프로세스 밟고 교체하세요. 아무 일도 안 일어납니다.
- 파티션 순서 뒤집혀도 당황 금지: 점검 들어갔는데 활성 루트가 md0가 아니고 md1이다? 정상입니다. 시스템이 똑똑해서 알아서 스위칭한 거니까 억지로 맞추려고 삽질하지 마세요.
- 부트 디스크 용량 차면 게임 오버: M.2는 용량이 작습니다. 쓸데없는 덤프 파일이나 로그 찌꺼기가 CVM 부트 파티션 꽉 채우면 그때는 진짜 대참사 납니다. 평소에
df -h쳤을 때 md0/md1 사용량은 눈여겨보세요.
기본적인 디스크 물리 구조를 모르면 나중에 디스크 폴트 떨어졌을 때 구글링만 미친 듯이 하게 됩니다. 확실히 머리에 박아두세요.
디스크 오프라인 판단기준
- Stargate는 디스크에 대한 명령이 20초 이상 소요될 경우 해당 디스크를 오프라인으로 표시
- I/O 오류가 발생하거나 디스크가 특정 임계값 내에 응답하지 않을 경우 디스크를 오프라인으로 표시
- Stargate가 디스크를 여러 번 오프라인으로 표시하면(현재 기준 1시간 내 3회), Hades는 S.M.A.R.T. 테스트가 통과하더라도 더 이상 해당 디스크를 온라인으로 표시하지 않음.



0 댓글