Nutanix 엔지니어라면 한번 쯤 겪어야 할 NIC 카드 교체 입니다. 저희 경험담을 각색하여 재미있게 이야기 해보도록 할께요 ~ 한번 읽어보세요!
주말 꿀휴식을 박살 낸 한 통의 전화. 뉴타닉스 2번 노드 장애. 서버실 담당자 목소리가 사시나무 떨리듯 떨리더라. 대충 들어보니 네트워크 카드(NIC)가 맛이 간 상황. 하필 4포트짜리 중에 딱 하나가 죽었네.
진짜 가기 싫은데 어쩌겠나. 엔지니어 숙명이지 뭐. 주말의 여유는 개나 줘버리고
대충 옷 주워 입고 고객사로 튀어갔다. 파트 오더는 가는 길에 이미 다 때려놨고.
현장 도착하니까 담당자가 내 바짓가랑이라도 잡을 기세로 "얼마나 걸려요?"
묻는데, 파트 배송 상황을 내가 쥐락펴락할 수 있는 것도 아니고. 속으로는 나도 집
가고 싶다고 외쳤지만, 겉으로는 최대한 프로페셔널한 표정 장착하고 얼버무렸다.
![]() |
| Prism에서 NIC link down 상태 확인 |
멀쩡한 새 부품을 꽂았는데 링크가 안 살아? 장난해?
Lenovo HX650 장비 상태부터 째려봤다. 물리적인 포트 LED는 죽어있고 로그엔 떡하니 링크 다운. IMM 포트로 헬스 체크 돌려보니까 NIC 자체는 잡히는데 특정 포트만 불량인 거 확인. 2번 노드 유지보수 모드로 후다닥 전환했음. 노드에 있던 VM들 다른 집으로 싹 이사 가는 거 확인하고, CVM 우아하게 셧다운 쳐준 다음 노드 파워를 내렸다.
랙(Rack) 뒤통수 까보기, 그리고 숨 막히는 하드웨어 이식
랙 뒤로 기어들어가는 건 늘 짜증 난다. 냉골 같은 서버실 에어컨 바람 정통으로 맞으면서 스파게티처럼 엉켜있는 랜선과 광케이블 사이로 손을 집어넣어야 하니까. 정전기 방지 밴드? 주말 급행 장애 처리에 그런 거 여유 있게 찰 시간도 없다. 대충 랙 쇠기둥 한 번 툭 쳐서 몸에 쌓인 정전기 날려버리고 조심스럽게 서버 커버를 열었지. 쿨러가 미친 듯이 빨아들인 먼지가 뽀얗게 앉아있더라. 노담인데, 내 폐 건강도 같이 날아가는 기분이었어. 후,,
빼낸 고장 난 NIC 카드는 한쪽 구석에 던져두고, 수급받은 빳빳한 새 파트 비닐을 뜯었지. 슬롯에 맞추는데 묘하게 각이 안 나와서 낑낑되는 나는 모습을 보니, 좀 답답했어 ㅋ 홧김에 힘으로 냅다 밀어 넣다가 메인보드 핀이라도 나가면 그날로 내 인생도 같이 셧다운 되는 거다. 손끝에 온 신경을 집중하고 각도를 살살 틀었지. '딸깍'. 아, 이 경쾌한 소리. 콧노래가 살짝 나올 뻔했다. 케이스 닫고 전원 올리고, 손에 익은 작업이라 무난하게 재부팅까지 탔지.
근데 와... SFP 꽂고 케이블 딱 물렸는데 LED가 멍텅구리네? 링크 감지가 전혀 안 되는 거야. 머리가 순간 띵하더라. 분명 방금 그 딸깍 소리 들으면서 새 부품 꽂았는데. 귀신 곡할 노릇이지.
![]() |
| 물리 Link Down 확인하는 장면 |
이거 모르면 서버실에서 밤샌다? 숨겨진 수동 인식 스크립트
담배 하나 태우면서 짱구를 미친 듯이 굴렸어. 맞다, AHV(AOS 기반) 노드는 가끔 하드웨어를 갈아끼워도 지가 알아서 새 식구를 인식을 못 할 때가 있잖아? 수동으로 멱살 잡고 끌어올려 줘야 하는 거다.
버전이 생명이다. AOS 6.1 이상(AHV 20201105.30142 이상)이면 다행히 호스트 안에 스크립트가 숨어있다. 바로 AHV 호스트 쉘로 기어 들어가서 이거 한 줄 날리면 된다.
root@AHV# /usr/local/bin/nic_add_or_replace
(참고로 에러 나면 /var/log/nic_add_or_replace.log 까보면 답 나옴)
재수 없게 AOS 6.1 미만 구버전이다? 그럼 포털(download.nutanix.com) 가서
nic_add_replace_v2 스크립트 파일부터 받아야 하고. 다운받은 거 AHV
호스트 /usr/local/bin/ 디렉토리에 욱여넣고 권한 챙겨주는 거 잊지
말고.
근데 여기서 초보들이 멘탈 터지는 구간이 하나 있어. 스크립트 겨우 다운로드해서 WinSCP나 SSH로 호스트에 복사해 놨는데 실행이 안 된대. 'Permission Denied' 뿜고 콘솔에 빨간 줄 쫙쫙 그어지니까 당황해서 식은땀 줄줄 흘리지. 리눅스 기본기인데 위급한 상황에선 그게 백지장처럼 하얘지거든. 아래 명령어 하나 안 때려줘서 30분씩 멍때리는 애들 수두룩하게 봤다.
chmod +x /usr/local/bin/nic_add_replace_v2
스크립트 옮겼으면 제발 저 명령어 쳐서 실행 권한부터 줘라. 안 그러면 파일은 그냥 자리만 차지하는 텍스트 쪼가리일 뿐이니까. 권한 주고 딱 실행시키면 끝.
이 경험을 통해 알게 된 뉴타닉스 NIC 교체 꿀팁 (실패하지 않는 법)
초보 엔지니어들 내 말 잘 들어라. 하드웨어 딸깍 끼웠다고 집에 갈 생각 하면 큰코다친다. 현장에서 먼지 뒤집어쓰며 얻은 진짜 노하우 4가지로 압축해 줄께.
- 정전기 방지와 힘 조절: 장비 열기 전에 주변 랙 쇠기둥 만져서 정전기 빼라. 그리고 파트 밀어 넣을 때 절대 힘으로 누르지 말고. 핀 나가면 보드 통째로 갈아야 하니깐. 스무스한 '딸깍' 소리가 생명이다.
-
링크 안 올라오면 스크립트부터 돌려라: 물리적 연결이 완벽한데 인식이
안 되면 고민하지 말고
nic_add_or_replace스크립트를 찾아. 시스템에 새 카드 들어왔다고 신고식 시키는 필수 절차야. (실행 권한 주는 거 잊지 말고!) -
CVM에서 반드시 더블 체크: 스크립트 돌렸다고 끝 아님. AHV에서
ssh nutanix@192.168.5.254때려서 CVM 넘어간 다음,manage_ovs show_interfaces무조건 쳐봐라. eth 단위로 포트들 스피드 빵빵하게(25000, 10000 등) 잡히고 link가 'True' 떨어지는지 두 눈으로 확인해야 직성이 풀리는 거다. - 가상 스위치(Virtual Switch) 매핑 갱신: 인터페이스 올라온 거 확인했으면 브리지에 새 NIC를 편입시켜 줘야 통신이 뚫린다. AOS 5.19 이상이면 Prism UI에서 우아하게 호스트 네트워크 설정 업데이트 메뉴 써줘. 구버전이면 ovs-appctl 명령어 기반으로 브리지 설정 CLI로 꼼꼼하게 엮어줘야 함.
피 말리는 적막, 그리고 짜릿한 퇴근
설정 싹 맞추고 OVS 구성까지 끝냈다. 이제 담당자한테 공을 넘겼지. 서비스 테스트해 보시라고. 그 5분 남짓한 시간이 서버실 쿨러 소리만 왱왱거리고 진짜 숨 막히게 적막하다.
"네, 서비스 정상입니다."
이 한마디 듣는 순간 뒷목 뻣뻣했던 게 사르르 녹아내렸어. 속으로는 댄스 파티 열렸는데 겉으로는 짐 무심하게 챙기면서 "고생하셨습니다" 툭 던졌다. 누가 고생했는데 참나. 아무튼 엔지니어 삶이라는 게 이렇다. 내 시간 보장 못 받고 툭하면 콜 받고 뛰어나가지만, 꼬인 문제 확 풀어내고 서버실 문 닫고 나올 때 그 묘한 뽕맛. 그거 하나로 밥벌이 하는 거지 뭐.
나중에 그때 열정 넘치게 장애 쳐내던 모습 생각하면 가끔 웃음이 나네. 오늘 무용담은 여기까지다. 365일 24시간 서버실에서 구르는 모든 동료들, 오늘 하루도 제발 장애 없는 평안한 밤 되길 바란다.
이상 제 이야기를 마치겠습니다. 좋은 장애 적당히 있는 하루 보내길 바랍니다. ^^


0 댓글