Nutanix 는 Network 환경에 민감할 수 밖에 없습니다. 오늘은 예전에 작업 시 겪었던 일을 한번 이야기 해보겠습니다.
인프라 셋업 하러 갔는데 스토리지 노드랑 스위치 연결하고 나서 링크에 불이 안 들어오면 정말 등골이 서늘해지죠. 뉴타닉스(Nutanix) 장비에 10G 네트워크 구성할 때 흔히 마주치는 함정이 바로 이겁니다. 케이블 불량인 줄 알고 몇 번을 뺐다 꽂아봐도 ESXi나 AHV 상에서는 야속하게 'Link Down' 상태만 띄우고 있을 때가 참 많아요.
보통 10GbE NIC은 호환되는 SFP(Small Form-factor Pluggable) 모듈을 꽂으면 바로 올라와야 정상입니다. 하지만 현실은 그렇게 호락호락하지 않죠. 십중팔구는 SFP 모듈이 10G NIC이랑 궁합이 안 맞거나, 업스트림 스위치가 해당 모듈을 거부하는 상황입니다. 눈에 보이지 않는 물리 계층 에러를 잡으려면 운영체제 단에서 드라이버가 뱉어내는 로그부터 샅샅이 뒤져봐야 합니다.
원인 분석 1단계: 범인은 OS 로그 안에 숨어 있다 (ESXi 환경)
단순히 스위치 포트를 쳐다보고 있는다고 답이 나오지 않아요. 호스트에 SSH로
붙어서 네트워크 드라이버가 모듈을 제대로 인식했는지 직접 확인해 보셔야 합니다.
ESXi 환경이라면 /var/log/vmkernel.log 파일을 열어보는 게 가장
확실한 첫 단추입니다.
Jun 28 16:13:43 VMESX01 vmkernel: 0:00:00:26.296 cpu2:4111)<3>ixgbe: 0000:00:00.0: ixgbe_probe: failed to load because an unsupported SFP+ module type was detected.
위에 첨부한 로그를 잘 보세요. 시스템이 아주 명확하게 비명을 지르고 있습니다.
여기서 ixgbe_probe라는 부분은 운영체제의 네트워크 드라이버가
물리적인 랜카드를 초기화하고 장치를 스캔하는 과정을 의미합니다. 그런데 그 뒤에
이어지는 메시지를 보면, 현재 장착된 SFP+ 모듈이 제조사에서 지원하지 않는
규격(unsupported SFP+ module type)이기 때문에 드라이버 로드를 완전히
포기했다는 뜻입니다.
실무 주의사항: 이 한 줄이 찍혔다면 스위치 쪽에서 VLAN 설정을 바꾸고 포트 설정을 백날 건드려봐야 아무런 소용이 없어요. 서버의 NIC 자체가 해당 광모듈을 불량품 내지는 비인가 모듈로 간주하고 물리적으로 튕겨내고 있는 겁니다.
원인 분석 2단계: AHV 환경에서의 dmesg 로그 추적
만약 뉴타닉스의 자체 하이퍼바이저인 AHV를 사용 중이시라면 확인해야 할 로그
파일의 위치가 조금 다릅니다. 이럴 때는 리눅스 커널의 부팅 메시지를 보여주는
dmesg 명령어를 치거나 /var/log/messages 파일을
뒤져보셔야 합니다.
6.6388281 ixgbe 0000:01:00.0: failed to load because an unsupported SFP+ or QSFP module type was detected.
6.6308231 ixgbe 0000:01:00.0: Reload the driver after installing a supported module.
AHV 환경에서도 원리는 똑같습니다. 커널 로그를 긁어보면 위와 같이 SFP+ 또는
QSFP 모듈 타입이 지원되지 않는다는 아주 직관적인 에러가 남아있습니다. 심지어
친절하게도 "지원되는 호환 모듈을 꽂은 다음에 드라이버를 다시 로드해라(Reload
the driver)"라고 해결책까지 제시해주고 있죠. 가끔 이 로그 근처에 BMC나 IPMI
관련된 인터럽트 에러(ipmi_si)가 같이 찍히는 경우가 있는데,
네트워크 링크 다운의 주범은 아니니 당황하지 마시고 ixgbe 모듈 불량 메시지에만
집중하시면 됩니다.
Auto-Negotiation의 배신: 속도와 이중화 설정의 함정
로그 상으로 모듈 호환성 에러가 없는데도 링크가 죽어 있다면 속도(Speed)와 이중화(Duplex) 설정을 강력하게 의심해봐야 합니다. 특히 광케이블 10G 환경에 미디어 컨버터(Fibre-to-Copper)를 중간에 끼워서 구리선으로 변환해 쓸 때 이 문제가 정말 지겹도록 터집니다. 지금 우리 서버의 NIC 드라이버가 어떤 모드로 동작 중인지 정확히 짚고 넘어가 볼까요?
esxcli network nic get -n vmnic3
서버 콘솔에 이 명령어를 치실 때 -n 파라미터는 조회하고 싶은 특정
네트워크 인터페이스 카드의 이름(여기서는 vmnic3)을 지정하는 필수 옵션입니다.
엔터를 치면 결과물이 주르륵 쏟아질 텐데, 우리가 여기서 매의 눈으로 찾아야 할
항목은 딱 두 가지입니다. 첫 번째는 Driver Info 필드에 적힌
드라이버의 종류이고, 두 번째는 Auto Negotiation의 활성화
여부입니다.
[비교 요약] ixgbe vs igb 드라이버의 네고시에이션 특징
| 드라이버 종류 | 하드코딩(수동 고정) 지원 여부 | 업스트림 스위치 설정 권장값 |
|---|---|---|
| ixgbe | 지원 안 함 (Auto-Negotiation 강제) | 반드시 Auto-Negotiation으로 설정 |
| igb | 지원함 (수동 설정 가능) | 서버와 동일하게 수동 고정(예: 10G/Full) 가능 |
표에서 보시듯 만약 드라이버가 ixgbe로 잡혀 있다면 이 녀석은
속도나 이중화를 관리자가 10000/Full 등으로 강제 고정하는 하드코딩(Hard-coding)
방식을 아예 지원하지 않는 깐깐한 친구입니다. 무조건 Auto-Negotiation으로만
동작하려고 하죠. 반면 맞은편에 있는 업스트림 스위치 포트는 관리자가 10G
Full-Duplex로 꽉 묶어놨다면? 당연히 네고시에이션이 실패하면서 링크가
죽어버립니다. 스위치 쪽 포트 설정도 반드시 Auto-Negotiation으로 풀어주셔야
합니다.
크로스오버 테스트: 진짜 원인 제공자 찾아내기
로그를 봐도 애매하고 설정도 다 맞춰본 것 같다면, 핑퐁 게임을 끝내기 위해 몸으로 때우는 물리 테스트가 직방입니다. 현재 꽂혀있는 SFP 모듈이 NIC이랑 안 맞는 건지, 아니면 스위치랑 안 맞는 건지 아주 확실하게 구별해 내는 방법이 있어요. 바로 크로스오버 테스트입니다.
![]() |
| SFP 모듈 크로스오버 TEST |
문제가 되는 10G 포트(SFP 장착)와 정상 작동이 확인된 다른 1G NIC 포트를 다이렉트 케이블로 직접 연결해 보세요. 이 물리적 테스트의 결과에 따라 범인을 아주 명확하게 특정할 수 있습니다.
[물리 테스트] 크로스오버 연결 결과에 따른 진단
| 테스트 상태 (1G 포트 다이렉트 연결) | 원인 진단 결과 | 해결 액션 |
|---|---|---|
| 1G 포트 LED 점등 / 10G 포트 먹통 | SFP 모듈과 10G 어댑터(NIC) 간의 호환성 불량 | 서버 호환 모듈(다른 브랜드)로 교체 진행 |
| 양쪽 포트 LED 모두 점등 | SFP 모듈과 업스트림 스위치 간의 호환성 불량 | 스위치 벤더사에 호환되는 모듈 확인 및 재요청 |
공식 문서에는 없는 실무 인프라 트러블슈팅 꿀팁
실무 현장에서 10G SFP 모듈이 호환 안 돼서 삽질하다 보면, 당장 오늘 밤 안에 서비스는 올려야 하니 급한 마음에 남는 1G 모듈(1000Base-T)로 다운그레이드해서 연결하려는 강력한 유혹에 빠지기 쉽습니다. 하지만 이런 땜질식 처방은 아래와 같은 치명적인 문제를 낳습니다.
- 스토리지 I/O 병목: HCI 환경에서는 클러스터 노드 간 통신 속도가 생명입니다. 대역폭이 반토막 나면 데이터 리빌딩 속도가 현저히 떨어집니다.
- CVM 통신 지연: 컨트롤러 VM(CVM) 간의 심박수 체크(Heartbeat) 및 메타데이터 동기화에 딜레이가 생겨 클러스터 전체의 안정성이 흔들립니다.
- 향후 확장성 제한: 나중에 노드를 추가로 붙일 때 원인 모를 성능 저하로 엄청난 고생을 하게 됩니다.
절대 1G로 속도를 타협하지 마세요. 특정 브랜드의 SFP 모듈이 안 붙는다고 좌절할 필요는 없어요. 호환성 리스트에 없더라도 델(Dell)이나 시스코(Cisco), 아니면 흔히 쓰는 서드파티 호환 모듈(Finisar 등) 스페어를 몇 개 챙겨가서 꽂아보면 허무할 정도로 한 번에 훅 올라오는 경우가 허다합니다. 인프라 엔지니어라면 제조사 브랜드만 맹신하지 마시고, 다양한 벤더의 SFP 스페어를 공구통에 항상 챙겨 다니는 것이 퇴근 시간을 앞당기는 최고의 비결입니다.
항상 SFP 테스트용으로 작업 시 가지고 다니세요. 구매 요청도 영업에게 타당성 있게 한다면 문제없이 가지고 다니실 겁니다. ^^

0 댓글