10G 스위치에 불이 안 들어온다? 서늘해진 등골과 NIC Down

Nutanix 는 Network 환경에 민감할 수 밖에 없습니다. 오늘은 예전에 작업 시 겪었던 일을 한번 이야기 해보겠습니다.

인프라 셋업 하러 갔는데 스토리지 노드랑 스위치 연결하고 나서 링크에 불이 안 들어오면 정말 등골이 서늘해지죠. 뉴타닉스(Nutanix) 장비에 10G 네트워크 구성할 때 흔히 마주치는 함정이 바로 이겁니다. 케이블 불량인 줄 알고 몇 번을 뺐다 꽂아봐도 ESXi나 AHV 상에서는 야속하게 'Link Down' 상태만 띄우고 있을 때가 참 많아요.

보통 10GbE NIC은 호환되는 SFP(Small Form-factor Pluggable) 모듈을 꽂으면 바로 올라와야 정상입니다. 하지만 현실은 그렇게 호락호락하지 않죠. 십중팔구는 SFP 모듈이 10G NIC이랑 궁합이 안 맞거나, 업스트림 스위치가 해당 모듈을 거부하는 상황입니다. 눈에 보이지 않는 물리 계층 에러를 잡으려면 운영체제 단에서 드라이버가 뱉어내는 로그부터 샅샅이 뒤져봐야 합니다.


원인 분석 1단계: 범인은 OS 로그 안에 숨어 있다 (ESXi 환경)

단순히 스위치 포트를 쳐다보고 있는다고 답이 나오지 않아요. 호스트에 SSH로 붙어서 네트워크 드라이버가 모듈을 제대로 인식했는지 직접 확인해 보셔야 합니다. ESXi 환경이라면 /var/log/vmkernel.log 파일을 열어보는 게 가장 확실한 첫 단추입니다.

Jun 28 16:13:43 VMESX01 vmkernel: 0:00:00:26.296 cpu2:4111)<3>ixgbe: 0000:00:00.0: ixgbe_probe: failed to load because an unsupported SFP+ module type was detected.

위에 첨부한 로그를 잘 보세요. 시스템이 아주 명확하게 비명을 지르고 있습니다. 여기서 ixgbe_probe라는 부분은 운영체제의 네트워크 드라이버가 물리적인 랜카드를 초기화하고 장치를 스캔하는 과정을 의미합니다. 그런데 그 뒤에 이어지는 메시지를 보면, 현재 장착된 SFP+ 모듈이 제조사에서 지원하지 않는 규격(unsupported SFP+ module type)이기 때문에 드라이버 로드를 완전히 포기했다는 뜻입니다.

실무 주의사항: 이 한 줄이 찍혔다면 스위치 쪽에서 VLAN 설정을 바꾸고 포트 설정을 백날 건드려봐야 아무런 소용이 없어요. 서버의 NIC 자체가 해당 광모듈을 불량품 내지는 비인가 모듈로 간주하고 물리적으로 튕겨내고 있는 겁니다.

원인 분석 2단계: AHV 환경에서의 dmesg 로그 추적

만약 뉴타닉스의 자체 하이퍼바이저인 AHV를 사용 중이시라면 확인해야 할 로그 파일의 위치가 조금 다릅니다. 이럴 때는 리눅스 커널의 부팅 메시지를 보여주는 dmesg 명령어를 치거나 /var/log/messages 파일을 뒤져보셔야 합니다.

6.6388281 ixgbe 0000:01:00.0: failed to load because an unsupported SFP+ or QSFP module type was detected.
6.6308231 ixgbe 0000:01:00.0: Reload the driver after installing a supported module.

AHV 환경에서도 원리는 똑같습니다. 커널 로그를 긁어보면 위와 같이 SFP+ 또는 QSFP 모듈 타입이 지원되지 않는다는 아주 직관적인 에러가 남아있습니다. 심지어 친절하게도 "지원되는 호환 모듈을 꽂은 다음에 드라이버를 다시 로드해라(Reload the driver)"라고 해결책까지 제시해주고 있죠. 가끔 이 로그 근처에 BMC나 IPMI 관련된 인터럽트 에러(ipmi_si)가 같이 찍히는 경우가 있는데, 네트워크 링크 다운의 주범은 아니니 당황하지 마시고 ixgbe 모듈 불량 메시지에만 집중하시면 됩니다.


Auto-Negotiation의 배신: 속도와 이중화 설정의 함정

로그 상으로 모듈 호환성 에러가 없는데도 링크가 죽어 있다면 속도(Speed)와 이중화(Duplex) 설정을 강력하게 의심해봐야 합니다. 특히 광케이블 10G 환경에 미디어 컨버터(Fibre-to-Copper)를 중간에 끼워서 구리선으로 변환해 쓸 때 이 문제가 정말 지겹도록 터집니다. 지금 우리 서버의 NIC 드라이버가 어떤 모드로 동작 중인지 정확히 짚고 넘어가 볼까요?

esxcli network nic get -n vmnic3

서버 콘솔에 이 명령어를 치실 때 -n 파라미터는 조회하고 싶은 특정 네트워크 인터페이스 카드의 이름(여기서는 vmnic3)을 지정하는 필수 옵션입니다. 엔터를 치면 결과물이 주르륵 쏟아질 텐데, 우리가 여기서 매의 눈으로 찾아야 할 항목은 딱 두 가지입니다. 첫 번째는 Driver Info 필드에 적힌 드라이버의 종류이고, 두 번째는 Auto Negotiation의 활성화 여부입니다.

[비교 요약] ixgbe vs igb 드라이버의 네고시에이션 특징

드라이버 종류 하드코딩(수동 고정) 지원 여부 업스트림 스위치 설정 권장값
ixgbe 지원 안 함 (Auto-Negotiation 강제) 반드시 Auto-Negotiation으로 설정
igb 지원함 (수동 설정 가능) 서버와 동일하게 수동 고정(예: 10G/Full) 가능

표에서 보시듯 만약 드라이버가 ixgbe로 잡혀 있다면 이 녀석은 속도나 이중화를 관리자가 10000/Full 등으로 강제 고정하는 하드코딩(Hard-coding) 방식을 아예 지원하지 않는 깐깐한 친구입니다. 무조건 Auto-Negotiation으로만 동작하려고 하죠. 반면 맞은편에 있는 업스트림 스위치 포트는 관리자가 10G Full-Duplex로 꽉 묶어놨다면? 당연히 네고시에이션이 실패하면서 링크가 죽어버립니다. 스위치 쪽 포트 설정도 반드시 Auto-Negotiation으로 풀어주셔야 합니다.


크로스오버 테스트: 진짜 원인 제공자 찾아내기

로그를 봐도 애매하고 설정도 다 맞춰본 것 같다면, 핑퐁 게임을 끝내기 위해 몸으로 때우는 물리 테스트가 직방입니다. 현재 꽂혀있는 SFP 모듈이 NIC이랑 안 맞는 건지, 아니면 스위치랑 안 맞는 건지 아주 확실하게 구별해 내는 방법이 있어요. 바로 크로스오버 테스트입니다.

SFP 모듈 크로스오버 TEST 장면
SFP 모듈 크로스오버 TEST 

문제가 되는 10G 포트(SFP 장착)와 정상 작동이 확인된 다른 1G NIC 포트를 다이렉트 케이블로 직접 연결해 보세요. 이 물리적 테스트의 결과에 따라 범인을 아주 명확하게 특정할 수 있습니다.

[물리 테스트] 크로스오버 연결 결과에 따른 진단

테스트 상태 (1G 포트 다이렉트 연결) 원인 진단 결과 해결 액션
1G 포트 LED 점등 / 10G 포트 먹통 SFP 모듈과 10G 어댑터(NIC) 간의 호환성 불량 서버 호환 모듈(다른 브랜드)로 교체 진행
양쪽 포트 LED 모두 점등 SFP 모듈과 업스트림 스위치 간의 호환성 불량 스위치 벤더사에 호환되는 모듈 확인 및 재요청

공식 문서에는 없는 실무 인프라 트러블슈팅 꿀팁

실무 현장에서 10G SFP 모듈이 호환 안 돼서 삽질하다 보면, 당장 오늘 밤 안에 서비스는 올려야 하니 급한 마음에 남는 1G 모듈(1000Base-T)로 다운그레이드해서 연결하려는 강력한 유혹에 빠지기 쉽습니다. 하지만 이런 땜질식 처방은 아래와 같은 치명적인 문제를 낳습니다.

  • 스토리지 I/O 병목: HCI 환경에서는 클러스터 노드 간 통신 속도가 생명입니다. 대역폭이 반토막 나면 데이터 리빌딩 속도가 현저히 떨어집니다.
  • CVM 통신 지연: 컨트롤러 VM(CVM) 간의 심박수 체크(Heartbeat) 및 메타데이터 동기화에 딜레이가 생겨 클러스터 전체의 안정성이 흔들립니다.
  • 향후 확장성 제한: 나중에 노드를 추가로 붙일 때 원인 모를 성능 저하로 엄청난 고생을 하게 됩니다.

절대 1G로 속도를 타협하지 마세요. 특정 브랜드의 SFP 모듈이 안 붙는다고 좌절할 필요는 없어요. 호환성 리스트에 없더라도 델(Dell)이나 시스코(Cisco), 아니면 흔히 쓰는 서드파티 호환 모듈(Finisar 등) 스페어를 몇 개 챙겨가서 꽂아보면 허무할 정도로 한 번에 훅 올라오는 경우가 허다합니다. 인프라 엔지니어라면 제조사 브랜드만 맹신하지 마시고, 다양한 벤더의 SFP 스페어를 공구통에 항상 챙겨 다니는 것이 퇴근 시간을 앞당기는 최고의 비결입니다.

항상 SFP 테스트용으로 작업 시 가지고 다니세요. 구매 요청도 영업에게 타당성 있게 한다면 문제없이 가지고 다니실 겁니다. ^^   

댓글 쓰기

0 댓글

이 블로그 검색

태그

신고하기

프로필

이미지alt태그 입력