Nutanix AHV 10G NIC 1G 연결 오류 트러블슈팅

오늘은 Nutanix 장비 구성은 10G 스펙인데, 1G로 인식되어 저를 당황하게 했던 이야기를 해보겠습니다.

현장 점검 중 마주친 황당한 1Gbps의 늪

오늘 고객사 Nutanix 장비 정기 점검을 갔다가 아주 기가 막힌 상황을 겪고 왔어요. 랙 앞에서 얼마나 진땀을 흘렸는지 모릅니다. 네트워크 구성도를 보면 스위치도 분명 10G를 지원하는 최고급 장비이고, 서버 쪽에 장착된 NIC(랜카드)도 확실히 10G 스펙이 맞거든요. 그런데 하이퍼바이저에서 링크 속도를 확인해 보니 떡하니 1Gbps로 붙어있는 겁니다. 진짜 환장합니다.

처음에는 당연히 물리적인 문제인 줄 알았어요. 광케이블 불량인가 싶어서 여분의 케이블로 갈아 끼워봤죠. 안 됩니다. 포트에 먼지가 꼈나 싶어 SFP 모듈을 뺐다 껴보며 혼자 서버실에서 땀을 뻘뻘 흘렸네요. 완전 헛수고였죠. 눈에 보이는 하드웨어에만 집착하다가 황금 같은 점검 시간만 다 날려버렸습니다. 에휴 ~ 


범인 찾기: 운영체제는 절대 거짓말을 하지 않는다

물리적 조치로 해결이 안 되니 슬슬 멘탈이 흔들리기 시작했습니다. 심호흡을 크게 한 번 하고 기본으로 돌아가기로 했어요. 장비 겉면에 적힌 스펙? 절대 믿지 마세요. 현재 AHV 호스트가 이 네트워크 카드를 어떻게 인식하고 있는지 쉘단에서 직접 까봐야 직성이 풀리거든요.

root@AHV# lspci | grep -i Ethernet

이 명령어는 현재 AHV 호스트(서버) 메인보드에 장착된 물리적인 네트워크 인터페이스 카드(NIC)의 정확한 칩셋 모델명을 확인하기 위해 리눅스 쉘 환경에서 실행하는 가장 기초적인 하드웨어 조회 명령입니다. lspci를 통해 시스템에 꽂힌 전체 PCI 디바이스 목록을 쭉 뽑아낸 다음, 파이프라인(|) 기호를 써서 grep -i Ethernet으로 넘기게 됩니다. 이렇게 하면 대소문자 구분 없이 이더넷 관련 장치 정보만 쏙 골라내어 터미널 화면에 깔끔하게 뿌려주죠.

눈으로 서버 뒤통수를 보고 10G 카드가 꽂혀 있다고 대충 짐작하고 넘어가면 나중에 크게 다칩니다. 운영체제가 정확히 어떤 칩셋 베이스로 하드웨어를 인식하고 있는지 이 단계를 거쳐 명확히 확인해야만 해요. 그래야 나중에 벤더사 지식 기반 문서(KB)를 뒤질 때 헛다리를 짚지 않고 정확한 키워드를 잡을 수 있거든요. 제 경우 예상 출력값으로 Intel Corporation Ethernet Controller 10G X550T (rev 01)가 두 줄, 아주 선명하게 뜨더라고요.

칩셋 모델을 확인했으니, 이제 실제로 링크가 어떻게 협상되고 있는지 네트워크 포트의 민낯을 현미경으로 들여다볼 차례입니다.

root@AHV# ethtool ethX

이것은 서버에 꽂힌 특정 네트워크 인터페이스 포트의 현재 물리적 연결 속도, 지원 가능한 링크 모드, 그리고 가장 중요한 자동 협상(Auto-negotiation) 설정 상태를 밑바닥까지 뜯어볼 수 있는 강력한 네트워크 진단 명령어입니다. 뒤에 붙는 ethX 파트에는 앞서 하드웨어 정보에서 매칭한 실제 논리적 인터페이스 이름(예: eth2eth3)을 여러분의 환경에 맞춰 정확히 입력해 주셔야 제대로 동작해요.

이 명령어를 엔터 치는 순간 화면에 수많은 네트워크 설정 파라미터가 와르르 쏟아집니다. 여기서 우리가 매의 눈으로 파고들어야 할 핵심 지표는 딱 세 가지예요.

  • 첫째, Supported link modesAdvertised auto-negotiation 비교: Supported는 이 랜카드가 물리적으로 감당할 수 있는 태생적 한계치입니다. 당연히 10G 모델이니 그에 맞는 스펙이 찍혀 있겠죠. 중요한 건 Advertised입니다. 이건 랜카드가 스위치한테 "나 이 속도까지 지원하니까 우리 최고 속도로 맞춰보자!"라고 뽐내는 값이에요.
  • 둘째, 실제 맺어진 Speed 항목 확인: 그렇게 열심히 광고를 했는데도 실제 맺어진 Speed 항목이 10000Mb/s가 아닌 1000Mb/s로 초라하게 잡혀 있는지 봅니다.
  • 마지막으로, Link detected 확인: 이 값이 'yes'로 떠서 물리적인 빔(신호) 자체는 정상적으로 쏘아지고 있는지를 확인하세요. 카드도 정상이고 광고도 정상적으로 했는데 속도만 1G로 떨어졌다? 여기서부터는 단순 케이블 불량이 아니라 하드웨어 칩셋 간의 기싸움, 즉 협상 결렬을 강력하게 의심해야 하는 단계인 겁니다.


원인 분석: Intel X550과 Broadcom 스위치의 불편한 동거

증상이 너무 명확하게 좁혀져서 곧바로 Nutanix 서포트 포털을 뒤지기 시작했습니다. 아니나 다를까, 비슷한 이슈를 깊게 다룬 KB-9373 문서를 찾아냈어요. 알고 보니 이건 케이블 불량도 아니고 제 실수도 아닌, 하드웨어 칩셋 간의 기가 막힌 호환성 문제였습니다. 미치는 거죠. 후... 

우리가 현장에서 흔히 쓰는 Intel X550 시리즈 NIC가 특정 스위치 칩셋과 만났을 때 엇박자가 나는 고질적인 현상입니다. 구체적으로는 Broadcom Limited 84848 쿼드 포트 10GBASE-T PHY를 탑재한 스위치 포트가 범인이었어요. 두 기기가 서로 만나서 "우리 어떤 속도로 통신할까?" 하고 정보를 교환하는 자동 협상 과정에서 버그가 터지는 겁니다.

Intel 랜카드가 NBASE-T(2.5G/5G) 지원 능력을 스위치 쪽에 신나게 광고(Advertising)할 때, 정작 신호를 받는 Broadcom 칩셋이 이 규격을 정상적으로 소화하지 못하고 오작동을 일으킵니다. 서로 쓰는 언어가 다르니 말이 안 통하죠. 장비들은 이렇게 통신 규격이 꼬이면 안전을 최우선으로 여깁니다. 아예 가장 기본적이고 오류가 날 확률이 적은 1Gbps 속도로 링크를 강제 타협해 버리는 상황이 벌어진 겁니다.


실무 대처법: 스위치 펌웨어 업데이트 vs 임시 조치

정확한 원인을 파악했으니 이제 속 시원하게 해결을 해야겠죠. 현장 상황에 맞게 적용할 수 있는 두 가지 선택지가 있습니다.

구분 해결 방법 장단점 및 특징
영구적 해결 (권장) 스위치 펌웨어 최신 버전 업데이트 Broadcom 84848 PHY 호환성 버그가 완전히 픽스된 펌웨어를 스위치 벤더사로부터 받아 올립니다. 가장 깔끔하고 확실한 방법이지만, 네트워크 서비스 다운타임 협의가 반드시 필요합니다.
임시 조치 (Workaround) Nutanix Support 지원을 통한 호스트 설정 변경 당장 스위치 작업이 불가능하거나 다운타임 승인이 안 떨어지는 깐깐한 고객사 환경에서 유용합니다. AHV 호스트 단에서 임시 조치를 취해야 하니 무작정 건드리지 말고 꼭 벤더에 케이스를 오픈하세요.
선배의 현장 꿀팁: 수동 속도 고정의 달콤한 유혹을 조심하세요

답답한 마음에 서버와 스위치 양쪽 포트 속도를 수동으로 10Gbps 꽉 물려서 고정(Hardcoding)해 보시려는 분들 분명 계실 겁니다. 저도 현장에서 제일 먼저 해본 짓이거든요. 수동으로 세팅하면 당장은 10G로 찰떡같이 잘 붙습니다. "아싸, 10G 떴다 해결했다!" 하고 기분 좋게 짐 싸서 퇴근하시죠? 절대 안 됩니다. 나중에 정기 점검 때 호스트 서버를 리부팅하거나 스위치 쪽에서 자동 협상 설정이 살짝이라도 롤백되는 순간, 링크가 다시 1G로 뚝 떨어지거나 최악의 경우 아예 통신 단절이 올 수 있습니다. 수동 고정은 진짜 급한 불 끌 때 아니면 절대 운영 환경에 방치하지 마세요. 밤에 장애 알람 울려서 잠 다 깹니다.

문제를 마주했을 때 눈앞의 케이블만 뚫어져라 쳐다보지 말고 시스템 로그와 벤더 문서를 악착같이 파고들어야 하는 이유, 이제 좀 감이 오시나요? 현장에서는 늘 우리의 상식을 벗어나는 상상 초월의 변수들이 숨어 있습니다. 항상 모든 변수에 대응 할 수는 없습니다. 그래도 계획은 있어야겠죠? 그럼 다음 포스팅에 만나보도록 할께요. 

댓글 쓰기

0 댓글

이 블로그 검색

태그

신고하기

프로필

이미지alt태그 입력