[vSphere] 홈 랩에서의 기묘한 HA 실패 경험

단일 호스트 실패 시의 클러스터 전체 영향 오동작을 올 해 들어 처음 겪었다.

장기간에 걸쳐 홈 랩 호스트 전체의 스펙 교체를 진행하였고, 라이젠 CPU로 모두 교체하였기에 EVC를 활성화 하였다. 그간 AMD 컨슈머 CPU로 HA 및 EVC 운영 시 마더보드가 다른 기종여도 전혀 문제가 없었지만 이번에는 달랐다.

  1. vSphere 7 클러스터 내 한 호스트 에러 발생하여 퍼플 스크린
  2. 클러스터 내 호스트 및 VM의 일부만 응답하는 현상 발생
  3. 퍼플 스크린 발생한 장애 호스트를 리부트 시 정상화

네트워크 정상화 되어 vCenter 접속하고 vSAN 상태 확인하면 정상화 보고가 뜬다.

장애 시간이 길어지면 VM의 네트워크와 연결된 물리 스위치의 웹 매니지먼트 포트 무응답하게 되며, 스위치를 리부트해야만 접속이 가능했다.

같은 현상이 며칠 내지 몇 주 만에 반복 발생하여 EVC를 껐다. 이후로 30일 넘게 호스트 장애가 없어 안심했지만 HA만 사용 시에도 동일하게 클러스터 장애가 발생했다.

적확히 파악할 실력은 안되서 긴가민가 하던 차에 마더보드의 AGESA 차이로 문제가 생길 수 있겠다 싶어 전체 호스트의 마더보드 펌웨어 업데이트 후에 EVC 재가동하였다.

이 후 몇 주간 운용 중 호스트 장애는 없었 차에 vSphere 7.0b 업데이트가 나와 설치로부터 26일째에 이른다.

앞으로 어찌 될 지……


게시됨

카테고리

작성자

태그:

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다