단일 호스트 실패 시의 클러스터 전체 영향 오동작을 올 해 들어 처음 겪었다.
장기간에 걸쳐 홈 랩 호스트 전체의 스펙 교체를 진행하였고, 라이젠 CPU로 모두 교체하였기에 EVC를 활성화 하였다. 그간 AMD 컨슈머 CPU로 HA 및 EVC 운영 시 마더보드가 다른 기종여도 전혀 문제가 없었지만 이번에는 달랐다.
- vSphere 7 클러스터 내 한 호스트 에러 발생하여 퍼플 스크린
- 클러스터 내 호스트 및 VM의 일부만 응답하는 현상 발생
- 퍼플 스크린 발생한 장애 호스트를 리부트 시 정상화
네트워크 정상화 되어 vCenter 접속하고 vSAN 상태 확인하면 정상화 보고가 뜬다.
장애 시간이 길어지면 VM의 네트워크와 연결된 물리 스위치의 웹 매니지먼트 포트 무응답하게 되며, 스위치를 리부트해야만 접속이 가능했다.
같은 현상이 며칠 내지 몇 주 만에 반복 발생하여 EVC를 껐다. 이후로 30일 넘게 호스트 장애가 없어 안심했지만 HA만 사용 시에도 동일하게 클러스터 장애가 발생했다.
적확히 파악할 실력은 안되서 긴가민가 하던 차에 마더보드의 AGESA 차이로 문제가 생길 수 있겠다 싶어 전체 호스트의 마더보드 펌웨어 업데이트 후에 EVC 재가동하였다.
이 후 몇 주간 운용 중 호스트 장애는 없었 차에 vSphere 7.0b 업데이트가 나와 설치로부터 26일째에 이른다.
앞으로 어찌 될 지……
답글 남기기