끄적이는 보송

[AWS] Amazon FSx for Windows Server 백업 실패 분석 및 해결(Maintenance Windows 설정 원인) 본문

STUDY/AWS

[AWS] Amazon FSx for Windows Server 백업 실패 분석 및 해결(Maintenance Windows 설정 원인)

끄적이는 보송 2022. 12. 2. 16:12
반응형

문제 발생 및 환경

Amazon FSx for Windows File Server 서비스를 AWS Backup 서비스로 주기적인 백업을 설정하였지만 FSx 백업에 실패한 케이스가 있었다.

 그 원인을 찾아보니 백업 시간과 Maintenance Windows(유지보수) 시간이 겹쳐 발생한 것이었다. FSx 백업은 유지보수 작업 시작 4시간 전부터 시작할 수 없다고 한다. 이 부분은 FSx만 국한된 것이 아니면 다른 서비스에도 제약사항이 있다. 더 자세한 것은 아래 링크를 통해 확인할 수 있다.
[+] https://docs.aws.amazon.com/aws-backup/latest/devguide/troubleshooting.html

 

해결 방안

이용자가 없을 때를 고려해 주말 새벽 시간에 백업과 유지보수 작업을 설정해 두었는데 이것이 화근이었다. 문제를 해결하고 싶다면 결국 백업과 유지보수 작업 시간을 서로 피하게 설정해주면 된다.

예를 들어, 유지보수 작업이 04:00에 잡혀있다면 백업 시간은 적어도 00:00 이전에 수행하던가 아니면 유지보수 작업이 끝났을 것으로 예상되는 시간부터 시작해야 한다. 머리 아프면 유지보수 시간을 그냥 자동으로 하면 어떻게든 해결은 되겠지만 원치 않는 시간에 작업이 시작될 수도 있을 것 같다. 

 

Amazon FSx Maintenance Windows란

유지보수 작업은 FSx에 윈도우 서버에 소프트웨어를 패치하는 작업을 의미한다. 유지보수 작업 시간은 매주 언제 시작하겠다고 정할 수 있는데, 여기서 오해할 수 있는 게 유지보수 작업이 매주 일어날 것이라고 생각이 들 수 있지만 그렇지 않다. AWS에서  FSx의 업데이트가 필요해졌을 때, 해당되는 주(Week)에 설정된 시간에 유지보수 작업이 잡힌다.

유지보수 작업 중에는 FSx를 일시적으로 사용할 수 없다. 그리고 작업이 시작되기 전에 FSx는 데이터 무결성을 위해 Pending 중이었던 쓰기 작업을 모두 완료한다고 한다. 추가로 FSx의 Deployment Type이 Single-AZ가 아닌 Multi-AZ라면 자동으로 Fail Over 된다고 한다. 
[+] https://docs.aws.amazon.com/fsx/latest/WindowsGuide/maintenance-windows.html

 

AWS Backup rule 관련하여 

AWS Backup rule을 확인해보면 저런 설정값들이 보인다. "그냥 지정한 시간에 백업 시작만 해주면 되는 거 아니야?"라는 생각으로 적당히 입력할게 아니라 잘 고려하고 설정해줘야 한다. 각 항목별로 무엇을 의미하는지 정리해 보았다.

1. Backup window start time: 
말 그대로 언제부터 백업을 시작할지 정해주는 시간이다.

2. Start within:
1번 설정 시간에 바로 백업이 시작되는 것이 아니다. 1번 시간을 기준으로 몇 시간 안에 백업을 '시작'해라 라는 뜻이다. 이 기간 동안 백업이 시작되지 않으면 만료된 것으로 표시된다.

3. Complete within:
2번에 설정한 시간 안에 백업이 '시작'되었다면, 3번 설정은 백업을 완료해야 하는 기간을 의미한다. 리소스의 백업을 위한 데이터 전송이 이 기간에 완료되지 않으면 마찬가지로 만료된 것으로 표시된다. 대규모 백업의 경우 며칠도 걸릴 수 있으니 이 부분을 유의하고 설정해주자.

반응형
Comments