재해 복구

얼마 전에 이 블로그에서 데이터 센터 이중화에 대한 내용을 공유해 드린 적이 있습니다.

 데이터 센터 이중화에 대해서

이 내용 중에 DR에 대해서 간략하게 내용을 공유해 드렸습니다. 오늘은 이 DR에 대해서 좀 더 자세하게 공유해 드리려고 합니다.

우선 DR은 Disaster Recovery의 약자로, 재해 복구를 뜻합니다. 지진, 태풍, 홍수 같은 천재지변부터 전쟁, 해킹, 갑작스러운 시스템 오류 등 예상치 못한 재해 속에서도 서비스가 계속 운영될 수 있도록 하는 것입니다.

그럼 DR에서의 재해(Disaster)란 무엇일까요?

일반적인 상황에서의 재해란 자연 재해의 관점에서만 생각할 수 있지만, IT에서의 재해는 시스템이나 기술적인 장애 또는 사이버 공격에 의해 발생할 수도 있습니다. 왜냐하면 이를 통해 일정 기간 동안 중요한 비즈니스의 운영에 방해를 받거나 완전히 중단될 수도 있기 때문입니다. 이와 관련한 재해의 유형은 다음과 같습니다.

  • 멀웨어, DDos 및 랜섬웨어 공격과 같은 사이버 공격
  • 사보타주(생산 설비 및 수송 기계의 전복, 장애, 혼란과 파괴를 통해 관리자 또는 고용주를 약화시키는 것을 목적으로 하는 의도적인 행동)
  • 정전
  • 장비 오류
  • 코로나와 같은 에피데믹 또는 펜데믹
  • 테러리스트 공격 및 위협
  • 산업 재해
  • 자연 재해(허리케인, 토네이도, 지진, 홍수, 화재 등)

DR이 왜 중요한가?

안정적이고 지속적인 서비스의 제공을 위해서는 DR이 중요하겠죠. 왜냐하면 재난은 시나리오에 따라 다양한 심각도와 함께 다양한 유형의 피해를 입힐 수 있으니까 말이죠.

또한 요즘같이 유사한 서비스가 많은 IT 업계에서 짧은 네트워크의 중단만으로도 서비스 매출에 직접적으로 영향을 줄 수 있습니다. 자사의 서비스가 되지 않는 경우 바로 다른 회사의 서비스를 사용하게 되니까요.

그리고 서비스의 중단이 단기적인 매출에만 영향을 준다면 그나마 다행이겠지만, 이런 중단을 통해 고객들의 신뢰를 잃게 되고 브랜드 가치가 하락하는 상황까지 발생할 수 있기에 DR을 통한 안정적이고 지속적인 서비스의 제공이 중요하지 않을까 하는 생각이 듭니다.

그럼 DR 시스템 구성만으로 문제가 해결될 수 있는가?

사실 뭐든지 도구만 제공한다고 해서 되는 것은 아닙니다. 그렇기에 단지 DR 시스템의 영역을 벗어난 BCDR이라는 개념이 있습니다.

BCDR는 바로 Business Continuity and Disaster Recovery의 약어입니다. 이를 해석하면 ‘업무 연속성 및 재해 복구’입니다.

여기에는 재난이 업무 및 자산에 미칠 영향을 분석하는 것에서부터, 관리 및 감시를 하는 수행하는 예방 단계, 이를 바탕으로 재해에 대한 전략을 수립, 상황 발생 시 대응 계획, 피해 시 복원 절차 등까지 전반적인 계획을 체계적으로 수립하는 것이 포함됩니다.

재해와 같은 예외 상황에서는 당황하기 마련이고 대처가 미흡해 질 수 있기에 이런 모든 부분을 준비해 두는 것이 필요합니다.

그럼 DR에서 필요한 지표는?

DR과 관련하여 수치화할 수 있는 지표는 RPO와 RTO가 있습니다.

RTO(Recovery Time Objective; 목표 복구 시간)
RTO는 목표 복구 시간으로 장애 발생 시 시스템을 기존 상태로 복원하는데 소요되는 시간을 말합니다.

RPO(Recovery Point Objective; 목표 복구 시점)
RPO는 목표 복구 시점으로 장애 발생 시 비즈니스 연속을 위해 어느 시점으로 백업할 지 결정하는 지표라고 할 수 있습니다.

DR 시스템의 종류?

DR 시스템도 목적에 따라 다음과 같이 다른 형태로 구성할 수 있습니다.

  • 미러 사이트: 메인 시스템과 동일 환경 구축 + 동기화
    → 복구 목표 시간(RTO)이 분 단위로 짧음
  • 핫 사이트: 메인 시스템과 동일 환경 구축 + 평소에는 대기 상태로 운영
  • 웜 사이트: 중요성이 높은 데이터만 부분 저장
  • 쿨 사이트: 단순 데이터 저장 → 주로 보완책으로 사용
재해 복구를 위한 DR 시스템 구축하려면 비용이 발생할 수 있습니다. 하지만, 이 비용이 고객의 신뢰보다 더 큰 것인가에 대해서는 한 번 생각해 볼 필요가 있다는 생각이 듭니다.

그리고 단지 DR 시스템을 구축했다고 해서 재해 복구가 될 것이고 생각하지 말고, 분석, 예방, 전략 수립, 계획, 절차, 훈련 등에 대해서도 같이 고려해야 할 필요가 있다는 생각도 듭니다.

 

클라우드나 SaaS와 관련하여 다른 궁금한 점이 있으시면 언제든지 저희에게 문의해 주세요.

저희에게는 클라우드에 대한 다양한 정보와 경험, 그리고 도구가 있습니다.

 OpsNow에 문의하기