데이터 센터

얼마 전에 판교에 있는 데이터 센터에서 화재가 발생하면서 연일 데이터 센터에 대한 뉴스들이 쏟아졌습니다. 그 중에 IT 관련하여 시스템 이원화와 재난 대응, 고가용성 등에 대한 내용들의 내용들이 많이 있었습니다.

읽다 보면 IT 산업 종사자들에게도 아리송한 내용들이 많습니다. 그래서 오늘은 데이터 센터와 관련한 개념들에 대해서 공유해 드리겠습니다.

데이터 센터는 어떻게 구성되어 있나요?

데이터센터는 IT 장비를 모아 전문적으로 관리하는 물리적인 빌딩입니다. 데이터센터에서 관리하는 IT 장비로는 먼저 데이터를 저장하는 서버와 스토리지, 그리고 데이터 전송을 위한 네트워크가 있고요. 이러한 장비를 유지하는 데 필요한 발전기, 항온·항습기, 무정전 전원장치(UPS), 배터리 등으로 구성되어 있습니다.

데이터 센터 구성도

데이터센터의 장비 구성 (출처: 한국전자통신연구원(ETRI))

데이터센터의 전력 공급 구조는 어떨까요? 한국전력에서 공급하는 고전압전력은 적어도 두 곳의 변전소를 통해 들어옵니다. 그리고 변압기를 거쳐 IT장비와 공조장비에 적합한 전압으로 공급이 되는 것이죠.

데이터센터와 일반 빌딩의 가장 큰 차이는 모든 것이 이중화되어 있다는 것입니다. 변전소, 변전소의 전기 공급선, 변압기, 백업발전기, UPS, 그리고 UPS에서 서버랙으로 연결되는 전선까지도 모든 것이 다 이중화되어 있습니다. 인터넷 백본망도 최소 이중화되어서 들어옵니다. 전기는 데이터센터를 구성하는데 워낙 중요한 요소이기 때문에 한 곳에서 이슈가 발생하더라도 IT설비와 공조 설비에 반드시 안정적으로 제공되어야 하죠.

데이터 센터에 왜 UPS가 필요한가요?

서비스가 잘 운영되기 위해서는 데이터센터에 있는 IT 장비들이 24시간 장애 없이 가동되어야 합니다. IT 장비들은 습기나 온도에 민감해서 쿨링 시스템을 이용해 적정 상태를 유지하는 것도 필수적인데요. 만약 전력이 잠시라도 끊기게 되면 매우 치명적이겠죠.

그래서 데이터센터에는 정전이 발생하더라도 전력 공급이 중단되지 않도록 전기 시스템을 운영합니다. 첫 번째는 예비 발전기이고, 두 번째는 UPS입니다. 전기가 끊어지면 예비 발전기로 넘어가야 하는데, 이 과정이 적게는 30초에서 길게는 5분까지도 걸립니다.

아무리 짧은 순간이라도 전기가 끊어지면 안되기 때문에 이 빈 시간을 채워줄 장치가 필요하고, 그것이 바로 UPS입니다. 쉽게 말해서 배터리에 전기를 충전시켜 두는 것인데요. 예전에는 납축전지를 주로 사용했다면 요즘은 리튬 이온 배터리가 많이 사용되고 있습니다. 핸드폰 배터리나 전기차에도 사용되는 리튬 이온 배터리는 관리를 잘하지 않으면 자칫 폭발로 이어질 수 있습니다. 그래서 모든 데이터센터에서 가장 신경쓰는 부분이기도 합니다. ​​​​​​

UPS

데이터 센터에 불이 나면 잘 안 꺼진다던데?

데이터센터에는 전기 장치가 많기 때문에 특별한 소화 시스템을 가지고 있습니다. 화재가 발생하면 스프링 쿨러에서 가스(하론 가스, Halon)가 나와 산소를 차단해서 불을 끄도록 되어 있습니다. 하론 가스는 주변의 산소 농도를 낮추는 기능이 있습니다.

가스가 다 소진되어도 진화가 되지 않는다면, 물을 뿌려야 하는데요. 그 전에 먼저 전체 전원을 차단해야하는 것은 당연지사죠. 전기로 가득찬 공간에 물이 흐르면 감전 위험도 있고, 장비들은 다 망가지게 될 테니까요.

전기차는 많은 장점이 있지만 불이 나면 쉽게 꺼지지 않는다는 이야기, 들어보셨을 텐데요. 바로 리튬 이온 배터리 때문입니다. 데이터센터 UPS에도 리튬 이온 배터리가 사용되는 추세라고 설명드렸죠. 리튬 이온 배터리에 불이 나면 폭발로도 이어지기 쉬운데, ABC 분말 소화기와 같은 일반 소화 약품으로는 진화하기 어렵습니다. 산소 공급 차단을 위해 하론 가스를 1차적으로 사용하고, 전원차단 후 물을 사용해 진화하는 것이죠. 

데이터 센터 DR이 무엇인가요?

DR은 재해 복구(Disaster Recovery)를 뜻합니다. 지진, 태풍, 홍수 같은 천재지변부터 전쟁, 해킹, 갑작스러운 시스템 오류 등 예상치 못한 재해 속에서도 서비스가 계속 운영될 수 있도록 하는 것인데요. 갑작스런 상황에서도 빠르게 대응하려면 DR 센터를 제대로 구축하는 것이 중요합니다.

데이터센터는 빌딩이기 때문에 안정적인 이중화를 위해선 멀리 떨어져 있어야 재해방지가 가능하겠죠? 그래서 평소 운영하는 데이터센터와 백업 데이터 인프라를 지닌 DR 센터는 물리적으로 최소 15km 정도는 떨어져 이원화 시켜야 합니다. 같은 재해의 영향을 동시에 받지 않도록 하기 위해서죠.

그리고 정말 중요한 서비스나 데이터의 경우 이중화를 넘어 데이터센터를 여러개 쓰기도 합니다. AWS는 서울에 4개의 데이터센터를 쓰고 있다고 하죠.

IT 안정성을 위한 시작과 끝은 모두 이중화입니다. 빌딩도, 운영자도, 빌딩을 관리하는 기업도 하나도 빠짐없이 다 이중화가 되어야 안정성을 보장할 수 있습니다.

이렇게 DR 센터를 잘 구축했다면, 효과적으로 잘 사용하기 위해 DR 시스템도 잘 만들어야겠죠. DR 시스템은 크게 4가지 종류로 나누어 볼 수 있습니다.

  • 미러 사이트  메인 시스템과 동일 환경 구축 + 동기화
    -> 복구 목표 시간(RTO)이 분 단위로 짧음
  • 핫 사이트  메인 시스템과 동일 환경 구축 + 평소에는 대기 상태로 운영
  • 웜 사이트  중요성이 높은 데이터만 부분 저장
  • 쿨 사이트  단순 데이터 저장 → 주로 보완책으로 사용

데이터 이원화 vs 시스템 이원화, 어떻게 다른가요?

이원화는 ‘백업’이라고 이해하시면 쉬운데요. 데이터 이원화는 다른 서버나 다른 데이터센터에 데이터를 복제해 저장해 두는 것을 말합니다. 혹시 데이터가 날아가더라도 언제든 복구할 수 있도록 말이죠.

시스템 이원화는 시스템에서 장애가 발생하더라도 서비스가 중단되지 않도록 두 개 이상의 시스템을 이용하는 것입니다. 시스템 이원화는 다음과 같은 장점이 있습니다.

  • 방재
  • 페일오버: 예비 시스템으로 자동 전환
  • 다운타임 감소
  • 성능 향상
  • 로드 밸런싱(부하 분산)

아무리 데이터 이원화를 잘 해두어도 데이터만으로는 서비스가 운영될 수 없습니다. 따라서 안정적으로 서비스를 운영하기 위해서는 데이터 이원화와 시스템 이원화가 모두 꼭 필요한데요. 흔히 2차, 3차 백업을 진행해 둡니다. 많으면 4차 백업까지 진행하기도 하죠.

참고로 클라우드 환경에서의 시스템 이원화가 온프레미스 데이터센터에서의 시스템 이원화보다 더 간편하고 효율적이라고 하네요.

이원화된 시스템은 어떻게 운영하나요?

이원화된 시스템은 다음의 두 가지 형태로 구분할 수 있습니다.

액티브(Active)-액티브(Active)
두 시스템이 모두 활성화 상태이기 때문에 실시간으로 동기화됩니다. 한 쪽에서 장애가 발생하더라도 다운타임 없이 다른 쪽에서 바로 처리할 수 있습니다.

액티브(Active)-스탠바이(Standby) 
하나는 상시로 활용하고 나머지 시스템은 대기 상태로 두었다가 장애가 발생하면 대체하는 방식입니다. ‘스탠바이’는 활성 상태가 아니었기 때문에 데이터 동기화가 필요하거나 다운타임 동안 발생한 데이터는 소실될 우려가 있습니다.

넷플릭스 등 1억 명, 10억 명 이상 사용하는 글로벌 서비스는 어떻게 중단없는 서비스가 가능할까요?

넷플릭스와 같은 글로벌 서비스 기업, 공공 기간 사업자들도 IT 인프라에 많은 투자를 하고 있는데요. 그 규모는 무려 수 조원에 달할 정도입니다.

넷플릭스는 AWS를 이용하는데 국내 통신망에도 자주 시청하는 콘텐츠를 새벽 시간대에 미리 저장해 두는 일종의 캐시 서버인 ‘오픈 커넥트’를 구축해 시스템을 이원화했습니다. 장애가 발생하더라도 안정적으로 스트리밍을 제공할 수 있는 이유입니다. 또한 AWS 클라우드에서는 장애가 발생했을 때를 대비해 ‘리전 이중화’ 서비스를 제공하기도 합니다. 가용 영역을 넘어 저 멀리에 있는 다른 리전에 백업해 두는 것이죠.

넷플릭스

인도의 첸나이 공항은 첸나이를 비롯해 전국에 있는 9개 공항의 IT 인프라를 지원하는 데이터센터를 운영하고 있었는데요. 몇 년 전, 폭우로 인해 데이터센터가 물에 잠기는 사태가 벌어졌습니다. 하지만 콜카타 지역에 이원화된 시스템을 가지고 있었기 때문에 15분 만에 대부분의 공항이 온라인 상태로 돌아갈 수 있었다고 합니다. 활주로가 침수되긴 했지만 네트워크까지 중단되는 일은 일어나지 않은 것이죠.

자, 지금까지 물리적인 이중화에 대해서 이야기 해 보았는데요. 그럼 실질적인 운영은 어떨까요? 재난상황에서 서비스가 문제 없이 운영되려면 서비스의 아키텍처도 이중화되어 차질 없이 구축되고 운영되어야 합니다. 여기서부터는 데이터센터 사용자의 몫입니다. AWS가 서울에 4곳의 가용영역을 운영하고 있지만, 이것을 사용하고 안하고의 결정은 사용자의 몫인 거죠.

현재 국내 서비스 제공자가 이중화 할 수 있는 모든 조건이 갖추어져 있습니다. 전국에 수 많은 데이터센터들이 있고, 운영하는 기업도 수십 곳입니다. 적합한 곳으로 잘 빌려서 쓴다면 DR을 구축할 수 있는 것이죠. 해외 기업들 역시 데이터센터를 빌려쓰는 것이 매우 자연스러운 일입니다. 자체 데이터센터를 사용하는 기업도 빌려쓰는 것을 병행합니다. 중요한 것은 데이터센터 이중화니까요.

클라우드나 SaaS와 관련하여 다른 궁금한 점이 있으시면 언제든지 저희에게 문의해 주세요.

 OpsNow에 문의하기

 

본 내용은 베스픽 뉴스레터를 통해서 제공되는 내용입니다.

클라우드에 대한 최신 트렌드 정보가 필요하시면 뉴스레터를 구독해 주세요.