5-8 minut

Jak georedundancja zabezpiecza ciągłość biznesu?

Katastrofy naturalne stanowią istotne zagrożenie dla ciągłości biznesowej firm. Autorzy raportu „Allianz Risk Barometer 2022”1 informują o przekroczeniu w 2021 wartości ponad 100 miliardów dolarów strat spowodowanych powodziami, pożarami, porywistymi wiatrami oraz działaniem innych sił natury. Na skutki oddziaływania żywiołów narażone są także systemy informatyczne i aplikacje o krytycznym znaczeniu. Zabezpieczenie przed katastrofami, mającymi miejsce na pewnym obszarze geograficznym zapewnia georedundancja, czyli posiadanie zapasowego centrum danych, znajdującego się w innej lokalizacji. W artykule opiszemy w jaki sposób może być realizowana redundancja geograficzna.

Z TEGO ARTYKUŁU DOWIESZ SIĘ:

  1. JAK WAŻNA JEST CIĄGŁOŚĆ DOSTĘPU DO DANYCH I NIEZAWODNOŚĆ SYSTEMÓW IT DLA BIZNESU WEDŁUG BADAŃ I RAPORTU VEEAM „2022 DATA PROTECTION TRENDS”?
  2. JAKIE RODZAJE REDUNDANCJI SĄ DOSTĘPNE?
  3. W JAKI SPOSÓB REALIZOWANA JEST REDUNDANCJA GEOGRAFICZNA?
  4. JAKIE SĄ ZALETY ROZWIĄZANIA METROCLUSTER?
  5. JAK W POLSCE MOŻNA SKORZYSTAĆ Z USŁUG GEOREDUNDANCJI?

Raport Veeam „2022 Data Protection Trends”2 informuje o wynikach badania przeprowadzonego wśród ponad 3000 dużych przedsiębiorstw z całego świata. Pytania ankietowe dotyczyły m.in. reagowania na przerwy w świadczeniu usług przez IT. Zdaniem respondentów dopuszczalna tolerancja utraty informacji utworzonych przez biznes (dokumentów, zapisów w systemach, itd.) dla 55% danych o „wysokim priorytecie” i dla 49% o priorytecie „normalnym” wynosi maksymalnie jedną godzinę. Oznacza to, że nie ma dużej różnicy ze względu na istotność danych i wszystkie informacje utworzone przez biznes mają dla niego duże znaczenie. Kolejny wniosek, jaki możemy wysnuć z tego badania dotyczy poziomu zabezpieczeń. Tradycyjne odtwarzanie danych z kopii zapasowych będzie zwykle rozwiązaniem niewystarczającym, ponieważ typowy backup nie jest wykonywany z częstotliwością mniejszą niż jedna godzina. Proces przywracania danych może być także długotrwały. Tymczasem, oczekiwania biznesu dotyczące czasu odtworzenia informacji utraconych w wyniku awarii są znacznie wyższe. Aby spełnić te wyśrubowane wymagania zabezpieczanie danych musi być zatem oparte o systemem tworzenia szybkich kopii migawkowych lub o ciągłą replikację.

Wyniki badania mówią także, że przestój o czasie co najwyżej do jednej godziny dopuszcza 56% przedsiębiorstw w przypadku systemów o wysokim priorytecie i 50% dla pozostałych systemów. Oczekiwania dotyczące ciągłości biznesowej są zatem także bardzo wysokie. Badania pokazują, że przeciętna awaria trwa 78 minut i jednocześnie 40% serwerów odnotowuje w całym roku przynajmniej jeden przypadek awarii zaskakującej biznes. Ankietowani menedżerowie IT szacują średnie koszty przestoju na 1467 USD za minutę, czyli 88 tys. USD za godzinę.

Rodzaje redundancji

Redundancję geograficzną można zrealizować w modelu Disaster Recovery (Active-Standby) albo w scenariuszu rozproszonym  stosując architekturę Active-Active. W przypadku odzyskiwania po awarii (DR) lokalizacja zapasowa utrzymywana jest w stanie gotowości, w którym nie obsługuje ruchu użytkowników. Zostaje ona aktywowana dopiero wówczas, gdy lokalizacja podstawowa ulegnie awarii lub jest niedostępna. Rozwiązanie to wymaga cyklicznej synchronizacji danych, co oznacza, że w przypadku awarii część bieżących informacji może nie zostać na czas przekazana do lokalizacji zapasowej. Z kolei, w scenariuszu rozproszonym klienci mają stały dostęp do wszystkich, działających współbieżnie Data Center, obsługujących systemy klienta. Zapewnia to bardziej efektywne wykorzystanie zasobów, ale synchronizacja danych jest procesem bardziej skomplikowanym. Dane z uzupełniających się lokalizacji muszą się wzajemnie replikować w sposób ciągły. Aby uniknąć problemów ze spójnością danych, sesje klienta muszą być przypisanej do konkretnego serwera, podobnie jak w opisanym wcześniej scenariuszu Active-Standby. W tym przypadku, jeżeli nastąpi awaria, odzyskiwanie sprawności jest także bardziej skomplikowane, ze względu na konieczność synchronizacji danych z wielu lokacji.

Rozróżnia się dwa rodzaje przywracania sprawności po awarii. Pierwszym z nich jest odzyskanie jej w sposób automatyczny, w którym oprogramowanie sterujące wykrywa awarię, a następnie samodzielnie przełącza wszystkie firmowe serwisy do sprawnego ośrodka (Automated Failover). W drugim przypadku przełączenie wymaga interwencji i działań administratorów (Manual). Rozróżnia się także przypadki, w których następuje całkowite lub częściowe przełączenie (Partial Failover).

Możliwe realizacje redundancji geograficznej

Najprostszym rozwiązaniem zabezpieczającym przed całkowitą utratą danych oraz utratą ciągłości biznesowej w przypadku katastrofy DC jest replikacja backupu do zewnętrznej lokalizacji. Bazuje ono na usłudze tworzenia i odtworzenia kopii zapasowej serwerów fizycznych lub maszyn wirtualnych. W rozwiązaniu tym jedna z kopii przechowana jest w alternatywnej lokalizacji w stosunku do bieżącego Centrum Danych przedsiębiorstwa. Posiadając backup danych w zapasowej lokalizacji całą infrastrukturę można relatywnie szybko odtworzyć z wykorzystaniem wypożyczonych serwerów, zanim firma wdroży infrastrukturę docelową po awarii.

Inną, efektywną metodą zabezpieczenia ciągłości biznesowej jest realizacja centrum zapasowego w architekturze Private Cloud z zasobami w kilku centrach danych, wraz z hiperkonwergentą infrastrukturą VMware vSAN. Rozwiązanie hiperkonwergentne oznacza połączenie serwera, macierzy i sieci Storage Area Network (SAN) w jednolitej, zintegrowanej architekturze „out of the box”. Jej  zaletą jest relatywnie łatwa rozbudowa poprzez dodawanie zasobów i szybkie wdrożenie. Pozwala ono na rozdzielenie całej infrastruktury IT przedsiębiorstwa na 2 lub więcej Data Center.

Storage MetroCluster

Jedną z najbardziej zaawansowanych metod georedundancji jest MetroCluster. Usługa ta polega na udostępnianiu replikowanej dwukierunkowo przestrzeni dyskowej dla danych z dwóch ośrodków jednocześnie. Zadaniem MetroCluster jest odwzorowanie logicznej macierzy dyskowej w ośrodkach leżących w różnych lokalizacjach. MetroCluster eliminuje konieczność planowanych przestojów związanych z konserwacją, gdyż w takim przypadku całość działań przejmowana jest przez drugą lokalizację. Wszelkie niezbędne aktualizacje macierzy i oprogramowania nie mają wpływu na dostępność danych. Replikacja jest też niezależna od aplikacji oraz systemu operacyjnego hosta. Do wad należy niestety dość wysoki koszt tego rozwiązania.

W przypadku realizacji opcji Active-Standby architektury zapewniającej ciągłość działania, część zasobów podczas normalnej pracy nie jest wykorzystywana. Jeden z ośrodków pełni rolę wiodącą i jego dane replikowane są do drugiej, zapasowej lokalizacji.  W architekturze tej parametr RPO (Recovery Point Objective) oznaczający maksymalną tolerancję utraty danych osiąga najlepszą możliwą wartość czyli 0, z kolei czas wymagany do przywrócenia procesu biznesowego RTO (Recovery Time Objective) jest bliski zeru.  

Natomiast w opcji Active-Active obydwa Data Center są równorzędne. Żaden z nich nie pełni roli wiodącej. W tej wersji architektury obydwa Centra Danych są jednakowo obciążone, co pozwala lepiej wykorzystywać posiadane zasoby w przypadku pracy bezawaryjnej. Awaria macierzy w jednym z Centrów Danych powinna pozostać dla użytkowników niezauważalna – obydwa parametry tzn. RPO i RTO wynoszą zero.

Georedundancja w praktyce

Przykładem rozwiązania, w którym infrastruktura może być podzielona między dwa Data Center jest architektura realizowana przez T-Mobile. Operator ten  posiada obecnie już pięć lokalizacji, pomiędzy którymi może być realizowana usługa redundancji geograficznej w każdej z architektur omówionych w dalszej części artykułu. Od środowisk Disaster Recovery, po MetroCluster i zaawansowane rozwiązania Private Cloud vSAN, z monitoringiem poprzez serwery witness.

Obecnie T-Mobile posiada lokalizacje w Warszawie przy ul Pięknej oraz Szlacheckiej, w Krakowie, w Piasecznie i we Wrocławiu. Oddane do użytku w ubiegłym roku Centrum Przetwarzania Danych Szlachecka B w Warszawie spełnia normy ANSI/TIA 942. Wszystkie systemy tego Data Center wyposażone zostały zgodnie z wymogami standardu w elementy nadmiarowe (redundantne). Instalacje posiadają przynajmniej jedno urządzenie rezerwowe, które zastępuje je w przypadku wystąpienia awarii.  

Obiekt Szlachecka B zasilany jest za pomocą dwóch przyłączy średniego napięcia (15 kV) z czterech stacji transformatorowych o mocy 2500 kVA każda. Poziom bezpieczeństwa energetycznego został podniesiony poprzez zapewnienie układu 2N, czyli dwóch oddzielnych torów, z których każdy wspierany jest niezależnym systemem podtrzymywania zasilania UPS. Miesięczna dostępność usługi (MDU) gwarantowana jest na poziomie 99,99%, co oznacza w tej skali czasowej maksymalnie 5 minutowy brak dostępności infrastruktury. Obiekt ten może z powodzeniem pełnić rolę centrum zapasowego w architekturze Active-Active lub Active-Standby.

Podsumowanie

Przypomnijmy najważniejsze informacje dotyczące zapobieganiu ransomware:

  • Według raportu Veeam „2022 Data Protection Trends” dopuszczalna tolerancja utraty informacji utworzonych przez biznes (dokumentów, zapisów w systemach, itd.) dla 55% danych o „wysokim priorytecie” i dla 49% o priorytecie „normalnym” wynosi maksymalnie jedną godzinę
  • Badania Veeam pokazują, że przeciętna awaria trwa 78 minut. Ankietowani menedżerowie IT szacują średnie koszty przestoju na 1467 USD za minutę, czyli 88 tys. USD za godzinę
  • Redundancję geograficzną można zrealizować w modelu Disaster Recovery (Active-Standby) albo w scenariuszu rozproszonym stosując architekturę Active-Active
  • Najprostszym rozwiązaniem zabezpieczającym przed całkowitą utratą danych oraz utratą ciągłości biznesowej w przypadku katastrofy DC jest replikacja backupu do zewnętrznej lokalizacji
  • Efektywną metodą zabezpieczenia ciągłości biznesu jest realizacja centrum zapasowego w architekturze Private Cloud z zasobami w kilku centrach danych, wraz z hiperkonwergentą infrastrukturą VMware vSAN
  • MetroCluster polega na udostępnianiu replikowanej dwukierunkowo przestrzeni dyskowej dla danych z dwóch ośrodków jednocześnie. MetroCluster eliminuje konieczność planowanych przestojów związanych z konserwacją, gdyż całość działań przejmowana jest przez drugą lokalizację
  • T-Mobile w Polsce posiada obecnie już pięć lokalizacji, pomiędzy którymi może być realizowana usługa redundancji geograficznej

1 https://www.agcs.allianz.com/content/dam/onemarketing/agcs/agcs/reports/Allianz-Risk-Barometer-2022.pdf

2 https://go.veeam.com/wp-data-protection-trends-2022?ad=homepage

Private Cloud

Ten artykuł dotyczy produktu

Private Cloud

Przejdź do produktu

Data publikacji: 28.06.2022

Chcesz dostawać informacje o nowych wpisach?

Chcesz dostawać informacje o nowych wpisach?

Zostaw swój adres e-mail