Amarengo

Articles and news

Jak stworzyć it Resilience

×
  • Zapisz artykuł

    Zaloguj się, aby zapisać Zapisz się do WSJ

  • rozmiar tekstu Mały Średni Duży

    koncentrując się na obronie, wykrywaniu, usuwaniu, odzyskiwaniu, diagnozowaniu i udoskonalaniu, dyrektorzy IT mogą zmniejszyć wpływ kosztownych przerw w świadczeniu usług.

    w 2012 r.znany dostawca usług przesyłania strumieniowego wideo doświadczył ośmiogodzinnej przerwy w świadczeniu usług, dotykając około 20 milionów użytkowników. Przez sześć dni w 2011 roku strona internetowa globalnego banku doświadczyła serii spowolnień i przestojów, co utrudnia, jeśli nie uniemożliwia, 29 milionom klientów dokonywanie transakcji online. W tym samym roku awaria przełącznika u producenta telefonów komórkowych spowodowała globalną awarię sieci, która uniemożliwiła milionom użytkowników wysyłanie lub odbieranie wiadomości e-mail.1

    takie przerwy w świadczeniu usług są rzadko spotykane. W rzeczywistości większość zakłóceń IT dotyczy systemów wewnętrznych (nie będących klientami) i nigdy nie trafia na nagłówki gazet, chociaż mogą one być nie mniej kosztowne. Jedno z badań przeprowadzonych wśród 200 organizacji w Ameryce Północnej szacuje, że przeciętna firma traci 425 godzin pracy pracowników rocznie z powodu przestojów IT.

    potencjalny wpływ na wyniki finansowe? Badanie kosztów przestojów przeprowadzone przez Ponemon Institute szacuje, że średni koszt przestoju centrum danych w różnych branżach wynosi około 5600 USD za minutę. Co więcej, średni raportowany incydent trwa 90 minut, co oznacza, że średni koszt incydentu wynosi około 505 500 USD.

    według Richarda Clarka, dyrektora Deloitte Consulting LLP, takie oszałamiające koszty mogą nie być trwałe, nawet w najsilniejszych organizacjach. „Biznes zmienił się w ciągu ostatnich 20 lat, a marże są teraz cienkie”, mówi. „Gdy systemy ulegną awarii i usługi zostaną zakłócone, duże organizacje mogą stracić miliony dolarów w ciągu kilku minut. Wyzwaniem, przed którym stoją CIO, jest znalezienie niedrogiego sposobu na utrzymanie istniejących usług online—innymi słowy, potrzebują skutecznych strategii, aby uczynić je odpornymi.”

    sześć imperatywów odporności IT

    po prostu zdefiniowana odporność IT to zdolność organizacji do utrzymania akceptowalnego poziomu usług, bez względu na pojawiające się wyzwania. Ponieważ tak wiele rzeczy może powodować zakłócenia usług —między innymi awarie sprzętu, klęski żywiołowe, złośliwe ataki i błędy operatora—tworzenie skutecznych planów odzyskiwania po awarii (DR) i ciągłości działania (BC) w celu usunięcia luk w zabezpieczeniach może być zniechęcające. Tak zniechęcające, że według jednego z szacunków, 56 procent firm z Ameryki Północnej nie ma formalnej i kompleksowej polityki odzyskiwania po awarii.

    „niektórzy cio i ich zespoły IT przetwarzają plany, które mogli wykorzystać w innej firmie lub używają szablonu boilerplate”, mówi Tyson Thedinger, menedżer w Deloitte Consulting LLP. „Zazwyczaj nie poświęcają czasu na kompleksowe myślenie o Odporności i o tym, jak ją osiągnąć. W rezultacie ich podejścia są często niespójne lub doraźne.”

    w 2010 r.naukowcy z uniwersytetów w USA, WIELKIEJ BRYTANII i Niemczech opublikowali artykuł, w którym zaproponowali wieloetapowe ramy, aby sprostać tym wyzwaniom. Ramy te mogą pomóc Dyrektorom ds. informatyki w bardziej przemyślany, metodyczny i konstruktywny sposób.

    „ich podejście może poprowadzić cio i ich zespoły IT przez proces tworzenia skutecznej strategii odporności”, mówi Thedinger. „Może być stosowany w różnych komponentach IT, od sieci po centra danych po aplikacje, aby pomóc położyć podwaliny potrzebne do usunięcia luk w istniejących planach BC i DR.”

    proponowane ramy koncentrują się na sześciu podstawowych imperatywach odporności IT:

    Defend: Według Clarka, w kontekście odporności systemów informatycznych obrona oznacza coś więcej niż tylko ich zabezpieczenie. Oznacza to również podjęcie kroków, które mogą zmniejszyć prawdopodobieństwo awarii systemu. Mogą one obejmować serwery równoważenia obciążenia, aby zapobiec przeciążeniu lub zapewnienie nadmiarowych systemów, które mogą zapobiec pojedynczym punktom awarii. „Cio mogą rozpocząć ten proces, identyfikując luki w systemach o znaczeniu krytycznym – takich jak bazy danych lub serwery kontroli procesów—i usuwając te pierwsze”, mówi Clark. „Luki w systemach niekrytycznych, takich jak poczta e-mail lub inne programy biurowe, można rozwiązać w zakresie, w jakim pozwala na to czas, budżet i zasoby.”

    Wykryj: im szybciej dowie się, że system upadł, tym szybciej będzie mógł rozwiązać problem. Niestety, niektóre organizacje nie mają skutecznych narzędzi lub procesów, aby ostrzegać IT o zakłóceniach usług. Według Thedingera, cio powinni rozważyć wdrożenie jednego z wielu dostępnych obecnie rozwiązań monitorujących. „Rozwiązania te mogą monitorować wydajność fizycznych serwerów oraz ich specyficzne aplikacje i usługi”, mówi. „Poza raportowaniem, jeśli System ulegnie awarii, mogą pomóc mu zrozumieć i rozwiązać problemy, zanim spowodują pełne zakłócenia.”

    „Dobry plan naprawczy może pomóc uniknąć kosztownych zakłóceń”, dodaje. „Na przykład skup się na tworzeniu procesów” fail-over ” w krytycznych systemach—jeśli serwer w Kalifornii zostanie wyłączony, serwer kopii zapasowych w Oregonie przejmuje niemal natychmiast. Ostatecznym celem planu naprawczego jest upewnienie się, że gdy systemy zawodzą, mogą nadal świadczyć podstawowe usługi”, mówi Clark.

    Odzyskiwanie: jeśli naprawa polega na utrzymaniu działania krytycznych usług podczas zakłóceń, odzyskiwanie koncentruje się na przywróceniu usług i operacji do poziomu sprzed zakłóceń. „Skuteczny plan naprawczy powinien umożliwić szybki powrót do stanu ustalonego i przygotowanie się na kolejne zakłócenia”, mówi Thedinger.

    diagnozowanie: diagnozowanie wyzwań i zakłóceń jest traktowane jako” tło ” lub proces ciągły. Niemniej jednak jest to ważny element metodyki odporności IT. „Diagnoza obejmuje wykonanie sekcji pośmiertnej, która może zidentyfikować główne przyczyny zakłóceń”, mówi Thedinger. „Co więcej, cio powinni okresowo przeprowadzać ten sam proces diagnostyczny w ramach ciągłego wysiłku, aby zrozumieć wyzwania systemowe, a nie tylko te, które powodują zakłócenia.”

    udoskonal: w ostatnim kroku cio i ich zespoły zbierają informacje zebrane z pośmiertnych i bieżących wysiłków diagnostycznych i wykorzystują je do ulepszania systemów i zwiększania odporności. Mówi Thedinger: „ten krok zamyka pętlę sprzężenia zwrotnego, która leży u podstaw struktury odporności, która może umożliwić ciągłe udoskonalanie planów DR i BC.”

    Duże rozłączenie

    metodyczna, ustrukturyzowana strategia odporności, która koncentruje się na tych sześciu imperatywach, może pomóc firmom skuteczniej planować zakłócenia usług IT. Jednak w miarę jak cio podejmują kroki w celu zapewnienia silniejszej odporności, wielu z nich prawdopodobnie natknie się na zbyt powszechny głaz na drodze, który może powstrzymać postęp, mówi Brad Mitchell, specjalista lider i kierownik projektu w Deloitte Consulting LLP.

    „dużym problemem w planowaniu odporności jest to, że często nie można nawet określić, które aplikacje są najbardziej krytyczne bez pomocy strony biznesowej”, mówi. „Obecnie wiele firm posiada bogatą ofertę systemów, aplikacji i procesów. Ma zarządzanie nad niektórymi, podczas gdy poszczególne jednostki biznesowe mogą posiadać inne. Wiele systemów mogło zostać odziedziczonych podczas przejęć i może nie wiedzieć, kim są właściciele aplikacji i jakie funkcje zapewnia aplikacja.”

    według Mitchella wynik netto jest taki, że wiele organizacji IT straciło zdolność do zrozumienia, jak długo systemy mogą być wyłączone, zanim ich strata zacznie negatywnie wpływać na biznes. Dla niektórych może to być kwestia sekund. Dla innych dni mogą minąć bez zauważalnego wpływu na wyniki finansowe. „Dopóki nie wykonasz szczegółowej analizy wpływu biznesowego portfela aplikacji organizacji, będzie ona tworzyć plany BC / DR w oparciu o niekompletne informacje, które mogą nie zaspokoić apetytu na ryzyko organizacji”, mówi.

    opracowując swoje strategie odporności, cio powinni rozważyć zaangażowanie decydentów w całym przedsiębiorstwie w celu przypisania własności do systemów i aplikacji. Następnie mogą współpracować w celu określenia poziomów ryzyka dla każdego z nich. „Jeśli grupa biznesowa chce, aby dana aplikacja działała przez cały czas, bez względu na wszystko, możesz obliczyć, ile może kosztować stworzenie maksymalnej odporności i uwzględnić te informacje w planach obrony, wykrywania, naprawy i naprawy”, mówi Mitchell, który ostrzega, że nic z tego prawdopodobnie nie nastąpi z dnia na dzień.

    „angażowanie strony biznesowej, a następnie tworzenie i realizacja planu może wymagać wieloletniego wysiłku”, mówi Mitchell. „Nawet wtedy ważne jest, aby stale przeglądać i aktualizować plan, ponieważ wdrażane są nowe systemy, inne są wycofywane, a strategie biznesowe ewoluują. Tworzenie odporności IT to podróż—nie ma szybkich poprawek.”

    1 „10 niszczycielskie przestoje i awarie głównych marek w 2011 r.” 1, 2012, Evolven.com

    Powiązane Treści:

    • Disaster Recovery: 10 lekcji z huraganu Sandy”

    Dodaj komentarz

    Twój adres e-mail nie zostanie opublikowany.