Hoe kun je downtime voorkomen? 6 tips

In het moderne digitale tijdperk hebben bedrijven steeds meer behoefte aan een betrouwbare en solide IT-omgeving. Het zoveel mogelijk voorkomen of op zijn minst tot een minimum beperken van downtime is dan ook een absolute topprioriteit voor de meeste moderne organisaties. Waarom is downtime uiteindelijk zo schadelijk voor een bedrijf? Wat zijn veelvoorkomende oorzaken voor het probleem? En welke mogelijkheden zijn voorhanden om downtime zoveel mogelijk uit te bannen? In dit blogartikel leggen we het haarfijn uit.

Waarom is downtime zo schadelijk voor je organisatie?

In een samenleving zoals de onze, waarin burgers, bedrijven, overheden en non-gouvernementele organisaties (ngo’s) allemaal in sterke mate afhankelijk zijn van soepel functionerende IT-omgevingen, is downtime een zeer onwelkom en potentieel systeemontwrichtend fenomeen. Tijd om een blik te werpen op de belangrijkste problemen die gepaard gaan met downtime.

  • Downtime is een van de belangrijkste veroorzakers van gegevensverlies. Defecte harde schijven vormen bijvoorbeeld nog steeds de hoofdoorzaak voor het verliezen van data, zo blijkt uit een wereldwijd onderzoek. Maar ook de voortschrijdende virtualisatie heeft een keerzijde: het is gemakkelijker dan ooit om onbedoeld en met een paar muisklikken drives en bestanden te wissen.
  • Downtime leidt tot stilstand. Het doorvoeren van nieuwe en kansrijke toepassingen binnen uw IT-infrastructuur loopt vertraging op. Hetzelfde geldt voor zaken als het optimaliseren of gebruiksklaar maken van klantvriendelijke applicaties en technieken.
  • Downtime kost geld. Data recovery is bijvoorbeeld een kostbaar proces dat op financieel vlak flink in de papieren kan lopen. Daarnaast bent u veel tijd kwijt aan het afhandelen van klachten als uw IT-infrastructuur er om de haverklap uit ligt.

Lifeline Server

Oorzaken voor downtime

Er zijn in de praktijk diverse oorzaken die ten grondslag kunnen liggen aan downtime. Hieronder vindt u een overzicht van de vaakst voorkomende problemen.

  • Defecte harde schijven zijn binnen on-premisesomgevingen nog altijd een veelvoorkomend probleem.
  • Verkeerde of ontoereikende hosting kan ook leiden tot het veelvuldig optreden van downtime. Als u bijvoorbeeld een zware website laat draaien op een structuur die uitgaat van shared hosting, neemt de kans op downtime significant toe. U deelt de resources en servercapaciteit immers met andere gebruikers. Als u hoge eisen stelt aan de webhosting van uw website is een VPS (Virtual Private Server) een betere en meer betrouwbare hostingoptie. Wel duurder, maar ook veiliger.
  • Menselijke fouten kunnen downtime veroorzaken. Denk bijvoorbeeld aan zaken als een op het eerste gezicht triviale codewijziging, een systeem dat offline wordt gehaald, een kapitale tikfout of een DNS-entry die niet op de juiste manier wordt geüpdatet.
  • Ook versleten, defecte of verouderde apparatuur kan de oorzaak van veel downtime-ellende zijn. Computers, harde schijven en servers hebben nu eenmaal niet het eeuwige leven. Een grootschalige storing die in 2010 de Europese tak van e-commercegigant Amazon trof, werd bijvoorbeeld veroorzaakt door een hardwaredefect in een Amazon-datacenter.
  • Ook hacks zijn vandaag de dag een serieuze bedreiging voor de IT-continuïteit van bedrijven, vooral ook omdat de cybercriminelen hun werkwijzen constant verfijnen. De DDoS-aanval is bijvoorbeeld een beproefd middel dat al heel wat bedrijven heeft opgezadeld met veel downtime en de bijbehorende kosten of reputatieschade. Een DDoS-aanval bestookt een server met requests. De requests komen gelijktijdig en herhaaldelijk vanaf meerdere locaties binnen, waardoor de aangevallen webservers overbelast raken en een site uiteindelijk op zwart gaat.

Hoe voorkom je downtime en beperk je de risico’s?

Gelukkig zijn er wel verschillende manieren en tools om downtime te beperken, terwijl het ook mogelijk is om de risico’s in te dammen die gepaard gaan met downtime. Hieronder vindt u een overzicht van de belangrijkste aanbevelingen, tips en tricks.

1. Risico’s in kaart brengen

Het voorkomen van downtime begint met het in kaart brengen van de risico’s hierop. Hierbij zal allereerst gekeken moeten worden naar de impact van en de kans op een calamiteit. Het is verstandig om daarbij het vizier niet louter op de financiële schade te richten, maar ook rekening te houden met factoren als eventuele reputatieschade, productieverlies van de medewerkers of andere belanghebbenden, mogelijke juridische gevolgen en het effect op de strategische doelstellingen van uw organisatie. Een globale risicoanalyse helpt u ook om te bepalen of er binnen de IT-structuur en organisatie sprake is van een Single Point of Failure (SPOF) of meerdere risicofactoren.

2. Recovery Time Objective (RTO) en Recovery Point Objective (RPO)

Recovery Time Objective (RTO) en Recovery Point Objective (RPO) zijn twee sleutelbegrippen bij het bepalen van de IT-continuïteit binnen een organisatie. RTO is een tijdseenheid die in het geval van downtime aangeeft hoe lang het duurt voordat de IT-omgeving met de desbetreffende applicatie weer volledig functioneert. Een RTO van drie uur garandeert bijvoorbeeld dat een applicatie of website in het meest extreme geval hooguit drie uur offline is.

RPO richt zich vooral op de impact die een bepaalde periode van downtime op de IT-continuïteit van een organisatie heeft. Uitgangspunt is de hoeveelheid informatie die door het incident verloren gaat. Voor het weergeven van de RPO worden ook tijdseenheden gebruikt. Een RPO van vier uur houdt in dat in het ongunstigste geval alleen de gegevens die verwerkt werden in de laatste vier uur voorafgaand aan het moment van uitval verloren gaan. Alle data die voor dat moment verwerkt werden, blijven behouden.

Het opstellen en bewaken van een RTO en RPO maakt het gemakkelijker om het belang van continue beschikbaarheid voor uw organisatie goed in te schatten. De twee begrippen richten zich niet zozeer op de technische oplossingen tegen downtime, maar beantwoorden vooral een cruciale praktische vraag: “Hoeveel productiedagen of -uren mogen er verloren gaan voordat de bedrijfscontinuïteit serieus in het gedrang komt?” Door de RTO en RPO te meten, weet u of de bestaande risico’s voor uw bedrijfsvoering acceptabel zijn of dat er maatregelen genomen moeten worden om de schadelijke gevolgen van downtime verder te beperken.

3. Welke onderdelen zijn gevoelig voor downtime?

Om downtime zoveel mogelijk te voorkomen en de gevolgen ervan binnen de perken te houden, is het ook belangrijk om de diverse onderdelen van het IT-netwerk goed tegen het licht te houden. Welke onderdelen zijn extra gevoelig voor downtime? In de praktijk hebben problemen met downtime vooral betrekking op de serverruimte of storage.

Een goed medicijn tegen downtime is het ‘dubbel uitvoeren’ van IT-omgevingen. Door IT-onderdelen als switches, servers en internetverbindingen dubbel uit te voeren, wordt voorkomen dat defecten uitmonden in calamiteiten die een lange downtime teweegbrengen. Door regelmatig back-ups (offsite en/of colocatie met offsite en uitwijk) uit te voeren, scherpt u ook uw databescherming aan en wordt de kans kleiner dat belangrijke gegevens verloren gaan of op straat belanden.

4. Cloud-first en thuiswerken

U kunt de gevolgen van downtime ook beperken door een on-premises netwerk helemaal of gedeeltelijk te verruilen voor de cloud. Problemen met het IT-netwerk binnen de kantoormuren hebben zo minder gevolgen voor de IT-continuïteit dan wanneer u volledig op on-premises bent ingesteld. De cloud geeft medewerkers namelijk ook thuis gewoon toegang tot belangrijke data en documenten, terwijl de kans op gegevensverlies ook afneemt.

De bekende 3-2-1-regel is een extra slot op de deur tegen dataverlies als u toch getroffen wordt door langdurige downtime. Bewaar om risico’s te spreiden altijd drie back-ups van uw belangrijke gegevens. Sla deze back-ups vervolgens op twee verschillende media op, bijvoorbeeld op een computer en een externe harde schijf. En bewaar de back-ups tot slot altijd op minimaal één andere locatie dan de plek waar uw productiedata zich bevindt. Denk bijvoorbeeld aan een cloudaanbieder of een remote-locatie.

5. Vooruitwerken en processen vastleggen

Het is ook belangrijk dat mensen binnen uw organisatie goed weten wat de gevolgen zijn van downtime, systeemstoringen, dataverlies of haperende CRM- en betalingssystemen. Door belangrijke processen vast te leggen en ervoor te zorgen dat iedere medewerker de contactgegevens van uw hoster, IT-reseller en supportservice heeft, kunt u bij downtime kostbare tijd besparen en de schade aanzienlijk beperken in het geval van dataverlies.

6. Instant recovery en Zero Downtime Backup bij downtime

Instant recovery houdt in dat een virtuele machine de productieomgeving overneemt als er sprake is van langdurige downtime. IT-providers gebruiken hiervoor een back-upbestand dat de virtuele machine direct terugzet naar de productieomgeving. Door deze techniek hoeft u niet langer uren of zelfs dagen te wachten voordat u de draad weer kunt oppakken.

In het geval van Zero Downtime Backup (ZDB) wordt een kopie of replica (split mirror of snapshot) van de data gecreëerd of onderhouden op een disk-array. Dit gebeurt razendsnel en heeft weinig of geen impact op de snelheid van een applicatie. De replica of kopie fungeert als een back-up die direct kan worden ingezet in het geval van downtime.

Conclusie: een strategische aanpak beperkt de gevolgen van downtime

Downtime is voor bedrijven een potentieel disruptief fenomeen. Door het nemen van de juiste maatregelen kunt u de kans op en de gevolgen van downtime serieus beperken, zodat de bedrijfscontinuïteit toch gewaarborgd blijft. Begin met het maken van een risicoanalyse. Wat zijn de belangrijkste risicofactoren binnen het IT-netwerk? En hoe zit het met mijn RPO- en RTO-waarden? Door vervolgens maatregelen zoals cloud-first, het maken van goede back-ups en het vastleggen van processen toe te passen, beperkt u de gevolgen van downtime verder.

Wilt u meer informatie over hoe u downtime tot een minimum beperkt en de IT-continuïteit van uw organisatie waarborgt? Neem dan gerust contact met ons op of download onze whitepaper over een bedrijfskritische IT-omgeving. De specialisten van ACC ICT zijn 24/7 bereikbaar om al uw prangende vragen te beantwoorden.