Gestão da disponibilidade: guia completo

A gestão da disponibilidade é a prática ITIL que garante que os serviços de TI estão operacionais quando o negócio precisa. Aprende a medir uptime, calcular métricas como MTBF e MTRS, identificar pontos únicos de falha e definir metas realistas nos SLAs.

📅 ITIL® v5 Foundation | Online, 3 dias | 20-22 Abril

📅 ITIL® v5 Bridge Foundation (para quem tem ITIL 4 Foundation) | 1 dia | 26 Março · 7 ou 14 de Maio

📅 ITIL 4 Service Desk | 1 dia | 9 Abril

📅 ITIL Monitoring and Event Management | 1 dia | 30 Abril

O que é a gestão da disponibilidade

Definição ITIL 4

"A gestão da disponibilidade é a prática ITIL que assegura que os serviços de TI entregam os níveis de disponibilidade acordados para satisfazer as necessidades do negócio."

A disponibilidade de um serviço é a sua capacidade de funcionar quando necessário. Um serviço disponível é aquele que os utilizadores conseguem aceder e usar conforme esperado, sem interrupções não planeadas.

No ITIL 4, a gestão da disponibilidade é uma prática de gestão de serviços que cobre todo o ciclo de vida da disponibilidade: desde a definição de requisitos com o negócio, passando pelo desenho de soluções resilientes, até à monitorização contínua e melhoria dos níveis de serviço.

Um dos princípios centrais da prática é o equilíbrio entre custo e disponibilidade. Atingir cinco 9s (99,999%) custa exponencialmente mais do que três 9s (99,9%). Cada nível de disponibilidade adicional exige redundância, automação de failover, processos de recuperação mais rigorosos e, consequentemente, investimentos muito mais elevados. A pergunta central não é "qual a disponibilidade máxima possível?" mas sim "qual a disponibilidade que o negócio realmente precisa e está disposto a pagar?"

A gestão da disponibilidade trabalha em estreita colaboração com outras práticas ITIL: a gestão de capacidade garante recursos suficientes para manter os serviços operacionais, a gestão de eventos deteta proativamente anomalias antes que causem indisponibilidade, e a gestão de continuidade de serviços de TI assegura a recuperação em situações de desastre.

Métricas de disponibilidade

A gestão da disponibilidade assenta em métricas concretas e mensuráveis. As quatro métricas fundamentais são:

Métrica Descrição Fórmula
Disponibilidade (%) Tempo que o serviço está operacional face ao tempo acordado de serviço (Tempo acordado - Downtime) / Tempo acordado × 100
MTBF Mean Time Between Failures - tempo médio entre falhas consecutivas Tempo total de uptime / Número de falhas
MTRS Mean Time to Restore Service - tempo médio para restaurar o serviço após uma falha Tempo total de downtime / Número de interrupções
MTBSI Mean Time Between Service Incidents - tempo entre o início de um incidente e o início do seguinte Tempo entre início de um incidente e início do próximo

A tabela dos nines

A disponibilidade é frequentemente expressa em "nines" - o número de noves consecutivos na percentagem. O impacto prático de cada nível é significativo:

Nível Percentagem Downtime por ano Downtime por mês
Dois 9s 99% 87,6 horas 7,3 horas
Três 9s 99,9% 8,77 horas 43,8 min
Quatro 9s 99,99% 52,6 min 4,4 min
Cinco 9s 99,999% 5,26 min 26,3 seg

Para contexto: passar de três para quatro 9s exige reduzir o downtime anual de 8,77 horas para 52,6 minutos. Esta diferença implica redundância activa-activa, failover automático em segundos e processos de recuperação altamente automatizados.

Actividades da gestão da disponibilidade

A prática de gestão da disponibilidade organiza-se em cinco actividades principais que formam um ciclo contínuo de planeamento, monitorização e melhoria.

1

Definir requisitos

Identificar as necessidades de disponibilidade do negócio para cada serviço. Traduzir estas necessidades em metas mensuráveis, distinguindo disponibilidade durante horas de serviço de disponibilidade total (24/7).

2

Planear

Desenhar soluções técnicas e processuais que garantam a disponibilidade necessária. Considerar redundância de componentes, failover automático, clustering e planos de recuperação de desastres.

3

Monitorizar

Medir a disponibilidade real continuamente e em tempo real. Comparar com os objectivos definidos nos SLAs. Alertar quando os limiares de disponibilidade são ameaçados antes de ocorrer uma falha completa.

4

Analisar

Investigar incidentes de indisponibilidade para compreender as causas. Identificar padrões e tendências. Realizar análise de causa raiz para evitar a repetição das falhas mais impactantes.

5

Melhorar

Implementar acções concretas para aumentar a disponibilidade. Rever planos e arquitecturas face a novos requisitos do negócio ou a novas vulnerabilidades identificadas.

Técnicas e abordagens

A gestão da disponibilidade recorre a técnicas específicas para analisar riscos, identificar fraquezas e desenhar soluções resilientes.

Técnicas fundamentais de gestão da disponibilidade

Análise de Impacto de Falha de Componente (CFIA)
Mapeia o impacto da falha de cada componente nos serviços que dependem dele. Identifica pontos únicos de falha (SPOFs) e prioriza onde investir em redundância.
Análise de Árvore de Falhas (FTA)
Técnica top-down que parte de um evento de indisponibilidade e identifica todas as causas possíveis usando lógica AND/OR. Permite calcular probabilidades de falha combinada.
Expanded Incident Lifecycle
Analisa o ciclo de vida completo de um incidente em fases: detecção, diagnóstico, reparação e restauração. Identifica em qual fase se perde mais tempo e onde intervir.
Redundância e resiliência
Duplicação de componentes críticos para eliminar SPOFs. Padrões principais: active-active (ambos respondem em simultâneo), active-passive (um em standby), N+1 (um componente extra de reserva).

Disponibilidade e SLAs

A disponibilidade é um dos componentes mais comuns e mais importantes dos acordos de nível de serviço (SLAs). Definir metas de disponibilidade nos SLAs exige cuidado e negociação informada entre a equipa de TI e o negócio.

Como definir metas realistas de disponibilidade

Ao negociar metas de disponibilidade num SLA, deve-se considerar os seguintes factores:

  • Janelas de manutenção: a manutenção planeada normalmente não conta como downtime se for comunicada com antecedência e realizada fora das horas de pico. É fundamental clarificar esta distinção no SLA.
  • Horário de serviço: disponibilidade de 99,9% durante o horário de negócio (por exemplo, das 8h às 20h, dias úteis) é muito diferente de 99,9% durante 24/7. O downtime admissível é muito maior no primeiro caso.
  • Criticidade do serviço: serviços críticos para operações de negócio em tempo real justificam investimento em quatro ou cinco 9s. Serviços internos de suporte podem funcionar bem com três 9s.

Custos de disponibilidade

Cada 9 adicional de disponibilidade duplica ou triplica o investimento necessário. A arquitectura, as ferramentas, os processos e as competências necessárias para atingir 99,99% são muito mais exigentes do que para 99,9%. A gestão da disponibilidade deve ajudar o negócio a tomar decisões informadas sobre este equilíbrio, apresentando os custos de cada nível de disponibilidade de forma transparente.

Para aprofundar o tema dos SLAs e como estruturar acordos de nível de serviço eficazes, consulta o nosso guia sobre gestão de SLAs.

Boas práticas

6 boas práticas para garantir a disponibilidade dos serviços

Eliminar pontos únicos de falha

SPOFs comprometem toda a cadeia de serviço quando falham. Usar a CFIA para os identificar e priorizar a sua mitigação com redundância ou mecanismos alternativos de recuperação.

Monitorização proactiva

Detectar degradação de desempenho e sinais de alerta antes da falha completa. A monitorização proactiva reduz o MTRS porque a equipa já está a investigar antes dos utilizadores reportarem o problema.

Metas realistas

99,999% não é necessário (nem viável) para todos os serviços. Definir metas adequadas à criticidade e ao custo de cada serviço. Metas irrealistas criam pressão, custos excessivos e frustração quando não são cumpridas.

Janelas de manutenção

Planear manutenção preventiva em períodos de baixo impacto para o negócio. Comunicar com antecedência. A manutenção planeada bem executada é um investimento em disponibilidade futura.

Testar a recuperação

Testar regularmente os processos de failover e disaster recovery em condições controladas. Um plano de recuperação que nunca foi testado não é confiável quando acontece uma falha real.

Documentar

Registar a arquitectura de serviço, as dependências entre componentes e os procedimentos de recuperação. A documentação actualizada reduz o tempo de diagnóstico e restauração quando ocorre uma falha.

Descarregue a template de relatório de disponibilidade

Modelo de relatório de disponibilidade com métricas e formato de apresentação.

Ver todas as templates ITSM

Perguntas frequentes

A gestão da disponibilidade é a prática ITIL que assegura que os serviços de TI entregam os níveis de disponibilidade acordados para satisfazer as necessidades do negócio. No ITIL 4, é uma prática de gestão de serviços que cobre desde a definição de requisitos de disponibilidade até à monitorização contínua, análise de incidentes e melhoria dos níveis de serviço.

MTBF significa Mean Time Between Failures, ou seja, o tempo médio entre falhas. Calcula-se dividindo o tempo total de uptime pelo número de falhas ocorridas num período. Por exemplo, se um serviço esteve activo 900 horas e sofreu 3 falhas, o MTBF é 300 horas. Quanto maior o MTBF, mais fiável é o serviço.

MTBF (Mean Time Between Failures) mede o tempo médio entre falhas e representa a fiabilidade do serviço. MTRS (Mean Time to Restore Service) mede o tempo médio para restaurar o serviço após uma falha e representa a capacidade de recuperação. Um serviço pode ter um MTBF alto (poucas falhas) mas um MTRS elevado (demorado a recuperar), pelo que ambas as métricas são importantes para avaliar a disponibilidade real.

Cinco 9s significa uma disponibilidade de 99,999%, que corresponde a apenas 5,26 minutos de downtime por ano ou 26,3 segundos por mês. É o nível mais exigente de disponibilidade, adequado apenas para serviços críticos como sistemas bancários ou de saúde. Atingir cinco 9s requer investimento muito elevado em redundância, automação de failover e processos de recuperação rigorosos.

Um SPOF (Single Point of Failure) é um componente da arquitectura que, se falhar, provoca a indisponibilidade total do serviço. Identificar e eliminar SPOFs é uma das actividades centrais da gestão da disponibilidade. A técnica CFIA (Component Failure Impact Analysis) é usada especificamente para mapear e analisar o impacto de falhas de cada componente.

Para definir metas de disponibilidade realistas num SLA, deve-se considerar: as necessidades reais do negócio (nem todos os serviços precisam de cinco 9s), o histórico de disponibilidade actual, as janelas de manutenção planeadas, o horário de serviço (24/7 vs horário de negócio) e o custo de cada 9 adicional. É essencial negociar metas que sejam exigentes mas alcançáveis, e distinguir disponibilidade durante horas de serviço de disponibilidade total.

Quer garantir a disponibilidade dos seus serviços?

Aprenda a aplicar a gestão da disponibilidade e todas as práticas ITIL com a nossa formação certificada.

Ver formações ITIL

Gestão de SLAs

Como estruturar acordos de nível de serviço eficazes com metas mensuráveis.

Ler artigo

Gestão de incidentes

Restaura serviços rapidamente após uma interrupção não planeada.

Ler artigo

KPIs ITIL

Métricas e indicadores para medir o desempenho dos serviços de TI.

Ler artigo

Análise de causa raiz

Técnicas para identificar a causa raiz de incidentes e problemas recorrentes.

Ler artigo