O que é a gestão da disponibilidade
"A gestão da disponibilidade é a prática ITIL que assegura que os serviços de TI entregam os níveis de disponibilidade acordados para satisfazer as necessidades do negócio."
A disponibilidade de um serviço é a sua capacidade de funcionar quando necessário. Um serviço disponível é aquele que os utilizadores conseguem aceder e usar conforme esperado, sem interrupções não planeadas.
No ITIL 4, a gestão da disponibilidade é uma prática de gestão de serviços que cobre todo o ciclo de vida da disponibilidade: desde a definição de requisitos com o negócio, passando pelo desenho de soluções resilientes, até à monitorização contínua e melhoria dos níveis de serviço.
Um dos princípios centrais da prática é o equilíbrio entre custo e disponibilidade. Atingir cinco 9s (99,999%) custa exponencialmente mais do que três 9s (99,9%). Cada nível de disponibilidade adicional exige redundância, automação de failover, processos de recuperação mais rigorosos e, consequentemente, investimentos muito mais elevados. A pergunta central não é "qual a disponibilidade máxima possível?" mas sim "qual a disponibilidade que o negócio realmente precisa e está disposto a pagar?"
A gestão da disponibilidade trabalha em estreita colaboração com outras práticas ITIL: a gestão de capacidade garante recursos suficientes para manter os serviços operacionais, a gestão de eventos deteta proativamente anomalias antes que causem indisponibilidade, e a gestão de continuidade de serviços de TI assegura a recuperação em situações de desastre.
Métricas de disponibilidade
A gestão da disponibilidade assenta em métricas concretas e mensuráveis. As quatro métricas fundamentais são:
| Métrica | Descrição | Fórmula |
|---|---|---|
| Disponibilidade (%) | Tempo que o serviço está operacional face ao tempo acordado de serviço | (Tempo acordado - Downtime) / Tempo acordado × 100 |
| MTBF | Mean Time Between Failures - tempo médio entre falhas consecutivas | Tempo total de uptime / Número de falhas |
| MTRS | Mean Time to Restore Service - tempo médio para restaurar o serviço após uma falha | Tempo total de downtime / Número de interrupções |
| MTBSI | Mean Time Between Service Incidents - tempo entre o início de um incidente e o início do seguinte | Tempo entre início de um incidente e início do próximo |
A tabela dos nines
A disponibilidade é frequentemente expressa em "nines" - o número de noves consecutivos na percentagem. O impacto prático de cada nível é significativo:
| Nível | Percentagem | Downtime por ano | Downtime por mês |
|---|---|---|---|
| Dois 9s | 99% | 87,6 horas | 7,3 horas |
| Três 9s | 99,9% | 8,77 horas | 43,8 min |
| Quatro 9s | 99,99% | 52,6 min | 4,4 min |
| Cinco 9s | 99,999% | 5,26 min | 26,3 seg |
Para contexto: passar de três para quatro 9s exige reduzir o downtime anual de 8,77 horas para 52,6 minutos. Esta diferença implica redundância activa-activa, failover automático em segundos e processos de recuperação altamente automatizados.
Actividades da gestão da disponibilidade
A prática de gestão da disponibilidade organiza-se em cinco actividades principais que formam um ciclo contínuo de planeamento, monitorização e melhoria.
Definir requisitos
Identificar as necessidades de disponibilidade do negócio para cada serviço. Traduzir estas necessidades em metas mensuráveis, distinguindo disponibilidade durante horas de serviço de disponibilidade total (24/7).
Planear
Desenhar soluções técnicas e processuais que garantam a disponibilidade necessária. Considerar redundância de componentes, failover automático, clustering e planos de recuperação de desastres.
Monitorizar
Medir a disponibilidade real continuamente e em tempo real. Comparar com os objectivos definidos nos SLAs. Alertar quando os limiares de disponibilidade são ameaçados antes de ocorrer uma falha completa.
Analisar
Investigar incidentes de indisponibilidade para compreender as causas. Identificar padrões e tendências. Realizar análise de causa raiz para evitar a repetição das falhas mais impactantes.
Melhorar
Implementar acções concretas para aumentar a disponibilidade. Rever planos e arquitecturas face a novos requisitos do negócio ou a novas vulnerabilidades identificadas.
Técnicas e abordagens
A gestão da disponibilidade recorre a técnicas específicas para analisar riscos, identificar fraquezas e desenhar soluções resilientes.
Técnicas fundamentais de gestão da disponibilidade
Disponibilidade e SLAs
A disponibilidade é um dos componentes mais comuns e mais importantes dos acordos de nível de serviço (SLAs). Definir metas de disponibilidade nos SLAs exige cuidado e negociação informada entre a equipa de TI e o negócio.
Como definir metas realistas de disponibilidade
Ao negociar metas de disponibilidade num SLA, deve-se considerar os seguintes factores:
- Janelas de manutenção: a manutenção planeada normalmente não conta como downtime se for comunicada com antecedência e realizada fora das horas de pico. É fundamental clarificar esta distinção no SLA.
- Horário de serviço: disponibilidade de 99,9% durante o horário de negócio (por exemplo, das 8h às 20h, dias úteis) é muito diferente de 99,9% durante 24/7. O downtime admissível é muito maior no primeiro caso.
- Criticidade do serviço: serviços críticos para operações de negócio em tempo real justificam investimento em quatro ou cinco 9s. Serviços internos de suporte podem funcionar bem com três 9s.
Custos de disponibilidade
Cada 9 adicional de disponibilidade duplica ou triplica o investimento necessário. A arquitectura, as ferramentas, os processos e as competências necessárias para atingir 99,99% são muito mais exigentes do que para 99,9%. A gestão da disponibilidade deve ajudar o negócio a tomar decisões informadas sobre este equilíbrio, apresentando os custos de cada nível de disponibilidade de forma transparente.
Para aprofundar o tema dos SLAs e como estruturar acordos de nível de serviço eficazes, consulta o nosso guia sobre gestão de SLAs.
Boas práticas
6 boas práticas para garantir a disponibilidade dos serviços
Eliminar pontos únicos de falha
SPOFs comprometem toda a cadeia de serviço quando falham. Usar a CFIA para os identificar e priorizar a sua mitigação com redundância ou mecanismos alternativos de recuperação.
Monitorização proactiva
Detectar degradação de desempenho e sinais de alerta antes da falha completa. A monitorização proactiva reduz o MTRS porque a equipa já está a investigar antes dos utilizadores reportarem o problema.
Metas realistas
99,999% não é necessário (nem viável) para todos os serviços. Definir metas adequadas à criticidade e ao custo de cada serviço. Metas irrealistas criam pressão, custos excessivos e frustração quando não são cumpridas.
Janelas de manutenção
Planear manutenção preventiva em períodos de baixo impacto para o negócio. Comunicar com antecedência. A manutenção planeada bem executada é um investimento em disponibilidade futura.
Testar a recuperação
Testar regularmente os processos de failover e disaster recovery em condições controladas. Um plano de recuperação que nunca foi testado não é confiável quando acontece uma falha real.
Documentar
Registar a arquitectura de serviço, as dependências entre componentes e os procedimentos de recuperação. A documentação actualizada reduz o tempo de diagnóstico e restauração quando ocorre uma falha.
Descarregue a template de relatório de disponibilidade
Modelo de relatório de disponibilidade com métricas e formato de apresentação.
Ver todas as templates ITSMPerguntas frequentes
A gestão da disponibilidade é a prática ITIL que assegura que os serviços de TI entregam os níveis de disponibilidade acordados para satisfazer as necessidades do negócio. No ITIL 4, é uma prática de gestão de serviços que cobre desde a definição de requisitos de disponibilidade até à monitorização contínua, análise de incidentes e melhoria dos níveis de serviço.
MTBF significa Mean Time Between Failures, ou seja, o tempo médio entre falhas. Calcula-se dividindo o tempo total de uptime pelo número de falhas ocorridas num período. Por exemplo, se um serviço esteve activo 900 horas e sofreu 3 falhas, o MTBF é 300 horas. Quanto maior o MTBF, mais fiável é o serviço.
MTBF (Mean Time Between Failures) mede o tempo médio entre falhas e representa a fiabilidade do serviço. MTRS (Mean Time to Restore Service) mede o tempo médio para restaurar o serviço após uma falha e representa a capacidade de recuperação. Um serviço pode ter um MTBF alto (poucas falhas) mas um MTRS elevado (demorado a recuperar), pelo que ambas as métricas são importantes para avaliar a disponibilidade real.
Cinco 9s significa uma disponibilidade de 99,999%, que corresponde a apenas 5,26 minutos de downtime por ano ou 26,3 segundos por mês. É o nível mais exigente de disponibilidade, adequado apenas para serviços críticos como sistemas bancários ou de saúde. Atingir cinco 9s requer investimento muito elevado em redundância, automação de failover e processos de recuperação rigorosos.
Um SPOF (Single Point of Failure) é um componente da arquitectura que, se falhar, provoca a indisponibilidade total do serviço. Identificar e eliminar SPOFs é uma das actividades centrais da gestão da disponibilidade. A técnica CFIA (Component Failure Impact Analysis) é usada especificamente para mapear e analisar o impacto de falhas de cada componente.
Para definir metas de disponibilidade realistas num SLA, deve-se considerar: as necessidades reais do negócio (nem todos os serviços precisam de cinco 9s), o histórico de disponibilidade actual, as janelas de manutenção planeadas, o horário de serviço (24/7 vs horário de negócio) e o custo de cada 9 adicional. É essencial negociar metas que sejam exigentes mas alcançáveis, e distinguir disponibilidade durante horas de serviço de disponibilidade total.
Quer garantir a disponibilidade dos seus serviços?
Aprenda a aplicar a gestão da disponibilidade e todas as práticas ITIL com a nossa formação certificada.
Ver formações ITIL