Gestão da disponibilidade ITIL

O que é a gestão da disponibilidade

Definição ITIL 4

"A gestão da disponibilidade é a prática ITIL que assegura que os serviços de TI entregam os níveis de disponibilidade acordados para satisfazer as necessidades do negócio."

A disponibilidade de um serviço é a sua capacidade de funcionar quando necessário. Um serviço disponível é aquele que os utilizadores conseguem aceder e usar conforme esperado, sem interrupções não planeadas.

No ITIL 4, a gestão da disponibilidade é uma prática de gestão de serviços que cobre todo o ciclo de vida da disponibilidade: desde a definição de requisitos com o negócio, passando pelo desenho de soluções resilientes, até à monitorização contínua e melhoria dos níveis de serviço.

Um dos princípios centrais da prática é o equilíbrio entre custo e disponibilidade. Atingir cinco 9s (99,999%) custa exponencialmente mais do que três 9s (99,9%). Cada nível de disponibilidade adicional exige redundância, automação de failover, processos de recuperação mais rigorosos e, consequentemente, investimentos muito mais elevados. A pergunta central não é "qual a disponibilidade máxima possível?" mas sim "qual a disponibilidade que o negócio realmente precisa e está disposto a pagar?"

A gestão da disponibilidade trabalha em estreita colaboração com outras práticas ITIL: a gestão de capacidade garante recursos suficientes para manter os serviços operacionais, a gestão de eventos deteta proativamente anomalias antes que causem indisponibilidade, e a gestão de continuidade de serviços de TI assegura a recuperação em situações de desastre.

Métricas de disponibilidade

A gestão da disponibilidade assenta em métricas concretas e mensuráveis. As quatro métricas fundamentais são:

Métrica	Descrição	Fórmula
Disponibilidade (%)	Tempo que o serviço está operacional face ao tempo acordado de serviço	(Tempo acordado - Downtime) / Tempo acordado × 100
MTBF	Mean Time Between Failures - tempo médio entre falhas consecutivas	Tempo total de uptime / Número de falhas
MTRS	Mean Time to Restore Service - tempo médio para restaurar o serviço após uma falha	Tempo total de downtime / Número de interrupções
MTBSI	Mean Time Between Service Incidents - tempo entre o início de um incidente e o início do seguinte	Tempo entre início de um incidente e início do próximo

A tabela dos nines

A disponibilidade é frequentemente expressa em "nines" - o número de noves consecutivos na percentagem. O impacto prático de cada nível é significativo:

Nível	Percentagem	Downtime por ano	Downtime por mês
Dois 9s	99%	87,6 horas	7,3 horas
Três 9s	99,9%	8,77 horas	43,8 min
Quatro 9s	99,99%	52,6 min	4,4 min
Cinco 9s	99,999%	5,26 min	26,3 seg

Para contexto: passar de três para quatro 9s exige reduzir o downtime anual de 8,77 horas para 52,6 minutos. Esta diferença implica redundância activa-activa, failover automático em segundos e processos de recuperação altamente automatizados.

Actividades da gestão da disponibilidade

A prática de gestão da disponibilidade organiza-se em cinco actividades principais que formam um ciclo contínuo de planeamento, monitorização e melhoria.

Definir requisitos

Identificar as necessidades de disponibilidade do negócio para cada serviço. Traduzir estas necessidades em metas mensuráveis, distinguindo disponibilidade durante horas de serviço de disponibilidade total (24/7).

Planear

Desenhar soluções técnicas e processuais que garantam a disponibilidade necessária. Considerar redundância de componentes, failover automático, clustering e planos de recuperação de desastres.

Monitorizar

Medir a disponibilidade real continuamente e em tempo real. Comparar com os objectivos definidos nos SLAs. Alertar quando os limiares de disponibilidade são ameaçados antes de ocorrer uma falha completa.

Analisar

Investigar incidentes de indisponibilidade para compreender as causas. Identificar padrões e tendências. Realizar análise de causa raiz para evitar a repetição das falhas mais impactantes.

Melhorar

Implementar acções concretas para aumentar a disponibilidade. Rever planos e arquitecturas face a novos requisitos do negócio ou a novas vulnerabilidades identificadas.

Técnicas e abordagens

A gestão da disponibilidade recorre a técnicas específicas para analisar riscos, identificar fraquezas e desenhar soluções resilientes.

Técnicas fundamentais de gestão da disponibilidade

Análise de Impacto de Falha de Componente (CFIA)

Mapeia o impacto da falha de cada componente nos serviços que dependem dele. Identifica pontos únicos de falha (SPOFs) e prioriza onde investir em redundância.

Análise de Árvore de Falhas (FTA)

Técnica top-down que parte de um evento de indisponibilidade e identifica todas as causas possíveis usando lógica AND/OR. Permite calcular probabilidades de falha combinada.

Expanded Incident Lifecycle

Analisa o ciclo de vida completo de um incidente em fases: detecção, diagnóstico, reparação e restauração. Identifica em qual fase se perde mais tempo e onde intervir.

Redundância e resiliência

Duplicação de componentes críticos para eliminar SPOFs. Padrões principais: active-active (ambos respondem em simultâneo), active-passive (um em standby), N+1 (um componente extra de reserva).

Disponibilidade e SLAs

A disponibilidade é um dos componentes mais comuns e mais importantes dos acordos de nível de serviço (SLAs). Definir metas de disponibilidade nos SLAs exige cuidado e negociação informada entre a equipa de TI e o negócio.

Como definir metas realistas de disponibilidade

Ao negociar metas de disponibilidade num SLA, deve-se considerar os seguintes factores:

Janelas de manutenção: a manutenção planeada normalmente não conta como downtime se for comunicada com antecedência e realizada fora das horas de pico. É fundamental clarificar esta distinção no SLA.
Horário de serviço: disponibilidade de 99,9% durante o horário de negócio (por exemplo, das 8h às 20h, dias úteis) é muito diferente de 99,9% durante 24/7. O downtime admissível é muito maior no primeiro caso.
Criticidade do serviço: serviços críticos para operações de negócio em tempo real justificam investimento em quatro ou cinco 9s. Serviços internos de suporte podem funcionar bem com três 9s.

Custos de disponibilidade

Cada 9 adicional de disponibilidade duplica ou triplica o investimento necessário. A arquitectura, as ferramentas, os processos e as competências necessárias para atingir 99,99% são muito mais exigentes do que para 99,9%. A gestão da disponibilidade deve ajudar o negócio a tomar decisões informadas sobre este equilíbrio, apresentando os custos de cada nível de disponibilidade de forma transparente.

Para aprofundar o tema dos SLAs e como estruturar acordos de nível de serviço eficazes, consulta o nosso guia sobre gestão de SLAs.

Boas práticas

6 boas práticas para garantir a disponibilidade dos serviços

Eliminar pontos únicos de falha

SPOFs comprometem toda a cadeia de serviço quando falham. Usar a CFIA para os identificar e priorizar a sua mitigação com redundância ou mecanismos alternativos de recuperação.

Monitorização proactiva

Detectar degradação de desempenho e sinais de alerta antes da falha completa. A monitorização proactiva reduz o MTRS porque a equipa já está a investigar antes dos utilizadores reportarem o problema.

Metas realistas

99,999% não é necessário (nem viável) para todos os serviços. Definir metas adequadas à criticidade e ao custo de cada serviço. Metas irrealistas criam pressão, custos excessivos e frustração quando não são cumpridas.

Janelas de manutenção

Planear manutenção preventiva em períodos de baixo impacto para o negócio. Comunicar com antecedência. A manutenção planeada bem executada é um investimento em disponibilidade futura.

Testar a recuperação

Testar regularmente os processos de failover e disaster recovery em condições controladas. Um plano de recuperação que nunca foi testado não é confiável quando acontece uma falha real.

Documentar

Registar a arquitectura de serviço, as dependências entre componentes e os procedimentos de recuperação. A documentação actualizada reduz o tempo de diagnóstico e restauração quando ocorre uma falha.

Descarregue a template de relatório de disponibilidade

Modelo de relatório de disponibilidade com métricas e formato de apresentação.

Ver todas as templates ITSM

Perguntas frequentes

O que é a gestão da disponibilidade no ITIL 4?

A gestão da disponibilidade é a prática ITIL que assegura que os serviços de TI entregam os níveis de disponibilidade acordados para satisfazer as necessidades do negócio. No ITIL 4, é uma prática de gestão de serviços que cobre desde a definição de requisitos de disponibilidade até à monitorização contínua, análise de incidentes e melhoria dos níveis de serviço.

O que é o MTBF e como se calcula?

MTBF significa Mean Time Between Failures, ou seja, o tempo médio entre falhas. Calcula-se dividindo o tempo total de uptime pelo número de falhas ocorridas num período. Por exemplo, se um serviço esteve activo 900 horas e sofreu 3 falhas, o MTBF é 300 horas. Quanto maior o MTBF, mais fiável é o serviço.

Qual a diferença entre MTBF e MTRS?

MTBF (Mean Time Between Failures) mede o tempo médio entre falhas e representa a fiabilidade do serviço. MTRS (Mean Time to Restore Service) mede o tempo médio para restaurar o serviço após uma falha e representa a capacidade de recuperação. Um serviço pode ter um MTBF alto (poucas falhas) mas um MTRS elevado (demorado a recuperar), pelo que ambas as métricas são importantes para avaliar a disponibilidade real.

O que significa disponibilidade de cinco 9s?

Cinco 9s significa uma disponibilidade de 99,999%, que corresponde a apenas 5,26 minutos de downtime por ano ou 26,3 segundos por mês. É o nível mais exigente de disponibilidade, adequado apenas para serviços críticos como sistemas bancários ou de saúde. Atingir cinco 9s requer investimento muito elevado em redundância, automação de failover e processos de recuperação rigorosos.

O que é um ponto único de falha (SPOF)?

Um SPOF (Single Point of Failure) é um componente da arquitectura que, se falhar, provoca a indisponibilidade total do serviço. Identificar e eliminar SPOFs é uma das actividades centrais da gestão da disponibilidade. A técnica CFIA (Component Failure Impact Analysis) é usada especificamente para mapear e analisar o impacto de falhas de cada componente.

Como se define uma meta de disponibilidade realista num SLA?

Para definir metas de disponibilidade realistas num SLA, deve-se considerar: as necessidades reais do negócio (nem todos os serviços precisam de cinco 9s), o histórico de disponibilidade actual, as janelas de manutenção planeadas, o horário de serviço (24/7 vs horário de negócio) e o custo de cada 9 adicional. É essencial negociar metas que sejam exigentes mas alcançáveis, e distinguir disponibilidade durante horas de serviço de disponibilidade total.

Quer garantir a disponibilidade dos seus serviços?

Aprenda a aplicar a gestão da disponibilidade e todas as práticas ITIL com a nossa formação certificada.

Ver formações ITIL

Gestão da disponibilidade: guia completo

O que é a gestão da disponibilidade

Métricas de disponibilidade

A tabela dos nines

Actividades da gestão da disponibilidade

Definir requisitos

Planear

Monitorizar

Analisar

Melhorar

Técnicas e abordagens

Técnicas fundamentais de gestão da disponibilidade

Disponibilidade e SLAs

Como definir metas realistas de disponibilidade

Custos de disponibilidade

Boas práticas

6 boas práticas para garantir a disponibilidade dos serviços

Eliminar pontos únicos de falha

Monitorização proactiva

Metas realistas

Janelas de manutenção

Testar a recuperação

Documentar

Perguntas frequentes

Quer garantir a disponibilidade dos seus serviços?

Gestão de SLAs

Gestão de incidentes

KPIs ITIL

Análise de causa raiz

Gestão da disponibilidade: guia completo

O que é a gestão da disponibilidade

Métricas de disponibilidade

A tabela dos nines

Actividades da gestão da disponibilidade

Definir requisitos

Planear

Monitorizar

Analisar

Melhorar

Técnicas e abordagens

Técnicas fundamentais de gestão da disponibilidade

Disponibilidade e SLAs

Como definir metas realistas de disponibilidade

Custos de disponibilidade

Boas práticas

6 boas práticas para garantir a disponibilidade dos serviços

Eliminar pontos únicos de falha

Monitorização proactiva

Metas realistas

Janelas de manutenção

Testar a recuperação

Documentar

Perguntas frequentes

Quer garantir a disponibilidade dos seus serviços?

Conteúdo relacionado

Gestão de SLAs

Gestão de incidentes

KPIs ITIL

Análise de causa raiz