Processo ITSM Alinhado com ITIL

Gestão de disponibilidade

Processo end-to-end para garantir os níveis de disponibilidade acordados: MTBF, MTRS, MTBSI, análise SPOF, alta disponibilidade e resiliência

Descarregar pack completo

Âmbito e objectivos

Objectivo

Garantir que os serviços de TI atingem os níveis de disponibilidade acordados nos SLAs, assegurando que a infra-estrutura técnica suporta de forma sustentável as necessidades do negócio.

Trigger

Novo SLA com requisito de disponibilidade definido, incidente com impacto significativo na disponibilidade, novo requisito de negócio ou revisão de arquitectura de serviço.

Âmbito

Desde a definição de requisitos de disponibilidade até ao design, implementação de resiliência, monitorização contínua, medição e melhoria proactiva.

Fora do âmbito

Resolução de incidentes individuais (gestão de incidentes), negociação de SLAs (gestão de níveis de serviço) e dimensionamento de capacidade para responder à procura (gestão de capacidade).

Output

Plano de disponibilidade documentado, análise SPOF com recomendações de design, relatórios de disponibilidade por serviço (MTBF, MTRS, MTBSI, % disponibilidade) e recomendações de melhoria implementadas.

Diagrama do processo

Diagrama BPMN simplificado do processo de gestão de disponibilidade (3 swimlanes). Percorra horizontalmente em dispositivos móveis.

Actividades macro

# Actividade Responsável Input Output
1 Definição de requisitos de disponibilidade Availability manager / Service owner SLAs, requisitos de negócio Requisitos de disponibilidade documentados por serviço
2 Análise de riscos e SPOF Availability manager / Eq. técnica Arquitectura, CMDB SPOFs identificados, riscos avaliados
3 Design para alta disponibilidade Availability manager / Arquitectura SPOFs, requisitos documentados Recomendações de design (redundância, failover, clustering)
4 Implementação de soluções de resiliência Equipa técnica Design aprovado Soluções implementadas (HA, load balancing, DR)
5 Monitorização de disponibilidade Availability manager / Monitorização Dados operacionais em tempo real Dashboards de disponibilidade por serviço
6 Medição e cálculo de indicadores Availability manager Dados de incidentes e monitorização MTBF, MTRS, MTBSI e % disponibilidade calculados
7 Reporting de disponibilidade Availability manager Indicadores calculados Relatórios para SLM e gestão
8 Análise de tendências e planeamento Availability manager Dados históricos de disponibilidade Previsões, plano proactivo de disponibilidade
9 Melhoria da disponibilidade Availability manager / Eq. técnica Análise de tendências, incidentes Melhorias implementadas, SPOFs eliminados

Métricas de disponibilidade

Métrica Significado Fórmula Exemplo
MTBF Mean Time Between Failures — tempo médio entre falhas consecutivas do serviço Tempo total de operação / número de falhas 720h operação, 3 falhas = MTBF de 240h
MTRS Mean Time to Restore Service — tempo médio para repor o serviço após uma falha Soma dos tempos de restauro / número de falhas 3 falhas com restauros de 1h, 2h e 3h = MTRS de 2h
MTBSI Mean Time Between Service Incidents — intervalo médio entre o início de incidentes (inclui o tempo de restauro) MTBF + MTRS MTBF 240h + MTRS 2h = MTBSI 242h
Disponibilidade % Percentagem do tempo acordado em que o serviço está disponível e funcional MTBF / (MTBF + MTRS) × 100 99,9% = 8,7h downtime/ano; 99,99% = 52min/ano
Downtime planeado Indisponibilidade acordada antecipadamente para manutenção ou upgrades Soma das janelas de manutenção no período 2 janelas × 2h = 4h downtime planeado/mês
Downtime não planeado Indisponibilidade causada por falhas, incidentes ou eventos inesperados Tempo total de restauro de incidentes no período 3 incidentes × 30min médio = 1,5h downtime não planeado/mês

Níveis de disponibilidade típicos por tier de serviço: Gold 99,99%, Silver 99,9%, Bronze 99,5%. Estes valores devem ser definidos no SLA com o service owner e reflectidos no plano de disponibilidade.

Descrição detalhada das actividades

O ponto de partida do processo é compreender o que o negócio realmente necessita em termos de disponibilidade. Cada serviço tem criticidade distinta: um sistema de pagamentos exige disponibilidade muito superior a uma ferramenta interna de relatórios. O availability manager trabalha com o service owner para traduzir necessidades de negócio em requisitos técnicos mensuráveis, considerando as VBFs (Vital Business Functions) que dependem de cada serviço.

Passos chave

  • Identificar as VBFs suportadas por cada serviço
  • Determinar o nível de disponibilidade requerido (Gold 99,99%, Silver 99,9%, Bronze 99,5%)
  • Definir janelas de serviço acordadas (horário de funcionamento, janelas de manutenção)
  • Documentar impacto do negócio em caso de indisponibilidade (financeiro, operacional, reputacional)
  • Alinhar requisitos com os SLAs existentes ou a negociar com o SLM
Critério de saída: requisitos de disponibilidade documentados por serviço, com tier definido, VBFs identificadas e aprovação do service owner.

Um SPOF (Single Point of Failure) é qualquer componente cuja falha provoca a indisponibilidade total do serviço. A identificação sistemática de SPOFs é fundamental para qualquer estratégia de alta disponibilidade. Utilizam-se duas técnicas principais: CFIA (Component Failure Impact Analysis) para mapear o impacto de falhas por componente, e FTA (Fault Tree Analysis) para identificar combinações de falhas que conduzem à interrupção do serviço.

Passos chave

  • Mapear a arquitectura completa do serviço com base na CMDB
  • Aplicar CFIA: para cada componente, simular a sua falha e avaliar o impacto no serviço
  • Aplicar FTA: identificar combinações de falhas que comprometem a disponibilidade
  • Classificar SPOFs por criticidade e probabilidade de ocorrência
  • Documentar riscos não mitigados e propor plano de acção
Critério de saída: lista de SPOFs identificados e priorizados, riscos avaliados e plano de remediação proposto.

Com base nos SPOFs identificados, o availability manager e a equipa de arquitectura definem os padrões de design que garantem os níveis de disponibilidade acordados. Os principais padrões incluem redundância activa-activa (ambos os nós servem tráfego simultaneamente), activa-passiva (failover automático para o nó secundário) e N+1 (capacidade de sobressalvo para absorver falhas). Para serviços críticos, considera-se também distribuição geográfica e disaster recovery.

Passos chave

  • Seleccionar padrão de redundância adequado ao tier do serviço (activa-activa, activa-passiva, N+1)
  • Definir estratégia de load balancing (aplicacional, de rede, geográfico)
  • Especificar RTO (Recovery Time Objective) e RPO (Recovery Point Objective) por serviço
  • Integrar requisitos de disponibilidade no processo de change enablement
  • Validar design com equipa técnica e security para garantir ausência de novos riscos
Critério de saída: especificação de design aprovada com padrões de redundância definidos, RTO/RPO documentados e validação técnica concluída.

A equipa técnica implementa as soluções de alta disponibilidade definidas na fase de design. Esta actividade abrange desde configuração de clusters e balanceadores de carga até scripts de failover automatizado. A implementação deve seguir o processo de change enablement para minimizar risco de impacto em serviços em produção.

Passos chave

  • Implementar clustering (activo-activo ou activo-passivo) para componentes críticos
  • Configurar load balancers com health checks e failover automático
  • Implementar redundância de rede (ligações, routers, switches)
  • Configurar sistemas de backup de energia (UPS, grupos geradores)
  • Documentar procedimentos de failover e validar com testes controlados
Critério de saída: soluções de HA implementadas e testadas, procedimentos de failover documentados e validados.

A monitorização contínua permite detectar degradações de disponibilidade antes que se tornem incidentes visíveis para os utilizadores. O availability manager define as métricas a monitorizar, os limiares de alerta e as acções automáticas de resposta. A monitorização deve cobrir não apenas a disponibilidade do serviço end-to-end, mas também os componentes individuais que o constituem.

Passos chave

  • Configurar checks de disponibilidade end-to-end (sintéticos e reais)
  • Monitorizar componentes individuais (servidores, bases de dados, rede, aplicações)
  • Definir limiares de alerta proactivo (antes de breach do SLA)
  • Configurar dashboards de disponibilidade em tempo real por serviço
  • Integrar alertas com o processo de gestão de incidentes para resposta imediata
Critério de saída: dashboards de disponibilidade operacionais por serviço, alertas configurados e integração com gestão de incidentes validada.

O cálculo rigoroso dos indicadores de disponibilidade é o fundamento de qualquer processo de gestão da disponibilidade. Os dados são recolhidos da ferramenta de monitorização e dos registos de incidentes, e calculados periodicamente (tipicamente mensal). É importante distinguir disponibilidade dentro da janela de serviço acordada (que é o valor contratual) da disponibilidade total, que inclui períodos fora de serviço.

Passos chave

  • Recolher dados de downtime da ferramenta de monitorização e do registo de incidentes
  • Calcular MTBF: tempo total de operação / número de falhas no período
  • Calcular MTRS: soma dos tempos de restauro / número de falhas
  • Calcular MTBSI: MTBF + MTRS
  • Calcular % disponibilidade: MTBF / (MTBF + MTRS) × 100
  • Separar downtime planeado (manutenção) de downtime não planeado (incidentes)
Critério de saída: MTBF, MTRS, MTBSI e percentagem de disponibilidade calculados e validados para cada serviço no período.

Os relatórios de disponibilidade comunicam o desempenho real dos serviços face ao acordado em SLA. São documentos formais que alimentam as reuniões de revisão de SLA com os service owners e clientes. O relatório deve apresentar os dados de forma clara, contextualizar desvios face ao target e propor acções correctivas quando aplicável.

Passos chave

  • Elaborar relatório mensal por serviço com MTBF, MTRS, MTBSI e % disponibilidade
  • Comparar disponibilidade real com o target do SLA e identificar brechas
  • Detalhar incidentes que contribuíram para indisponibilidade não planeada
  • Apresentar tendência histórica (últimos 3, 6 e 12 meses)
  • Incluir recomendações de melhoria para serviços abaixo do target
Critério de saída: relatório de disponibilidade entregue ao SLM e service owners dentro do prazo acordado, com dados validados e recomendações incluídas.

A gestão da disponibilidade é eminentemente proactiva. A análise de tendências permite antecipar degradações antes que se tornem brechas de SLA. O availability manager analisa a evolução dos indicadores ao longo do tempo, identifica padrões (sazonalidade, crescimento de utilização, envelhecimento de componentes) e actualiza o plano de disponibilidade para o período seguinte.

Passos chave

  • Analisar evolução de MTBF e MTRS ao longo de 6 a 12 meses
  • Identificar componentes com tendência de degradação (MTBF decrescente)
  • Avaliar impacto de crescimento de utilização na disponibilidade futura (interface com capacity management)
  • Planear acções preventivas: substituição de componentes, upgrades, reforço de redundância
  • Actualizar o plano de disponibilidade e o calendário de manutenção preventiva
Critério de saída: plano de disponibilidade actualizado com acções preventivas priorizadas e calendário de manutenção revisto.

A melhoria contínua da disponibilidade é o resultado de um ciclo iterativo de análise, planeamento e implementação. Cada incidente que causou downtime não planeado, cada SPOF identificado e cada tendência negativa detectada é uma oportunidade de melhoria. O availability manager coordena com a equipa técnica a implementação de melhorias e valida os resultados nos relatórios seguintes.

Passos chave

  • Priorizar melhorias com base no impacto esperado na disponibilidade e no esforço de implementação
  • Eliminar SPOFs identificados através de redundância ou substituição de componentes
  • Optimizar procedimentos de restauro para reduzir MTRS
  • Automatizar failover e recuperação para minimizar tempo de intervenção humana
  • Validar melhoria através da comparação de indicadores antes e após a implementação
Critério de saída: melhorias implementadas com impacto validado nos indicadores de disponibilidade; SPOFs eliminados ou mitigados documentados.

Modelo RACI

Actividade Avail. manager
(AM)
Eq. técnica
(ET)
Arquitectura
(AR)
Service owner
(SO)
SL manager
(SLM)
Definição de requisitos de disponibilidade R - C A C
Análise de riscos e SPOF A R C I -
Design para alta disponibilidade R C A I -
Implementação de soluções de resiliência A R C I -
Monitorização de disponibilidade A R - I I
Medição e cálculo de indicadores A - - R I
Reporting de disponibilidade R - - C A
Análise de tendências e planeamento R C C A I
Melhoria da disponibilidade A R C I I
R Responsible - executa a actividade A Accountable - responde pelo resultado C Consulted - é consultado I Informed - é informado

Métricas e KPIs

Métrica Descrição Target sugerido
Disponibilidade % por serviço Percentagem do tempo acordado em que o serviço está disponível, calculada como MTBF / (MTBF + MTRS) × 100 Gold: 99,99% Silver: 99,9% Bronze: 99,5%
MTBF Mean Time Between Failures: tempo médio entre falhas consecutivas do serviço. Quanto maior, mais estável o serviço. Crescente mês a mês
MTRS Mean Time to Restore Service: tempo médio para repor o serviço após falha. Inclui detecção, diagnóstico e restauro. Decrescente mês a mês
MTBSI Mean Time Between Service Incidents: intervalo médio entre o início de incidentes consecutivos (MTBF + MTRS) Crescente mês a mês
Downtime planeado vs não planeado Separação do downtime total em manutenção acordada (planeado) e falhas inesperadas (não planeado) Não planeado < 20% do downtime total
SPOFs identificados e eliminados Número de SPOFs identificados pela análise SPOF e percentagem que foram mitigados ou eliminados 100% dos SPOFs críticos mitigados
Brechas de SLA por disponibilidade Número de períodos em que a disponibilidade ficou abaixo do target acordado no SLA 0 brechas por período

Interfaces com outros processos

Entrada

Gestão de níveis de serviço (SLM)

O SLM define os targets de disponibilidade acordados com o cliente. A gestão de disponibilidade recebe esses targets e garante que são tecnicamente alcançáveis e sustentáveis.

Entrada

Gestão de incidentes

Os dados de downtime e tempo de restauro recolhidos pela gestão de incidentes são o principal input para o cálculo de MTRS e MTBF na gestão de disponibilidade.

Entrada

CMDB

A CMDB fornece a arquitectura completa dos serviços e as dependências entre CIs, que são o ponto de partida para a análise SPOF e para o design de alta disponibilidade.

Saida

Gestão de capacidade

A gestão de disponibilidade partilha dados sobre tendências de degradação e requisitos de resiliência que informam o dimensionamento de capacidade necessário para manter os níveis de disponibilidade acordados.

Saida

Gestão de continuidade

O BIA (Business Impact Analysis) e os planos de DR partilham requisitos de RTO/RPO com a gestão de disponibilidade, que contribui com o design de resiliência e os dados de MTRS por serviço.

Entrada

Change enablement

Todas as mudanças ao ambiente devem ser avaliadas quanto ao impacto na disponibilidade antes da aprovação. A gestão de disponibilidade participa na avaliação de risco de mudanças com potencial de afetar a disponibilidade dos serviços.

Descarregar o pack completo

Inclui o processo documentado, plano de disponibilidade, folha de cálculo MTBF/MTRS/MTBSI, modelo RACI e relatório mensal de disponibilidade.