Gestão de disponibilidade
Processo end-to-end para garantir os níveis de disponibilidade acordados: MTBF, MTRS, MTBSI, análise SPOF, alta disponibilidade e resiliência
Descarregar pack completoÂmbito e objectivos
Garantir que os serviços de TI atingem os níveis de disponibilidade acordados nos SLAs, assegurando que a infra-estrutura técnica suporta de forma sustentável as necessidades do negócio.
Novo SLA com requisito de disponibilidade definido, incidente com impacto significativo na disponibilidade, novo requisito de negócio ou revisão de arquitectura de serviço.
Desde a definição de requisitos de disponibilidade até ao design, implementação de resiliência, monitorização contínua, medição e melhoria proactiva.
Resolução de incidentes individuais (gestão de incidentes), negociação de SLAs (gestão de níveis de serviço) e dimensionamento de capacidade para responder à procura (gestão de capacidade).
Plano de disponibilidade documentado, análise SPOF com recomendações de design, relatórios de disponibilidade por serviço (MTBF, MTRS, MTBSI, % disponibilidade) e recomendações de melhoria implementadas.
Diagrama do processo
Diagrama BPMN simplificado do processo de gestão de disponibilidade (3 swimlanes). Percorra horizontalmente em dispositivos móveis.
Actividades macro
| # | Actividade | Responsável | Input | Output |
|---|---|---|---|---|
| 1 | Definição de requisitos de disponibilidade | Availability manager / Service owner | SLAs, requisitos de negócio | Requisitos de disponibilidade documentados por serviço |
| 2 | Análise de riscos e SPOF | Availability manager / Eq. técnica | Arquitectura, CMDB | SPOFs identificados, riscos avaliados |
| 3 | Design para alta disponibilidade | Availability manager / Arquitectura | SPOFs, requisitos documentados | Recomendações de design (redundância, failover, clustering) |
| 4 | Implementação de soluções de resiliência | Equipa técnica | Design aprovado | Soluções implementadas (HA, load balancing, DR) |
| 5 | Monitorização de disponibilidade | Availability manager / Monitorização | Dados operacionais em tempo real | Dashboards de disponibilidade por serviço |
| 6 | Medição e cálculo de indicadores | Availability manager | Dados de incidentes e monitorização | MTBF, MTRS, MTBSI e % disponibilidade calculados |
| 7 | Reporting de disponibilidade | Availability manager | Indicadores calculados | Relatórios para SLM e gestão |
| 8 | Análise de tendências e planeamento | Availability manager | Dados históricos de disponibilidade | Previsões, plano proactivo de disponibilidade |
| 9 | Melhoria da disponibilidade | Availability manager / Eq. técnica | Análise de tendências, incidentes | Melhorias implementadas, SPOFs eliminados |
Métricas de disponibilidade
| Métrica | Significado | Fórmula | Exemplo |
|---|---|---|---|
| MTBF | Mean Time Between Failures — tempo médio entre falhas consecutivas do serviço | Tempo total de operação / número de falhas | 720h operação, 3 falhas = MTBF de 240h |
| MTRS | Mean Time to Restore Service — tempo médio para repor o serviço após uma falha | Soma dos tempos de restauro / número de falhas | 3 falhas com restauros de 1h, 2h e 3h = MTRS de 2h |
| MTBSI | Mean Time Between Service Incidents — intervalo médio entre o início de incidentes (inclui o tempo de restauro) | MTBF + MTRS | MTBF 240h + MTRS 2h = MTBSI 242h |
| Disponibilidade % | Percentagem do tempo acordado em que o serviço está disponível e funcional | MTBF / (MTBF + MTRS) × 100 | 99,9% = 8,7h downtime/ano; 99,99% = 52min/ano |
| Downtime planeado | Indisponibilidade acordada antecipadamente para manutenção ou upgrades | Soma das janelas de manutenção no período | 2 janelas × 2h = 4h downtime planeado/mês |
| Downtime não planeado | Indisponibilidade causada por falhas, incidentes ou eventos inesperados | Tempo total de restauro de incidentes no período | 3 incidentes × 30min médio = 1,5h downtime não planeado/mês |
Níveis de disponibilidade típicos por tier de serviço: Gold 99,99%, Silver 99,9%, Bronze 99,5%. Estes valores devem ser definidos no SLA com o service owner e reflectidos no plano de disponibilidade.
Descrição detalhada das actividades
O ponto de partida do processo é compreender o que o negócio realmente necessita em termos de disponibilidade. Cada serviço tem criticidade distinta: um sistema de pagamentos exige disponibilidade muito superior a uma ferramenta interna de relatórios. O availability manager trabalha com o service owner para traduzir necessidades de negócio em requisitos técnicos mensuráveis, considerando as VBFs (Vital Business Functions) que dependem de cada serviço.
Passos chave
- Identificar as VBFs suportadas por cada serviço
- Determinar o nível de disponibilidade requerido (Gold 99,99%, Silver 99,9%, Bronze 99,5%)
- Definir janelas de serviço acordadas (horário de funcionamento, janelas de manutenção)
- Documentar impacto do negócio em caso de indisponibilidade (financeiro, operacional, reputacional)
- Alinhar requisitos com os SLAs existentes ou a negociar com o SLM
Um SPOF (Single Point of Failure) é qualquer componente cuja falha provoca a indisponibilidade total do serviço. A identificação sistemática de SPOFs é fundamental para qualquer estratégia de alta disponibilidade. Utilizam-se duas técnicas principais: CFIA (Component Failure Impact Analysis) para mapear o impacto de falhas por componente, e FTA (Fault Tree Analysis) para identificar combinações de falhas que conduzem à interrupção do serviço.
Passos chave
- Mapear a arquitectura completa do serviço com base na CMDB
- Aplicar CFIA: para cada componente, simular a sua falha e avaliar o impacto no serviço
- Aplicar FTA: identificar combinações de falhas que comprometem a disponibilidade
- Classificar SPOFs por criticidade e probabilidade de ocorrência
- Documentar riscos não mitigados e propor plano de acção
Com base nos SPOFs identificados, o availability manager e a equipa de arquitectura definem os padrões de design que garantem os níveis de disponibilidade acordados. Os principais padrões incluem redundância activa-activa (ambos os nós servem tráfego simultaneamente), activa-passiva (failover automático para o nó secundário) e N+1 (capacidade de sobressalvo para absorver falhas). Para serviços críticos, considera-se também distribuição geográfica e disaster recovery.
Passos chave
- Seleccionar padrão de redundância adequado ao tier do serviço (activa-activa, activa-passiva, N+1)
- Definir estratégia de load balancing (aplicacional, de rede, geográfico)
- Especificar RTO (Recovery Time Objective) e RPO (Recovery Point Objective) por serviço
- Integrar requisitos de disponibilidade no processo de change enablement
- Validar design com equipa técnica e security para garantir ausência de novos riscos
A equipa técnica implementa as soluções de alta disponibilidade definidas na fase de design. Esta actividade abrange desde configuração de clusters e balanceadores de carga até scripts de failover automatizado. A implementação deve seguir o processo de change enablement para minimizar risco de impacto em serviços em produção.
Passos chave
- Implementar clustering (activo-activo ou activo-passivo) para componentes críticos
- Configurar load balancers com health checks e failover automático
- Implementar redundância de rede (ligações, routers, switches)
- Configurar sistemas de backup de energia (UPS, grupos geradores)
- Documentar procedimentos de failover e validar com testes controlados
A monitorização contínua permite detectar degradações de disponibilidade antes que se tornem incidentes visíveis para os utilizadores. O availability manager define as métricas a monitorizar, os limiares de alerta e as acções automáticas de resposta. A monitorização deve cobrir não apenas a disponibilidade do serviço end-to-end, mas também os componentes individuais que o constituem.
Passos chave
- Configurar checks de disponibilidade end-to-end (sintéticos e reais)
- Monitorizar componentes individuais (servidores, bases de dados, rede, aplicações)
- Definir limiares de alerta proactivo (antes de breach do SLA)
- Configurar dashboards de disponibilidade em tempo real por serviço
- Integrar alertas com o processo de gestão de incidentes para resposta imediata
O cálculo rigoroso dos indicadores de disponibilidade é o fundamento de qualquer processo de gestão da disponibilidade. Os dados são recolhidos da ferramenta de monitorização e dos registos de incidentes, e calculados periodicamente (tipicamente mensal). É importante distinguir disponibilidade dentro da janela de serviço acordada (que é o valor contratual) da disponibilidade total, que inclui períodos fora de serviço.
Passos chave
- Recolher dados de downtime da ferramenta de monitorização e do registo de incidentes
- Calcular MTBF: tempo total de operação / número de falhas no período
- Calcular MTRS: soma dos tempos de restauro / número de falhas
- Calcular MTBSI: MTBF + MTRS
- Calcular % disponibilidade: MTBF / (MTBF + MTRS) × 100
- Separar downtime planeado (manutenção) de downtime não planeado (incidentes)
Os relatórios de disponibilidade comunicam o desempenho real dos serviços face ao acordado em SLA. São documentos formais que alimentam as reuniões de revisão de SLA com os service owners e clientes. O relatório deve apresentar os dados de forma clara, contextualizar desvios face ao target e propor acções correctivas quando aplicável.
Passos chave
- Elaborar relatório mensal por serviço com MTBF, MTRS, MTBSI e % disponibilidade
- Comparar disponibilidade real com o target do SLA e identificar brechas
- Detalhar incidentes que contribuíram para indisponibilidade não planeada
- Apresentar tendência histórica (últimos 3, 6 e 12 meses)
- Incluir recomendações de melhoria para serviços abaixo do target
A gestão da disponibilidade é eminentemente proactiva. A análise de tendências permite antecipar degradações antes que se tornem brechas de SLA. O availability manager analisa a evolução dos indicadores ao longo do tempo, identifica padrões (sazonalidade, crescimento de utilização, envelhecimento de componentes) e actualiza o plano de disponibilidade para o período seguinte.
Passos chave
- Analisar evolução de MTBF e MTRS ao longo de 6 a 12 meses
- Identificar componentes com tendência de degradação (MTBF decrescente)
- Avaliar impacto de crescimento de utilização na disponibilidade futura (interface com capacity management)
- Planear acções preventivas: substituição de componentes, upgrades, reforço de redundância
- Actualizar o plano de disponibilidade e o calendário de manutenção preventiva
A melhoria contínua da disponibilidade é o resultado de um ciclo iterativo de análise, planeamento e implementação. Cada incidente que causou downtime não planeado, cada SPOF identificado e cada tendência negativa detectada é uma oportunidade de melhoria. O availability manager coordena com a equipa técnica a implementação de melhorias e valida os resultados nos relatórios seguintes.
Passos chave
- Priorizar melhorias com base no impacto esperado na disponibilidade e no esforço de implementação
- Eliminar SPOFs identificados através de redundância ou substituição de componentes
- Optimizar procedimentos de restauro para reduzir MTRS
- Automatizar failover e recuperação para minimizar tempo de intervenção humana
- Validar melhoria através da comparação de indicadores antes e após a implementação
Modelo RACI
| Actividade | Avail. manager (AM) |
Eq. técnica (ET) |
Arquitectura (AR) |
Service owner (SO) |
SL manager (SLM) |
|---|---|---|---|---|---|
| Definição de requisitos de disponibilidade | R | - | C | A | C |
| Análise de riscos e SPOF | A | R | C | I | - |
| Design para alta disponibilidade | R | C | A | I | - |
| Implementação de soluções de resiliência | A | R | C | I | - |
| Monitorização de disponibilidade | A | R | - | I | I |
| Medição e cálculo de indicadores | A | - | - | R | I |
| Reporting de disponibilidade | R | - | - | C | A |
| Análise de tendências e planeamento | R | C | C | A | I |
| Melhoria da disponibilidade | A | R | C | I | I |
Métricas e KPIs
| Métrica | Descrição | Target sugerido |
|---|---|---|
| Disponibilidade % por serviço | Percentagem do tempo acordado em que o serviço está disponível, calculada como MTBF / (MTBF + MTRS) × 100 | Gold: 99,99% Silver: 99,9% Bronze: 99,5% |
| MTBF | Mean Time Between Failures: tempo médio entre falhas consecutivas do serviço. Quanto maior, mais estável o serviço. | Crescente mês a mês |
| MTRS | Mean Time to Restore Service: tempo médio para repor o serviço após falha. Inclui detecção, diagnóstico e restauro. | Decrescente mês a mês |
| MTBSI | Mean Time Between Service Incidents: intervalo médio entre o início de incidentes consecutivos (MTBF + MTRS) | Crescente mês a mês |
| Downtime planeado vs não planeado | Separação do downtime total em manutenção acordada (planeado) e falhas inesperadas (não planeado) | Não planeado < 20% do downtime total |
| SPOFs identificados e eliminados | Número de SPOFs identificados pela análise SPOF e percentagem que foram mitigados ou eliminados | 100% dos SPOFs críticos mitigados |
| Brechas de SLA por disponibilidade | Número de períodos em que a disponibilidade ficou abaixo do target acordado no SLA | 0 brechas por período |
Interfaces com outros processos
Gestão de níveis de serviço (SLM)
O SLM define os targets de disponibilidade acordados com o cliente. A gestão de disponibilidade recebe esses targets e garante que são tecnicamente alcançáveis e sustentáveis.
Gestão de incidentes
Os dados de downtime e tempo de restauro recolhidos pela gestão de incidentes são o principal input para o cálculo de MTRS e MTBF na gestão de disponibilidade.
CMDB
A CMDB fornece a arquitectura completa dos serviços e as dependências entre CIs, que são o ponto de partida para a análise SPOF e para o design de alta disponibilidade.
Gestão de capacidade
A gestão de disponibilidade partilha dados sobre tendências de degradação e requisitos de resiliência que informam o dimensionamento de capacidade necessário para manter os níveis de disponibilidade acordados.
Gestão de continuidade
O BIA (Business Impact Analysis) e os planos de DR partilham requisitos de RTO/RPO com a gestão de disponibilidade, que contribui com o design de resiliência e os dados de MTRS por serviço.
Change enablement
Todas as mudanças ao ambiente devem ser avaliadas quanto ao impacto na disponibilidade antes da aprovação. A gestão de disponibilidade participa na avaliação de risco de mudanças com potencial de afetar a disponibilidade dos serviços.
Descarregar o pack completo
Inclui o processo documentado, plano de disponibilidade, folha de cálculo MTBF/MTRS/MTBSI, modelo RACI e relatório mensal de disponibilidade.