Processo ITSM Alinhado com ITIL

Gestão de disponibilidade

Processo end-to-end para garantir os níveis de disponibilidade acordados: MTBF, MTRS, MTBSI, análise SPOF, alta disponibilidade e resiliência

Descarregar pack completo

Âmbito e objectivos

Objectivo

Garantir que os serviços de TI atingem os níveis de disponibilidade acordados nos SLAs, assegurando que a infra-estrutura técnica suporta de forma sustentável as necessidades do negócio.

Trigger

Novo SLA com requisito de disponibilidade definido, incidente com impacto significativo na disponibilidade, novo requisito de negócio ou revisão de arquitectura de serviço.

Âmbito

Desde a definição de requisitos de disponibilidade até ao design, implementação de resiliência, monitorização contínua, medição e melhoria proactiva.

Fora do âmbito

Resolução de incidentes individuais (gestão de incidentes), negociação de SLAs (gestão de níveis de serviço) e dimensionamento de capacidade para responder à procura (gestão de capacidade).

Output

Plano de disponibilidade documentado, análise SPOF com recomendações de design, relatórios de disponibilidade por serviço (MTBF, MTRS, MTBSI, % disponibilidade) e recomendações de melhoria implementadas.

Diagrama do processo

Diagrama BPMN simplificado do processo de gestão de disponibilidade (3 swimlanes). Percorra horizontalmente em dispositivos móveis.

Actividades macro

#	Actividade	Responsável	Input	Output
1	Definição de requisitos de disponibilidade	Availability manager / Service owner	SLAs, requisitos de negócio	Requisitos de disponibilidade documentados por serviço
2	Análise de riscos e SPOF	Availability manager / Eq. técnica	Arquitectura, CMDB	SPOFs identificados, riscos avaliados
3	Design para alta disponibilidade	Availability manager / Arquitectura	SPOFs, requisitos documentados	Recomendações de design (redundância, failover, clustering)
4	Implementação de soluções de resiliência	Equipa técnica	Design aprovado	Soluções implementadas (HA, load balancing, DR)
5	Monitorização de disponibilidade	Availability manager / Monitorização	Dados operacionais em tempo real	Dashboards de disponibilidade por serviço
6	Medição e cálculo de indicadores	Availability manager	Dados de incidentes e monitorização	MTBF, MTRS, MTBSI e % disponibilidade calculados
7	Reporting de disponibilidade	Availability manager	Indicadores calculados	Relatórios para SLM e gestão
8	Análise de tendências e planeamento	Availability manager	Dados históricos de disponibilidade	Previsões, plano proactivo de disponibilidade
9	Melhoria da disponibilidade	Availability manager / Eq. técnica	Análise de tendências, incidentes	Melhorias implementadas, SPOFs eliminados

Métricas de disponibilidade

Métrica	Significado	Fórmula	Exemplo
MTBF	Mean Time Between Failures, tempo médio entre falhas consecutivas do serviço	Tempo total de operação / número de falhas	720h operação, 3 falhas = MTBF de 240h
MTRS	Mean Time to Restore Service, tempo médio para repor o serviço após uma falha	Soma dos tempos de restauro / número de falhas	3 falhas com restauros de 1h, 2h e 3h = MTRS de 2h
MTBSI	Mean Time Between Service Incidents, intervalo médio entre o início de incidentes (inclui o tempo de restauro)	MTBF + MTRS	MTBF 240h + MTRS 2h = MTBSI 242h
Disponibilidade %	Percentagem do tempo acordado em que o serviço está disponível e funcional	MTBF / (MTBF + MTRS) × 100	99,9% = 8,7h downtime/ano; 99,99% = 52min/ano
Downtime planeado	Indisponibilidade acordada antecipadamente para manutenção ou upgrades	Soma das janelas de manutenção no período	2 janelas × 2h = 4h downtime planeado/mês
Downtime não planeado	Indisponibilidade causada por falhas, incidentes ou eventos inesperados	Tempo total de restauro de incidentes no período	3 incidentes × 30min médio = 1,5h downtime não planeado/mês

Níveis de disponibilidade típicos por tier de serviço: Gold 99,99%, Silver 99,9%, Bronze 99,5%. Estes valores devem ser definidos no SLA com o service owner e reflectidos no plano de disponibilidade.

Descrição detalhada das actividades

1 Definição de requisitos de disponibilidade

O ponto de partida do processo é compreender o que o negócio realmente necessita em termos de disponibilidade. Cada serviço tem criticidade distinta: um sistema de pagamentos exige disponibilidade muito superior a uma ferramenta interna de relatórios. O availability manager trabalha com o service owner para traduzir necessidades de negócio em requisitos técnicos mensuráveis, considerando as VBFs (Vital Business Functions) que dependem de cada serviço.

Passos chave

Identificar as VBFs suportadas por cada serviço
Determinar o nível de disponibilidade requerido (Gold 99,99%, Silver 99,9%, Bronze 99,5%)
Definir janelas de serviço acordadas (horário de funcionamento, janelas de manutenção)
Documentar impacto do negócio em caso de indisponibilidade (financeiro, operacional, reputacional)
Alinhar requisitos com os SLAs existentes ou a negociar com o SLM

Critério de saída: requisitos de disponibilidade documentados por serviço, com tier definido, VBFs identificadas e aprovação do service owner.

2 Análise de riscos e SPOF

Um SPOF (Single Point of Failure) é qualquer componente cuja falha provoca a indisponibilidade total do serviço. A identificação sistemática de SPOFs é importante para qualquer estratégia de alta disponibilidade. Utilizam-se duas técnicas principais: CFIA (Component Failure Impact Analysis) para mapear o impacto de falhas por componente, e FTA (Fault Tree Analysis) para identificar combinações de falhas que conduzem à interrupção do serviço.

Passos chave

Mapear a arquitectura completa do serviço com base na CMDB
Aplicar CFIA: para cada componente, simular a sua falha e avaliar o impacto no serviço
Aplicar FTA: identificar combinações de falhas que comprometem a disponibilidade
Classificar SPOFs por criticidade e probabilidade de ocorrência
Documentar riscos não mitigados e propor plano de acção

Critério de saída: lista de SPOFs identificados e priorizados, riscos avaliados e plano de remediação proposto.

3 Design para alta disponibilidade

Com base nos SPOFs identificados, o availability manager e a equipa de arquitectura definem os padrões de design que garantem os níveis de disponibilidade acordados. Os principais padrões incluem redundância activa-activa (ambos os nós servem tráfego simultaneamente), activa-passiva (failover automático para o nó secundário) e N+1 (capacidade de sobressalvo para absorver falhas). Para serviços críticos, considera-se também distribuição geográfica e disaster recovery.

Passos chave

Seleccionar padrão de redundância adequado ao tier do serviço (activa-activa, activa-passiva, N+1)
Definir estratégia de load balancing (aplicacional, de rede, geográfico)
Especificar RTO (Recovery Time Objective) e RPO (Recovery Point Objective) por serviço
Integrar requisitos de disponibilidade no processo de change enablement
Validar design com equipa técnica e security para garantir ausência de novos riscos

Critério de saída: especificação de design aprovada com padrões de redundância definidos, RTO/RPO documentados e validação técnica concluída.

4 Implementação de soluções de resiliência

A equipa técnica implementa as soluções de alta disponibilidade definidas na fase de design. Esta actividade abrange desde configuração de clusters e balanceadores de carga até scripts de failover automatizado. A implementação deve seguir o processo de change enablement para minimizar risco de impacto em serviços em produção.

Passos chave

Implementar clustering (activo-activo ou activo-passivo) para componentes críticos
Configurar load balancers com health checks e failover automático
Implementar redundância de rede (ligações, routers, switches)
Configurar sistemas de backup de energia (UPS, grupos geradores)
Documentar procedimentos de failover e validar com testes controlados

Critério de saída: soluções de HA implementadas e testadas, procedimentos de failover documentados e validados.

5 Monitorização de disponibilidade

A monitorização contínua permite detectar degradações de disponibilidade antes que se tornem incidentes visíveis para os utilizadores. O availability manager define as métricas a monitorizar, os limiares de alerta e as acções automáticas de resposta. A monitorização deve cobrir não apenas a disponibilidade do serviço end-to-end, mas também os componentes individuais que o constituem.

Passos chave

Configurar checks de disponibilidade end-to-end (sintéticos e reais)
Monitorizar componentes individuais (servidores, bases de dados, rede, aplicações)
Definir limiares de alerta proactivo (antes de breach do SLA)
Configurar dashboards de disponibilidade em tempo real por serviço
Integrar alertas com o processo de gestão de incidentes para resposta imediata

Critério de saída: dashboards de disponibilidade operacionais por serviço, alertas configurados e integração com gestão de incidentes validada.

6 Medição e cálculo de indicadores

O cálculo rigoroso dos indicadores de disponibilidade é o fundamento de qualquer processo de gestão da disponibilidade. Os dados são recolhidos da ferramenta de monitorização e dos registos de incidentes, e calculados periodicamente (tipicamente mensal). É importante distinguir disponibilidade dentro da janela de serviço acordada (que é o valor contratual) da disponibilidade total, que inclui períodos fora de serviço.

Passos chave

Recolher dados de downtime da ferramenta de monitorização e do registo de incidentes
Calcular MTBF: tempo total de operação / número de falhas no período
Calcular MTRS: soma dos tempos de restauro / número de falhas
Calcular MTBSI: MTBF + MTRS
Calcular % disponibilidade: MTBF / (MTBF + MTRS) × 100
Separar downtime planeado (manutenção) de downtime não planeado (incidentes)

Critério de saída: MTBF, MTRS, MTBSI e percentagem de disponibilidade calculados e validados para cada serviço no período.

7 Reporting de disponibilidade

Os relatórios de disponibilidade comunicam o desempenho real dos serviços face ao acordado em SLA. São documentos formais que alimentam as reuniões de revisão de SLA com os service owners e clientes. O relatório deve apresentar os dados de forma clara, contextualizar desvios face ao target e propor acções correctivas quando aplicável.

Passos chave

Elaborar relatório mensal por serviço com MTBF, MTRS, MTBSI e % disponibilidade
Comparar disponibilidade real com o target do SLA e identificar brechas
Detalhar incidentes que contribuíram para indisponibilidade não planeada
Apresentar tendência histórica (últimos 3, 6 e 12 meses)
Incluir recomendações de melhoria para serviços abaixo do target

Critério de saída: relatório de disponibilidade entregue ao SLM e service owners dentro do prazo acordado, com dados validados e recomendações incluídas.

8 Análise de tendências e planeamento

A gestão da disponibilidade é eminentemente proactiva. A análise de tendências permite antecipar degradações antes que se tornem brechas de SLA. O availability manager analisa a evolução dos indicadores ao longo do tempo, identifica padrões (sazonalidade, crescimento de utilização, envelhecimento de componentes) e actualiza o plano de disponibilidade para o período seguinte.

Passos chave

Analisar evolução de MTBF e MTRS ao longo de 6 a 12 meses
Identificar componentes com tendência de degradação (MTBF decrescente)
Avaliar impacto de crescimento de utilização na disponibilidade futura (interface com capacity management)
Planear acções preventivas: substituição de componentes, upgrades, reforço de redundância
Actualizar o plano de disponibilidade e o calendário de manutenção preventiva

Critério de saída: plano de disponibilidade actualizado com acções preventivas priorizadas e calendário de manutenção revisto.

9 Melhoria da disponibilidade

A melhoria contínua da disponibilidade é o resultado de um ciclo iterativo de análise, planeamento e implementação. Cada incidente que causou downtime não planeado, cada SPOF identificado e cada tendência negativa detectada é uma oportunidade de melhoria. O availability manager coordena com a equipa técnica a implementação de melhorias e valida os resultados nos relatórios seguintes.

Passos chave

Priorizar melhorias com base no impacto esperado na disponibilidade e no esforço de implementação
Eliminar SPOFs identificados através de redundância ou substituição de componentes
Optimizar procedimentos de restauro para reduzir MTRS
Automatizar failover e recuperação para minimizar tempo de intervenção humana
Validar melhoria através da comparação de indicadores antes e após a implementação

Critério de saída: melhorias implementadas com impacto validado nos indicadores de disponibilidade; SPOFs eliminados ou mitigados documentados.

Modelo RACI

Actividade	Avail. manager (AM)	Eq. técnica (ET)	Arquitectura (AR)	Service owner (SO)	SL manager (SLM)
Definição de requisitos de disponibilidade	R	-	C	A	C
Análise de riscos e SPOF	A	R	C	I	-
Design para alta disponibilidade	R	C	A	I	-
Implementação de soluções de resiliência	A	R	C	I	-
Monitorização de disponibilidade	A	R	-	I	I
Medição e cálculo de indicadores	A	-	-	R	I
Reporting de disponibilidade	R	-	-	C	A
Análise de tendências e planeamento	R	C	C	A	I
Melhoria da disponibilidade	A	R	C	I	I

R Responsible - executa a actividade A Accountable - responde pelo resultado C Consulted - é consultado I Informed - é informado

Métricas e KPIs

Métrica	Descrição	Target sugerido
Disponibilidade % por serviço	Percentagem do tempo acordado em que o serviço está disponível, calculada como MTBF / (MTBF + MTRS) × 100	Gold: 99,99% Silver: 99,9% Bronze: 99,5%
MTBF	Mean Time Between Failures: tempo médio entre falhas consecutivas do serviço. Quanto maior, mais estável o serviço.	Crescente mês a mês
MTRS	Mean Time to Restore Service: tempo médio para repor o serviço após falha. Inclui detecção, diagnóstico e restauro.	Decrescente mês a mês
MTBSI	Mean Time Between Service Incidents: intervalo médio entre o início de incidentes consecutivos (MTBF + MTRS)	Crescente mês a mês
Downtime planeado vs não planeado	Separação do downtime total em manutenção acordada (planeado) e falhas inesperadas (não planeado)	Não planeado < 20% do downtime total
SPOFs identificados e eliminados	Número de SPOFs identificados pela análise SPOF e percentagem que foram mitigados ou eliminados	100% dos SPOFs críticos mitigados
Brechas de SLA por disponibilidade	Número de períodos em que a disponibilidade ficou abaixo do target acordado no SLA	0 brechas por período

Interfaces com outros processos

Entrada

Gestão de níveis de serviço (SLM)

O SLM define os targets de disponibilidade acordados com o cliente. A gestão de disponibilidade recebe esses targets e garante que são tecnicamente alcançáveis e sustentáveis.

Entrada

Gestão de incidentes

Os dados de downtime e tempo de restauro recolhidos pela gestão de incidentes são o principal input para o cálculo de MTRS e MTBF na gestão de disponibilidade.

Entrada

CMDB

A CMDB fornece a arquitectura completa dos serviços e as dependências entre CIs, que são o ponto de partida para a análise SPOF e para o design de alta disponibilidade.

Saida

Gestão de capacidade

A gestão de disponibilidade partilha dados sobre tendências de degradação e requisitos de resiliência que informam o dimensionamento de capacidade necessário para manter os níveis de disponibilidade acordados.

Saida

Gestão de continuidade

O BIA (Business Impact Analysis) e os planos de DR partilham requisitos de RTO/RPO com a gestão de disponibilidade, que contribui com o design de resiliência e os dados de MTRS por serviço.

Entrada

Change enablement

Todas as mudanças ao ambiente devem ser avaliadas quanto ao impacto na disponibilidade antes da aprovação. A gestão de disponibilidade participa na avaliação de risco de mudanças com potencial de afectar a disponibilidade dos serviços.

Descarregar o pack completo

Inclui o processo documentado, plano de disponibilidade, folha de cálculo MTBF/MTRS/MTBSI, modelo RACI e relatório mensal de disponibilidade.

Descarregar pack completo Precisa de ajuda a implementar? Fale connosco