Processo ITSM Alinhado com ITIL

Gestão de continuidade de serviço

Processo end-to-end com BIA, estratégias de DR, planos de continuidade, testes e activação

Descarregar pack completo

Âmbito e objectivos

Objectivo

Garantir que a disponibilidade e o desempenho dos serviços são mantidos a níveis suficientes em caso de desastre ou interrupção grave.

Trigger

Alteração no perfil de risco, resultado de BIA, teste periódico, incidente grave ou requisito regulamentar.

Âmbito

Desde a análise de impacto no negócio (BIA) até ao planeamento, teste e activação de planos de recuperação.

Fora do âmbito

Resolução de incidentes operacionais normais (gestão de incidentes). Gestão de riscos corporativos genéricos (gestão de riscos).

Output

BIA documentada, planos de continuidade e recuperação, resultados de testes, relatórios de activação.

Diagrama do processo

Diagrama BPMN simplificado do processo de gestão de continuidade de serviço (3 swimlanes). Percorra horizontalmente em dispositivos móveis.

Actividades macro

# Actividade Responsável Input Output
1 Análise de impacto no negócio (BIA) Continuity manager / Áreas de negócio Catálogo de serviços, requisitos de negócio VBFs identificadas, RTO/RPO definidos
2 Avaliação de riscos de continuidade Continuity manager BIA, ameaças e vulnerabilidades Riscos avaliados e priorizados
3 Definição de estratégias de recuperação Continuity manager / Equipa técnica Riscos, RTO/RPO, orçamento Estratégias aprovadas (cold/warm/hot site, backup, replicação)
4 Elaboração de planos de continuidade Continuity manager Estratégias aprovadas Planos de continuidade e recuperação documentados
5 Implementação de soluções de DR Equipa técnica Planos aprovados Infra-estrutura de DR implementada (site alternativo, backups, replicação)
6 Formação e sensibilização Continuity manager / RH Planos de continuidade Equipas formadas nos procedimentos de activação
7 Testes de continuidade Continuity manager / Equipa técnica Planos, calendário de testes Resultados dos testes, lacunas identificadas
8 Activação do plano (em caso de desastre) Continuity manager / Gestão de topo Incidente grave / desastre declarado Serviços restaurados, comunicação executada
9 Revisão e melhoria Continuity manager Resultados de testes e activações Planos actualizados, melhorias implementadas

Descrição detalhada das actividades

A BIA é o ponto de partida do processo. Identifica as funções vitais de negócio (VBFs), os serviços que as suportam e os impactos financeiros, operacionais e reputacionais de uma interrupção prolongada. Os resultados da BIA determinam os valores de RTO (Recovery Time Objective) e RPO (Recovery Point Objective) para cada serviço crítico.

Passos chave

  • Identificar as funções vitais de negócio e os serviços de suporte correspondentes
  • Quantificar o impacto financeiro e operacional por hora/dia de indisponibilidade
  • Definir o RTO máximo aceitável para cada serviço crítico
  • Definir o RPO máximo aceitável (perda de dados tolerável)
  • Validar resultados com os responsáveis de negócio
  • Documentar e actualizar a BIA anualmente ou após alterações significativas
Critério de saída: BIA aprovada com VBFs, RTO e RPO documentados e validados pelas áreas de negócio.

Com base na BIA, o continuity manager identifica as ameaças e vulnerabilidades que podem causar interrupções nos serviços críticos. A avaliação de riscos determina a probabilidade e o impacto de cada cenário de desastre (falha de datacenter, ciberataque, catástrofe natural, falha de fornecedor), permitindo priorizar os investimentos em medidas de continuidade.

Passos chave

  • Identificar ameaças relevantes para cada serviço crítico (técnicas, ambientais, humanas)
  • Avaliar vulnerabilidades actuais da infra-estrutura e dos processos
  • Calcular o nível de risco (probabilidade x impacto) para cada cenário
  • Priorizar riscos que exigem estratégias de mitigação imediata
  • Registar no registo de riscos organizacional
Critério de saída: registo de riscos de continuidade actualizado com nível de risco, prioridade e estratégia de tratamento para cada cenário.

Com base nos RTOs/RPOs e nos riscos identificados, são definidas as estratégias de recuperação adequadas para cada serviço crítico. As opções variam entre cold site (recuperação lenta, baixo custo), warm site (equipamento pré-instalado) e hot site (infra-estrutura activa em tempo real). A replicação de dados e os backups completam o conjunto de estratégias técnicas.

Passos chave

  • Analisar opções de recuperação face aos RTOs/RPOs definidos
  • Avaliar custo-benefício de cada estratégia (cold/warm/hot site, cloud DR)
  • Seleccionar estratégia de backup e replicação de dados adequada ao RPO
  • Definir fornecedores e contratos de suporte para situações de crise
  • Submeter estratégias à aprovação da gestão de topo
Critério de saída: estratégias de recuperação aprovadas pela gestão de topo, com orçamento e responsáveis definidos.

O continuity manager documenta os planos de continuidade de negócio (BCP) e os planos de recuperação de desastres (DRP). Cada plano inclui procedimentos detalhados de activação, responsabilidades, contactos de emergência, passos de recuperação e critérios de retorno à normalidade. Os planos devem ser claros o suficiente para serem executados sob pressão.

Passos chave

  • Documentar o BCP com procedimentos de activação e comunicação de crise
  • Documentar o DRP com passos técnicos de recuperação para cada serviço
  • Definir critérios claros de declaração de desastre
  • Incluir árvore de contactos de emergência e escalação
  • Definir critérios de retorno à operação normal (failback)
  • Submeter à revisão e aprovação formal
Critério de saída: BCP e DRP documentados, aprovados e disponibilizados em local acessível mesmo em caso de falha dos sistemas principais.

A equipa técnica implementa as soluções técnicas de disaster recovery definidas nas estratégias aprovadas. Isto inclui configuração de sites alternativos, implementação de replicação de dados, configuração de backups automatizados e validação das capacidades de recuperação. A implementação deve ser tratada como um projecto formal com milestones e critérios de aceitação.

Passos chave

  • Configurar o ambiente de DR (site alternativo ou cloud DR)
  • Implementar e validar replicação de dados em tempo real ou near-real-time
  • Configurar backups com frequência alinhada ao RPO definido
  • Validar conectividade e acesso ao ambiente de DR
  • Documentar a arquitectura de DR e os procedimentos técnicos de activação
Critério de saída: infra-estrutura de DR implementada e validada, com confirmação de que os RTOs/RPOs técnicos são alcançáveis.

A continuidade de serviço só funciona em crise se as equipas souberem o que fazer. A formação cobre os procedimentos de activação, as responsabilidades de cada papel e os canais de comunicação a utilizar durante uma situação de desastre. A sensibilização é estendida a toda a organização, garantindo que todos conhecem os procedimentos básicos de emergência.

Passos chave

  • Identificar as equipas com responsabilidades nos planos de continuidade
  • Realizar sessões de formação sobre procedimentos de activação e comunicação de crise
  • Distribuir o plano de continuidade em formato físico e digital acessível offline
  • Realizar sessões de sensibilização para colaboradores gerais
  • Registar presenças e manter evidências de formação
Critério de saída: equipas formadas com evidências documentadas; plano acessível a todos os intervenientes em formato offline.

Os testes são o único modo de validar que os planos e a infra-estrutura de DR funcionam conforme esperado. Existem três tipos principais: desktop walkthrough (revisão teórica do plano), simulação (exercício sem activação real) e teste pleno (activação completa do plano). Cada teste deve ser documentado, incluindo desvios ao RTO/RPO e lacunas identificadas.

Passos chave

  • Definir o calendário anual de testes (mínimo um teste pleno por ano)
  • Executar desktop walkthrough com todas as equipas envolvidas
  • Realizar simulações de cenários específicos (ex.: falha de datacenter principal)
  • Executar teste pleno com activação real do ambiente de DR
  • Medir o RTO e RPO efectivos e comparar com os targets
  • Documentar resultados, lacunas e acções de melhoria
Critério de saída: relatório de teste aprovado com RTO/RPO medidos, lacunas documentadas e plano de remediação definido.

A activação real do plano ocorre quando um evento grave coloca em risco a continuidade dos serviços críticos. A declaração formal de desastre é responsabilidade da gestão de topo, com base nos critérios pré-definidos. Durante a activação, a comunicação é crítica: stakeholders internos e externos devem ser informados de forma regular e estruturada. Após a recuperação, segue-se o processo de failback para os sistemas de produção.

Passos chave

  • Avaliar o evento face aos critérios de declaração de desastre
  • Obter aprovação formal da gestão de topo para activação
  • Notificar todas as equipas de resposta segundo a árvore de contactos
  • Activar o ambiente de DR e executar os procedimentos técnicos de recuperação
  • Comunicar o estado de recuperação a stakeholders internos e externos
  • Confirmar que os RTOs foram cumpridos e que os serviços estão operacionais
  • Planear e executar o failback para a produção quando adequado
Critério de saída: serviços críticos restaurados dentro do RTO definido; comunicação executada; registo de activação documentado.

Após cada teste ou activação real, o continuity manager lidera uma revisão pós-evento. O objectivo é identificar o que funcionou, o que falhou e o que precisa de ser melhorado nos planos, na infra-estrutura ou nos processos. Os planos são actualizados com as lições aprendidas e as melhorias são registadas como acções formais com responsáveis e prazos.

Passos chave

  • Realizar reunião de revisão pós-teste ou pós-activação com todas as equipas envolvidas
  • Identificar desvios ao RTO/RPO e causas raiz
  • Actualizar BCP e DRP com lições aprendidas
  • Registar melhorias como acções formais com responsável e prazo
  • Comunicar resultados à gestão de topo
  • Verificar se a BIA e os riscos precisam de ser reavaliados
Critério de saída: planos actualizados com lições aprendidas; acções de melhoria registadas e atribuídas; relatório de revisão aprovado.

Modelo RACI

Actividade Continuity manager
(CM)
Equipa técnica
(ET)
Gestão de topo
(GT)
Service owner
(SO)
Director TI
(IT)
BIA A R I C I
Avaliação de riscos A R I I C
Estratégias de recuperação R R A C C
Elaboração de planos A R I C I
Implementação de DR A R I I C
Formação A R I I I
Testes de continuidade A R I C I
Activação do plano R R A I -
Revisão e melhoria A R I C I
R Responsible - executa a actividade A Accountable - responde pelo resultado C Consulted - é consultado I Informed - é informado

Métricas e KPIs

Métrica Descrição Target sugerido
RTO/RPO compliance Percentagem de serviços críticos dentro dos targets de RTO e RPO definidos na BIA 100% dos serviços críticos
Testes realizados Percentagem de testes de continuidade realizados conforme o calendário anual aprovado 100% do calendário
Tempo de activação Tempo desde a declaração de desastre até à activação completa do plano de continuidade < RTO definido
Cobertura de continuidade Percentagem de serviços críticos cobertos por um plano de continuidade documentado e testado > 95%
Taxa de sucesso dos testes Percentagem de testes de continuidade concluídos sem falhas críticas nos procedimentos > 90%
RTO real vs target Comparação entre o tempo de recuperação efectivo em activações reais e o RTO definido RTO efectivo ≤ RTO target
Planos revistos no prazo Percentagem de planos de continuidade revistos e aprovados dentro do ciclo anual definido 100% anualmente

Interfaces com outros processos

Entrada

Gestão de incidentes

Major incidents podem escalar para activação do plano de continuidade quando os critérios de desastre são atingidos.

Entrada

Segurança da informação

Ameaças de segurança (ex.: ransomware, ciberataque) podem ser o trigger para activação do plano de continuidade.

Saida

Change enablement

Alterações na infra-estrutura de DR (site alternativo, replicação, backups) requerem RFC formal para controlo de mudanças.

Entrada

CMDB

Identificação de CIs críticos e dependências entre componentes, essencial para a BIA e para o planeamento da recuperação.

Entrada

Service level management

Os RTOs e RPOs são derivados dos SLAs acordados com os clientes, garantindo alinhamento entre os targets de continuidade e os compromissos de serviço.

Saida

Gestão de riscos

Os riscos de continuidade identificados alimentam o registo de riscos organizacional para gestão integrada ao nível da empresa.

Descarregar o pack completo

Inclui o processo documentado, template de BIA, plano de recuperação de desastres, checklist de teste de continuidade e modelo RACI em Excel.