Gestão de continuidade de serviço
Processo end-to-end com BIA, estratégias de DR, planos de continuidade, testes e activação
Descarregar pack completoÂmbito e objectivos
Garantir que a disponibilidade e o desempenho dos serviços são mantidos a níveis suficientes em caso de desastre ou interrupção grave.
Alteração no perfil de risco, resultado de BIA, teste periódico, incidente grave ou requisito regulamentar.
Desde a análise de impacto no negócio (BIA) até ao planeamento, teste e activação de planos de recuperação.
Resolução de incidentes operacionais normais (gestão de incidentes). Gestão de riscos corporativos genéricos (gestão de riscos).
BIA documentada, planos de continuidade e recuperação, resultados de testes, relatórios de activação.
Diagrama do processo
Diagrama BPMN simplificado do processo de gestão de continuidade de serviço (3 swimlanes). Percorra horizontalmente em dispositivos móveis.
Actividades macro
| # | Actividade | Responsável | Input | Output |
|---|---|---|---|---|
| 1 | Análise de impacto no negócio (BIA) | Continuity manager / Áreas de negócio | Catálogo de serviços, requisitos de negócio | VBFs identificadas, RTO/RPO definidos |
| 2 | Avaliação de riscos de continuidade | Continuity manager | BIA, ameaças e vulnerabilidades | Riscos avaliados e priorizados |
| 3 | Definição de estratégias de recuperação | Continuity manager / Equipa técnica | Riscos, RTO/RPO, orçamento | Estratégias aprovadas (cold/warm/hot site, backup, replicação) |
| 4 | Elaboração de planos de continuidade | Continuity manager | Estratégias aprovadas | Planos de continuidade e recuperação documentados |
| 5 | Implementação de soluções de DR | Equipa técnica | Planos aprovados | Infra-estrutura de DR implementada (site alternativo, backups, replicação) |
| 6 | Formação e sensibilização | Continuity manager / RH | Planos de continuidade | Equipas formadas nos procedimentos de activação |
| 7 | Testes de continuidade | Continuity manager / Equipa técnica | Planos, calendário de testes | Resultados dos testes, lacunas identificadas |
| 8 | Activação do plano (em caso de desastre) | Continuity manager / Gestão de topo | Incidente grave / desastre declarado | Serviços restaurados, comunicação executada |
| 9 | Revisão e melhoria | Continuity manager | Resultados de testes e activações | Planos actualizados, melhorias implementadas |
Descrição detalhada das actividades
A BIA é o ponto de partida do processo. Identifica as funções vitais de negócio (VBFs), os serviços que as suportam e os impactos financeiros, operacionais e reputacionais de uma interrupção prolongada. Os resultados da BIA determinam os valores de RTO (Recovery Time Objective) e RPO (Recovery Point Objective) para cada serviço crítico.
Passos chave
- Identificar as funções vitais de negócio e os serviços de suporte correspondentes
- Quantificar o impacto financeiro e operacional por hora/dia de indisponibilidade
- Definir o RTO máximo aceitável para cada serviço crítico
- Definir o RPO máximo aceitável (perda de dados tolerável)
- Validar resultados com os responsáveis de negócio
- Documentar e actualizar a BIA anualmente ou após alterações significativas
Com base na BIA, o continuity manager identifica as ameaças e vulnerabilidades que podem causar interrupções nos serviços críticos. A avaliação de riscos determina a probabilidade e o impacto de cada cenário de desastre (falha de datacenter, ciberataque, catástrofe natural, falha de fornecedor), permitindo priorizar os investimentos em medidas de continuidade.
Passos chave
- Identificar ameaças relevantes para cada serviço crítico (técnicas, ambientais, humanas)
- Avaliar vulnerabilidades actuais da infra-estrutura e dos processos
- Calcular o nível de risco (probabilidade x impacto) para cada cenário
- Priorizar riscos que exigem estratégias de mitigação imediata
- Registar no registo de riscos organizacional
Com base nos RTOs/RPOs e nos riscos identificados, são definidas as estratégias de recuperação adequadas para cada serviço crítico. As opções variam entre cold site (recuperação lenta, baixo custo), warm site (equipamento pré-instalado) e hot site (infra-estrutura activa em tempo real). A replicação de dados e os backups completam o conjunto de estratégias técnicas.
Passos chave
- Analisar opções de recuperação face aos RTOs/RPOs definidos
- Avaliar custo-benefício de cada estratégia (cold/warm/hot site, cloud DR)
- Seleccionar estratégia de backup e replicação de dados adequada ao RPO
- Definir fornecedores e contratos de suporte para situações de crise
- Submeter estratégias à aprovação da gestão de topo
O continuity manager documenta os planos de continuidade de negócio (BCP) e os planos de recuperação de desastres (DRP). Cada plano inclui procedimentos detalhados de activação, responsabilidades, contactos de emergência, passos de recuperação e critérios de retorno à normalidade. Os planos devem ser claros o suficiente para serem executados sob pressão.
Passos chave
- Documentar o BCP com procedimentos de activação e comunicação de crise
- Documentar o DRP com passos técnicos de recuperação para cada serviço
- Definir critérios claros de declaração de desastre
- Incluir árvore de contactos de emergência e escalação
- Definir critérios de retorno à operação normal (failback)
- Submeter à revisão e aprovação formal
A equipa técnica implementa as soluções técnicas de disaster recovery definidas nas estratégias aprovadas. Isto inclui configuração de sites alternativos, implementação de replicação de dados, configuração de backups automatizados e validação das capacidades de recuperação. A implementação deve ser tratada como um projecto formal com milestones e critérios de aceitação.
Passos chave
- Configurar o ambiente de DR (site alternativo ou cloud DR)
- Implementar e validar replicação de dados em tempo real ou near-real-time
- Configurar backups com frequência alinhada ao RPO definido
- Validar conectividade e acesso ao ambiente de DR
- Documentar a arquitectura de DR e os procedimentos técnicos de activação
A continuidade de serviço só funciona em crise se as equipas souberem o que fazer. A formação cobre os procedimentos de activação, as responsabilidades de cada papel e os canais de comunicação a utilizar durante uma situação de desastre. A sensibilização é estendida a toda a organização, garantindo que todos conhecem os procedimentos básicos de emergência.
Passos chave
- Identificar as equipas com responsabilidades nos planos de continuidade
- Realizar sessões de formação sobre procedimentos de activação e comunicação de crise
- Distribuir o plano de continuidade em formato físico e digital acessível offline
- Realizar sessões de sensibilização para colaboradores gerais
- Registar presenças e manter evidências de formação
Os testes são o único modo de validar que os planos e a infra-estrutura de DR funcionam conforme esperado. Existem três tipos principais: desktop walkthrough (revisão teórica do plano), simulação (exercício sem activação real) e teste pleno (activação completa do plano). Cada teste deve ser documentado, incluindo desvios ao RTO/RPO e lacunas identificadas.
Passos chave
- Definir o calendário anual de testes (mínimo um teste pleno por ano)
- Executar desktop walkthrough com todas as equipas envolvidas
- Realizar simulações de cenários específicos (ex.: falha de datacenter principal)
- Executar teste pleno com activação real do ambiente de DR
- Medir o RTO e RPO efectivos e comparar com os targets
- Documentar resultados, lacunas e acções de melhoria
A activação real do plano ocorre quando um evento grave coloca em risco a continuidade dos serviços críticos. A declaração formal de desastre é responsabilidade da gestão de topo, com base nos critérios pré-definidos. Durante a activação, a comunicação é crítica: stakeholders internos e externos devem ser informados de forma regular e estruturada. Após a recuperação, segue-se o processo de failback para os sistemas de produção.
Passos chave
- Avaliar o evento face aos critérios de declaração de desastre
- Obter aprovação formal da gestão de topo para activação
- Notificar todas as equipas de resposta segundo a árvore de contactos
- Activar o ambiente de DR e executar os procedimentos técnicos de recuperação
- Comunicar o estado de recuperação a stakeholders internos e externos
- Confirmar que os RTOs foram cumpridos e que os serviços estão operacionais
- Planear e executar o failback para a produção quando adequado
Após cada teste ou activação real, o continuity manager lidera uma revisão pós-evento. O objectivo é identificar o que funcionou, o que falhou e o que precisa de ser melhorado nos planos, na infra-estrutura ou nos processos. Os planos são actualizados com as lições aprendidas e as melhorias são registadas como acções formais com responsáveis e prazos.
Passos chave
- Realizar reunião de revisão pós-teste ou pós-activação com todas as equipas envolvidas
- Identificar desvios ao RTO/RPO e causas raiz
- Actualizar BCP e DRP com lições aprendidas
- Registar melhorias como acções formais com responsável e prazo
- Comunicar resultados à gestão de topo
- Verificar se a BIA e os riscos precisam de ser reavaliados
Modelo RACI
| Actividade | Continuity manager (CM) |
Equipa técnica (ET) |
Gestão de topo (GT) |
Service owner (SO) |
Director TI (IT) |
|---|---|---|---|---|---|
| BIA | A | R | I | C | I |
| Avaliação de riscos | A | R | I | I | C |
| Estratégias de recuperação | R | R | A | C | C |
| Elaboração de planos | A | R | I | C | I |
| Implementação de DR | A | R | I | I | C |
| Formação | A | R | I | I | I |
| Testes de continuidade | A | R | I | C | I |
| Activação do plano | R | R | A | I | - |
| Revisão e melhoria | A | R | I | C | I |
Métricas e KPIs
| Métrica | Descrição | Target sugerido |
|---|---|---|
| RTO/RPO compliance | Percentagem de serviços críticos dentro dos targets de RTO e RPO definidos na BIA | 100% dos serviços críticos |
| Testes realizados | Percentagem de testes de continuidade realizados conforme o calendário anual aprovado | 100% do calendário |
| Tempo de activação | Tempo desde a declaração de desastre até à activação completa do plano de continuidade | < RTO definido |
| Cobertura de continuidade | Percentagem de serviços críticos cobertos por um plano de continuidade documentado e testado | > 95% |
| Taxa de sucesso dos testes | Percentagem de testes de continuidade concluídos sem falhas críticas nos procedimentos | > 90% |
| RTO real vs target | Comparação entre o tempo de recuperação efectivo em activações reais e o RTO definido | RTO efectivo ≤ RTO target |
| Planos revistos no prazo | Percentagem de planos de continuidade revistos e aprovados dentro do ciclo anual definido | 100% anualmente |
Interfaces com outros processos
Gestão de incidentes
Major incidents podem escalar para activação do plano de continuidade quando os critérios de desastre são atingidos.
Segurança da informação
Ameaças de segurança (ex.: ransomware, ciberataque) podem ser o trigger para activação do plano de continuidade.
Change enablement
Alterações na infra-estrutura de DR (site alternativo, replicação, backups) requerem RFC formal para controlo de mudanças.
CMDB
Identificação de CIs críticos e dependências entre componentes, essencial para a BIA e para o planeamento da recuperação.
Service level management
Os RTOs e RPOs são derivados dos SLAs acordados com os clientes, garantindo alinhamento entre os targets de continuidade e os compromissos de serviço.
Gestão de riscos
Os riscos de continuidade identificados alimentam o registo de riscos organizacional para gestão integrada ao nível da empresa.
Descarregar o pack completo
Inclui o processo documentado, template de BIA, plano de recuperação de desastres, checklist de teste de continuidade e modelo RACI em Excel.