Processo ITSM Alinhado com ITIL

Gestão de continuidade de serviço

Processo end-to-end com BIA, estratégias de DR, planos de continuidade, testes e activação

Âmbito e objectivos

Objectivo

Garantir que a disponibilidade e o desempenho dos serviços são mantidos a níveis suficientes em caso de desastre ou interrupção grave.

Trigger

Alteração no perfil de risco, resultado de BIA, teste periódico, incidente grave ou requisito regulamentar.

Âmbito

Desde a análise de impacto no negócio (BIA) até ao planeamento, teste e activação de planos de recuperação.

Fora do âmbito

Resolução de incidentes operacionais normais (gestão de incidentes). Gestão de riscos corporativos genéricos (gestão de riscos).

Output

BIA documentada, planos de continuidade e recuperação, resultados de testes, relatórios de activação.

Diagrama do processo

Diagrama BPMN simplificado do processo de gestão de continuidade de serviço (3 swimlanes). Percorra horizontalmente em dispositivos móveis.

Actividades macro

#	Actividade	Responsável	Input	Output
1	Análise de impacto no negócio (BIA)	Continuity manager / Áreas de negócio	Catálogo de serviços, requisitos de negócio	VBFs identificadas, RTO/RPO definidos
2	Avaliação de riscos de continuidade	Continuity manager	BIA, ameaças e vulnerabilidades	Riscos avaliados e priorizados
3	Definição de estratégias de recuperação	Continuity manager / Equipa técnica	Riscos, RTO/RPO, orçamento	Estratégias aprovadas (cold/warm/hot site, backup, replicação)
4	Elaboração de planos de continuidade	Continuity manager	Estratégias aprovadas	Planos de continuidade e recuperação documentados
5	Implementação de soluções de DR	Equipa técnica	Planos aprovados	Infra-estrutura de DR implementada (site alternativo, backups, replicação)
6	Formação e sensibilização	Continuity manager / RH	Planos de continuidade	Equipas formadas nos procedimentos de activação
7	Testes de continuidade	Continuity manager / Equipa técnica	Planos, calendário de testes	Resultados dos testes, lacunas identificadas
8	Activação do plano (em caso de desastre)	Continuity manager / Gestão de topo	Incidente grave / desastre declarado	Serviços restaurados, comunicação executada
9	Revisão e melhoria	Continuity manager	Resultados de testes e activações	Planos actualizados, melhorias implementadas

Descrição detalhada das actividades

1 Análise de impacto no negócio (BIA)

A BIA é o ponto de partida do processo. Identifica as funções vitais de negócio (VBFs), os serviços que as suportam e os impactos financeiros, operacionais e reputacionais de uma interrupção prolongada. Os resultados da BIA determinam os valores de RTO (Recovery Time Objective) e RPO (Recovery Point Objective) para cada serviço crítico.

Passos chave

Identificar as funções vitais de negócio e os serviços de suporte correspondentes
Quantificar o impacto financeiro e operacional por hora/dia de indisponibilidade
Definir o RTO máximo aceitável para cada serviço crítico
Definir o RPO máximo aceitável (perda de dados tolerável)
Validar resultados com os responsáveis de negócio
Documentar e actualizar a BIA anualmente ou após alterações significativas

Critério de saída: BIA aprovada com VBFs, RTO e RPO documentados e validados pelas áreas de negócio.

2 Avaliação de riscos de continuidade

Com base na BIA, o continuity manager identifica as ameaças e vulnerabilidades que podem causar interrupções nos serviços críticos. A avaliação de riscos determina a probabilidade e o impacto de cada cenário de desastre (falha de datacenter, ciberataque, catástrofe natural, falha de fornecedor), permitindo priorizar os investimentos em medidas de continuidade.

Passos chave

Identificar ameaças relevantes para cada serviço crítico (técnicas, ambientais, humanas)
Avaliar vulnerabilidades actuais da infra-estrutura e dos processos
Calcular o nível de risco (probabilidade x impacto) para cada cenário
Priorizar riscos que exigem estratégias de mitigação imediata
Registar no registo de riscos organizacional

Critério de saída: registo de riscos de continuidade actualizado com nível de risco, prioridade e estratégia de tratamento para cada cenário.

3 Definição de estratégias de recuperação

Com base nos RTOs/RPOs e nos riscos identificados, são definidas as estratégias de recuperação adequadas para cada serviço crítico. As opções variam entre cold site (recuperação lenta, baixo custo), warm site (equipamento pré-instalado) e hot site (infra-estrutura activa em tempo real). A replicação de dados e os backups completam o conjunto de estratégias técnicas.

Passos chave

Analisar opções de recuperação face aos RTOs/RPOs definidos
Avaliar custo-benefício de cada estratégia (cold/warm/hot site, cloud DR)
Seleccionar estratégia de backup e replicação de dados adequada ao RPO
Definir fornecedores e contratos de suporte para situações de crise
Submeter estratégias à aprovação da gestão de topo

Critério de saída: estratégias de recuperação aprovadas pela gestão de topo, com orçamento e responsáveis definidos.

4 Elaboração de planos de continuidade

O continuity manager documenta os planos de continuidade de negócio (BCP) e os planos de recuperação de desastres (DRP). Cada plano inclui procedimentos detalhados de activação, responsabilidades, contactos de emergência, passos de recuperação e critérios de retorno à normalidade. Os planos devem ser claros o suficiente para serem executados sob pressão.

Passos chave

Documentar o BCP com procedimentos de activação e comunicação de crise
Documentar o DRP com passos técnicos de recuperação para cada serviço
Definir critérios claros de declaração de desastre
Incluir árvore de contactos de emergência e escalação
Definir critérios de retorno à operação normal (failback)
Submeter à revisão e aprovação formal

Critério de saída: BCP e DRP documentados, aprovados e disponibilizados em local acessível mesmo em caso de falha dos sistemas principais.

5 Implementação de soluções de DR

A equipa técnica implementa as soluções técnicas de disaster recovery definidas nas estratégias aprovadas. Isto inclui configuração de sites alternativos, implementação de replicação de dados, configuração de backups automatizados e validação das capacidades de recuperação. A implementação deve ser tratada como um projecto formal com milestones e critérios de aceitação.

Passos chave

Configurar o ambiente de DR (site alternativo ou cloud DR)
Implementar e validar replicação de dados em tempo real ou near-real-time
Configurar backups com frequência alinhada ao RPO definido
Validar conectividade e acesso ao ambiente de DR
Documentar a arquitectura de DR e os procedimentos técnicos de activação

Critério de saída: infra-estrutura de DR implementada e validada, com confirmação de que os RTOs/RPOs técnicos são alcançáveis.

6 Formação e sensibilização

A continuidade de serviço só funciona em crise se as equipas souberem o que fazer. A formação cobre os procedimentos de activação, as responsabilidades de cada papel e os canais de comunicação a utilizar durante uma situação de desastre. A sensibilização é estendida a toda a organização, garantindo que todos conhecem os procedimentos básicos de emergência.

Passos chave

Identificar as equipas com responsabilidades nos planos de continuidade
Realizar sessões de formação sobre procedimentos de activação e comunicação de crise
Distribuir o plano de continuidade em formato físico e digital acessível offline
Realizar sessões de sensibilização para colaboradores gerais
Registar presenças e manter evidências de formação

Critério de saída: equipas formadas com evidências documentadas; plano acessível a todos os intervenientes em formato offline.

7 Testes de continuidade

Os testes são o único modo de validar que os planos e a infra-estrutura de DR funcionam conforme esperado. Existem três tipos principais: desktop walkthrough (revisão teórica do plano), simulação (exercício sem activação real) e teste pleno (activação completa do plano). Cada teste deve ser documentado, incluindo desvios ao RTO/RPO e lacunas identificadas.

Passos chave

Definir o calendário anual de testes (mínimo um teste pleno por ano)
Executar desktop walkthrough com todas as equipas envolvidas
Realizar simulações de cenários específicos (ex.: falha de datacenter principal)
Executar teste pleno com activação real do ambiente de DR
Medir o RTO e RPO efectivos e comparar com os targets
Documentar resultados, lacunas e acções de melhoria

Critério de saída: relatório de teste aprovado com RTO/RPO medidos, lacunas documentadas e plano de remediação definido.

8 Activação do plano (em caso de desastre)

A activação real do plano ocorre quando um evento grave coloca em risco a continuidade dos serviços críticos. A declaração formal de desastre é responsabilidade da gestão de topo, com base nos critérios pré-definidos. Durante a activação, a comunicação é crítica: stakeholders internos e externos devem ser informados de forma regular e estruturada. Após a recuperação, segue-se o processo de failback para os sistemas de produção.

Passos chave

Avaliar o evento face aos critérios de declaração de desastre
Obter aprovação formal da gestão de topo para activação
Notificar todas as equipas de resposta segundo a árvore de contactos
Activar o ambiente de DR e executar os procedimentos técnicos de recuperação
Comunicar o estado de recuperação a stakeholders internos e externos
Confirmar que os RTOs foram cumpridos e que os serviços estão operacionais
Planear e executar o failback para a produção quando adequado

Critério de saída: serviços críticos restaurados dentro do RTO definido; comunicação executada; registo de activação documentado.

9 Revisão e melhoria

Após cada teste ou activação real, o continuity manager lidera uma revisão pós-evento. O objectivo é identificar o que funcionou, o que falhou e o que precisa de ser melhorado nos planos, na infra-estrutura ou nos processos. Os planos são actualizados com as lições aprendidas e as melhorias são registadas como acções formais com responsáveis e prazos.

Passos chave

Realizar reunião de revisão pós-teste ou pós-activação com todas as equipas envolvidas
Identificar desvios ao RTO/RPO e causas raiz
Actualizar BCP e DRP com lições aprendidas
Registar melhorias como acções formais com responsável e prazo
Comunicar resultados à gestão de topo
Verificar se a BIA e os riscos precisam de ser reavaliados

Critério de saída: planos actualizados com lições aprendidas; acções de melhoria registadas e atribuídas; relatório de revisão aprovado.

Modelo RACI

Actividade	Continuity manager (CM)	Equipa técnica (ET)	Gestão de topo (GT)	Service owner (SO)	Director TI (IT)
BIA	A	R	I	C	I
Avaliação de riscos	A	R	I	I	C
Estratégias de recuperação	R	R	A	C	C
Elaboração de planos	A	R	I	C	I
Implementação de DR	A	R	I	I	C
Formação	A	R	I	I	I
Testes de continuidade	A	R	I	C	I
Activação do plano	R	R	A	I	-
Revisão e melhoria	A	R	I	C	I

R Responsible - executa a actividade A Accountable - responde pelo resultado C Consulted - é consultado I Informed - é informado

Métricas e KPIs

Métrica	Descrição	Target sugerido
RTO/RPO compliance	Percentagem de serviços críticos dentro dos targets de RTO e RPO definidos na BIA	100% dos serviços críticos
Testes realizados	Percentagem de testes de continuidade realizados conforme o calendário anual aprovado	100% do calendário
Tempo de activação	Tempo desde a declaração de desastre até à activação completa do plano de continuidade	< RTO definido
Cobertura de continuidade	Percentagem de serviços críticos cobertos por um plano de continuidade documentado e testado	> 95%
Taxa de sucesso dos testes	Percentagem de testes de continuidade concluídos sem falhas críticas nos procedimentos	> 90%
RTO real vs target	Comparação entre o tempo de recuperação efectivo em activações reais e o RTO definido	RTO efectivo ≤ RTO target
Planos revistos no prazo	Percentagem de planos de continuidade revistos e aprovados dentro do ciclo anual definido	100% anualmente

Interfaces com outros processos

Entrada

Gestão de incidentes

Major incidents podem escalar para activação do plano de continuidade quando os critérios de desastre são atingidos.

Entrada

Segurança da informação

Ameaças de segurança (ex.: ransomware, ciberataque) podem ser o trigger para activação do plano de continuidade.

Saida

Change enablement

Alterações na infra-estrutura de DR (site alternativo, replicação, backups) requerem RFC formal para controlo de mudanças.

Entrada

CMDB

Identificação de CIs críticos e dependências entre componentes, essencial para a BIA e para o planeamento da recuperação.

Entrada

Service level management

Os RTOs e RPOs são derivados dos SLAs acordados com os clientes, garantindo alinhamento entre os targets de continuidade e os compromissos de serviço.

Saida

Gestão de riscos

Os riscos de continuidade identificados alimentam o registo de riscos organizacional para gestão integrada ao nível da empresa.

Descarregar o pack completo

Inclui o processo documentado, template de BIA, plano de recuperação de desastres, checklist de teste de continuidade e modelo RACI em Excel.

Descarregar pack completo Precisa de ajuda a implementar? Fale connosco