Gestão de incidentes
Processo end-to-end com workflow, actividades, RACI e métricas
Descarregar pack completoÂmbito e objectivos
Restaurar a operação normal do serviço o mais rapidamente possível, minimizando o impacto no negócio e garantindo conformidade com os SLAs acordados.
Detecção de uma interrupção ou degradação de serviço, originada por utilizador, monitorização automatizada ou alerta de evento.
Desde a detecção ou reporte do incidente até ao encerramento e validação pelo utilizador afectado.
Investigação de causa-raiz (gestão de problemas) e implementação de correcções permanentes que exijam uma mudança (change enablement).
Serviço restaurado, registo de incidente documentado com cronologia completa, comunicação ao utilizador confirmada e, quando aplicável, registo de problema criado para investigação de causa-raiz.
Diagrama do processo
Diagrama BPMN simplificado do processo de gestão de incidentes (3 swimlanes). Percorra horizontalmente em dispositivos móveis.
Actividades macro
| # | Actividade | Responsável | Input | Output |
|---|---|---|---|---|
| 1 | Detecção e reporte | Utilizador / Monitorização | Interrupção ou degradação de serviço | Notificação de incidente |
| 2 | Registo e classificação | Service desk | Notificação de incidente | Registo de incidente (categoria, impacto, urgência, prioridade) |
| 3 | Investigação e diagnóstico L1 | Service desk | Registo de incidente, base de conhecimento | Diagnóstico inicial, possível resolução |
| 4 | Escalação funcional | Service desk | Incidente não resolvido em L1 | Incidente atribuído a equipa técnica L2/L3 |
| 5 | Investigação e diagnóstico L2/L3 | Equipa técnica | Incidente escalado, informação de diagnóstico | Causa identificada, plano de resolução |
| 6 | Resolução e recuperação | Equipa técnica / Service desk | Plano de resolução | Serviço restaurado |
| 7 | Comunicação ao utilizador | Service desk | Resolução aplicada | Utilizador informado |
| 8 | Validação e encerramento | Service desk / Utilizador | Confirmação de resolução | Incidente encerrado, registo actualizado |
Descrição detalhada das actividades
O processo inicia quando uma interrupção ou degradação de serviço é detectada, seja pelo próprio utilizador, por alertas de monitorização automatizada ou por correlação de eventos. O canal de reporte mais comum é o portal de auto-serviço, seguido de telefone ou email para o service desk.
Passos chave
- Identificar o serviço afectado e a natureza da falha
- Reunir informação básica: utilizador, sistema, mensagem de erro, hora de início
- Escolher o canal de reporte adequado (portal, telefone, email)
- Verificar se existe incidente conhecido activo para o mesmo serviço
O service desk cria o registo formal do incidente na ferramenta ITSM e atribui os atributos de classificação. A correcta categorização determina o encaminhamento automático para a equipa certa e o SLA aplicável.
Passos chave
- Criar ticket com referência única e data/hora de reporte
- Atribuir categoria (tipo de serviço, componente afectado)
- Determinar impacto (número de utilizadores, criticidade do serviço)
- Determinar urgência (sensibilidade temporal do negócio)
- Calcular prioridade com base na matriz impacto x urgência
- Identificar o CI afectado na CMDB
O service desk realiza a análise de primeiro nível, procurando resolver o incidente com os recursos disponíveis: base de conhecimento, scripts de diagnóstico e acesso remoto. O objectivo é resolver pelo menos 70% dos incidentes sem escalação.
Passos chave
- Pesquisar incidentes semelhantes na base de conhecimento
- Verificar erros conhecidos na base de erros conhecidos (KEDB)
- Recolher informação de diagnóstico adicional junto do utilizador
- Aplicar workaround ou resolução documentada se disponível
- Documentar todos os passos de diagnóstico no ticket
Quando o service desk não consegue resolver o incidente dentro do tempo definido para L1 ou não possui competência técnica suficiente, o incidente é escalado funcionalmente para a equipa técnica especializada. A escalação hierárquica ocorre quando o incidente tem impacto significativo e requer visibilidade de gestão.
Passos chave
- Verificar se o tempo de resolução em L1 foi excedido
- Seleccionar a equipa ou especialista correcto com base na categoria do incidente
- Actualizar o ticket com toda a informação de diagnóstico recolhida
- Notificar a equipa receptora com contexto completo
- Informar o utilizador da escalação e novo prazo estimado
A equipa técnica especializada aprofunda o diagnóstico utilizando ferramentas avançadas, acesso a logs, análise de infraestrutura e, se necessário, envolvimento de fornecedores externos. O foco mantém-se na restauração do serviço, não na identificação da causa raiz.
Passos chave
- Analisar logs, métricas e eventos do período afectado
- Verificar alterações recentes no ambiente (mudanças, deploys, patches)
- Testar hipóteses de forma controlada
- Envolver fornecedores externos quando o componente afectado é externo
- Documentar progressos e actualizar estimativa de resolução
A resolução técnica é implementada e o serviço verificado como restaurado. Quando a correção definitiva requer uma mudança formal, aplica-se um workaround e cria-se o registo de mudança correspondente para implementação posterior.
Passos chave
- Implementar a solução ou workaround documentado
- Verificar o restabelecimento do serviço com testes funcionais
- Confirmar que o incidente não voltou a ocorrer após a resolução
- Actualizar o ticket com a solução aplicada
- Se aplicável, criar registo de problema para investigação de causa raiz
O service desk contacta o utilizador para informar que o serviço foi restaurado, descrever a resolução aplicada e solicitar validação. A comunicação deve ser clara, sem jargão técnico excessivo, e incluir passos que o utilizador deve executar para confirmar o funcionamento.
Passos chave
- Contactar o utilizador pelo canal preferido (email, telefone, portal)
- Descrever a resolução de forma compreensível
- Indicar os passos para validação pelo utilizador
- Definir prazo para confirmação antes do encerramento automático
O incidente é formalmente encerrado após confirmação pelo utilizador ou decorrido o prazo de resposta sem objecções. O registo é actualizado com toda a cronologia, a solução definitiva documentada e, se necessário, um artigo de conhecimento criado para referência futura.
Passos chave
- Confirmar com o utilizador que o serviço está a funcionar correctamente
- Actualizar o ticket com a causa e solução final
- Registar tempo de resolução para cálculo de métricas
- Criar ou actualizar artigo na base de conhecimento se a solução for reutilizável
- Fechar o ticket e enviar inquérito de satisfação
Modelo RACI
| Actividade | Utilizador (Uti) |
Service desk L1 (SD) |
Eq. técnica L2/L3 (ET) |
Incident manager (IM) |
Service owner (SO) |
|---|---|---|---|---|---|
| Detecção e reporte | R | I | - | A | - |
| Registo e classificação | I | R | - | A | - |
| Investigação L1 | - | R | C | A | - |
| Escalação funcional | - | R | I | A | I |
| Investigação L2/L3 | - | C | R | A | I |
| Resolução e recuperação | - | C | R | A | I |
| Comunicação ao utilizador | I | R | - | A | I |
| Validação e encerramento | C | R | - | A | I |
Métricas e KPIs
| Métrica | Descrição | Target sugerido |
|---|---|---|
| MTTR | Tempo médio desde o reporte até à resolução completa do incidente | <4h (P1) <8h (P2) <24h (P3) |
| Taxa de resolução L1 | Percentagem de incidentes resolvidos pelo service desk sem escalação para equipas técnicas | > 70% |
| Cumprimento de SLA | Percentagem de incidentes resolvidos dentro do tempo de resolução acordado em SLA | > 95% |
| Taxa de reaberturas | Percentagem de incidentes encerrados que foram reabertos por não resolução efectiva | < 5% |
| Incidentes por prioridade | Distribuição percentual de incidentes por nível de prioridade (P1 a P4) | P1 < 5% do total |
| Satisfação do utilizador | Classificação média dada pelo utilizador no inquérito pós-resolução | > 4,0/5,0 |
Interfaces com outros processos
Gestão de problemas
Incidentes recorrentes ou de elevado impacto geram registos de problema para investigação de causa raiz.
Change enablement
Quando a resolução definitiva implica uma alteração ao ambiente, é criado um registo de mudança para implementação formal.
Gestão do conhecimento
Resoluções documentadas e workarounds eficazes alimentam a base de conhecimento para uso futuro pelo service desk.
Service desk
Ponto de contacto único para reporte, comunicação ao utilizador e coordenação das escalações ao longo do ciclo de vida do incidente.
CMDB
O registo do incidente referencia o CI afectado na CMDB, permitindo análise de impacto e histórico por componente.
Monitorização e eventos
Alertas gerados pela ferramenta de monitorização criam incidentes automaticamente, sem necessidade de reporte manual pelo utilizador.
Descarregar o pack completo
Inclui o processo documentado, formulário de registo de incidentes, modelo RACI em Excel e templates de comunicação.