Gestão de problemas
Processo end-to-end com workflow, actividades, RACI e métricas
Descarregar pack completoÂmbito e objectivos
Reduzir a probabilidade e o impacto dos incidentes, identificando as causas reais e potenciais e gerindo workarounds e erros conhecidos.
Incidentes recorrentes, tendências identificadas na análise de dados, investigação proactiva.
Desde a identificação de um problema até à resolução permanente ou documentação de workaround.
Restauro imediato de serviço (gestão de incidentes). Implementação de mudanças (change enablement).
Causa-raiz identificada, workaround documentado, erro conhecido registado, proposta de resolução permanente.
Diagrama do processo
Diagrama BPMN simplificado do processo de gestão de problemas (3 swimlanes). Percorra horizontalmente em dispositivos móveis.
Actividades macro
| # | Actividade | Responsável | Input | Output |
|---|---|---|---|---|
| 1 | Identificação do problema | Service desk / Problem manager | Tendências de incidentes, análise proactiva, alertas de monitorização | Problema candidato identificado |
| 2 | Registo e classificação | Problem manager | Problema identificado | Registo de problema (categoria, impacto, prioridade) |
| 3 | Investigação e análise de causa-raiz | Equipa técnica / Problem manager | Registo de problema, dados de incidentes, CMDB | Causa-raiz identificada ou hipóteses |
| 4 | Documentação de workaround | Problem manager / Equipa técnica | Investigação em curso | Workaround documentado e comunicado ao service desk |
| 5 | Criação de erro conhecido | Problem manager | Causa-raiz confirmada, workaround | Registo de known error na KEDB |
| 6 | Proposta de solução permanente | Equipa técnica / Problem manager | Erro conhecido | Proposta de resolução, RFC se necessário |
| 7 | Implementação da solução | Equipa técnica / Change manager | RFC aprovado ou correcção directa | Solução implementada |
| 8 | Verificação da resolução | Problem manager | Solução implementada | Confirmação de eliminação do problema |
| 9 | Encerramento | Problem manager | Verificação positiva | Problema encerrado, registos actualizados |
Descrição detalhada das actividades
Os problemas podem ser identificados de forma reactiva, a partir de incidentes recorrentes ou escalados, ou de forma proactiva, através da análise de tendências, revisão de dados operacionais e alertas de monitorização. O service desk e o problem manager colaboram na identificação, utilizando relatórios de incidentes e dados da CMDB. A identificação proactiva é preferível porque permite agir antes de o problema gerar impacto visível nos utilizadores.
Passos chave
- Analisar tendências de incidentes recorrentes com a mesma causa aparente
- Rever incidentes escalados sem causa-raiz identificada
- Analisar dados operacionais e alertas de monitorização de forma proactiva
- Avaliar sugestões de problemas submetidas por equipas técnicas
- Registar o problema candidato para investigação formal
O problem manager cria o registo formal do problema na ferramenta ITSM e atribui os atributos de classificação. A correcta categorização determina a prioridade de investigação e a equipa técnica responsável. Um problema P1 que afecte serviços críticos deve ser iniciado imediatamente, enquanto problemas de menor impacto podem entrar em backlog gerido.
Passos chave
- Criar registo com referência única, data e descrição do problema
- Associar os incidentes relacionados ao registo de problema
- Determinar a categoria e área de serviço afectada
- Avaliar o impacto potencial nos serviços e no negócio
- Definir a prioridade e atribuir à equipa técnica adequada
A equipa técnica conduz a investigação utilizando técnicas estruturadas como análise cronológica, diagrama de Ishikawa, 5 porquês ou análise de Kepner-Tregoe. O problem manager coordena a investigação, garante a documentação adequada e mantém as partes interessadas informadas sobre o progresso. O objectivo desta actividade não é restaurar o serviço, mas identificar e eliminar a causa subjacente.
Passos chave
- Recolher e correlacionar dados de incidentes, logs e métricas do período afectado
- Consultar a CMDB para identificar CIs afectados e dependências
- Aplicar técnicas de análise de causa-raiz adequadas à situação
- Formular e testar hipóteses de forma controlada
- Documentar progressos e actualizar o registo de problema
Enquanto a investigação de causa-raiz decorre, o problem manager e a equipa técnica identificam e documentam um workaround que permita ao service desk reduzir o impacto nos utilizadores. O workaround não resolve o problema, mas mitiga o seu efeito enquanto a solução permanente não está disponível. Um bom workaround deve ser claro, reproduzível e validado antes de ser comunicado ao service desk.
Passos chave
- Identificar procedimento temporário que reduza o impacto no utilizador
- Validar a eficácia do workaround em ambiente controlado
- Documentar o workaround com passos detalhados e condições de aplicação
- Comunicar ao service desk para uso imediato em incidentes futuros
- Registar o workaround no ticket de problema e na base de conhecimento
Quando a causa-raiz é confirmada e existe um workaround documentado, o problem manager cria um registo de known error na base de erros conhecidos (KEDB). Este registo é consultado pelo service desk durante a resolução de incidentes futuros, reduzindo o tempo de resolução e o impacto nos utilizadores. O known error permanece activo até a solução permanente ser implementada.
Passos chave
- Confirmar a causa-raiz com a equipa técnica antes de criar o registo
- Criar o registo de known error na KEDB com descrição da causa e sintomas
- Associar o workaround aprovado ao registo de known error
- Definir critérios para identificar incidentes relacionados com este known error
- Notificar o service desk da existência do known error e da localização na KEDB
Com a causa-raiz confirmada e o erro conhecido registado, a equipa técnica propõe a solução definitiva que elimina o problema. Se a solução implicar alterações ao ambiente de produção, é necessário submeter um RFC ao processo de change enablement. Soluções de baixo risco podem ser aplicadas directamente sem RFC formal, de acordo com as políticas de mudança em vigor.
Passos chave
- Definir a solução técnica que elimina a causa-raiz identificada
- Avaliar o risco e o impacto da implementação da solução
- Determinar se a solução requer um RFC formal ao change enablement
- Documentar a proposta de solução com passos de implementação e rollback
- Submeter o RFC, se necessário, com toda a documentação de suporte
A equipa técnica implementa a solução permanente, coordenada pelo change manager quando existe um RFC aprovado. A implementação deve seguir os procedimentos de mudança estabelecidos para minimizar o risco de introdução de novos problemas. O problem manager acompanha a implementação e garante que os testes de validação são executados após a mudança.
Passos chave
- Confirmar que o RFC foi aprovado antes de iniciar a implementação
- Implementar a solução seguindo o plano documentado
- Executar testes funcionais após a implementação
- Monitorizar o ambiente durante o período pós-implementação
- Documentar o resultado da implementação no registo de problema e no RFC
O problem manager verifica que a solução implementada eliminou efectivamente o problema, confirmando que os incidentes associados não voltaram a ocorrer. A verificação implica um período de observação após a implementação, durante o qual os dados operacionais e os incidentes são monitorizados. Só após confirmação positiva se avança para o encerramento formal.
Passos chave
- Monitorizar os incidentes relacionados durante o período de observação definido
- Verificar que os sintomas do problema não voltaram a manifestar-se
- Confirmar com a equipa técnica que a causa-raiz foi eliminada
- Actualizar o registo de known error para reflectir a resolução
O problema é formalmente encerrado após verificação positiva da resolução. O registo é actualizado com a cronologia completa, a causa-raiz e a solução definitiva. O known error associado é marcado como resolvido na KEDB e os incidentes relacionados são actualizados. A informação recolhida ao longo do processo alimenta a base de conhecimento e as iniciativas de melhoria contínua.
Passos chave
- Actualizar o registo de problema com causa-raiz, solução e cronologia completa
- Marcar o known error como resolvido na KEDB
- Actualizar os incidentes associados com referência à resolução do problema
- Criar ou actualizar artigos na base de conhecimento com a solução documentada
- Registar lições aprendidas e submeter contribuições para a melhoria contínua
Modelo RACI
| Actividade | Service desk (SD) |
Problem manager (PM) |
Eq. técnica (ET) |
Change manager (CM) |
Service owner (SO) |
|---|---|---|---|---|---|
| Identificação do problema | R | A | C | - | I |
| Registo e classificação | I | R | - | - | I |
| Investigação causa-raiz | C | A | R | - | I |
| Documentação workaround | I | R | R | - | I |
| Criação erro conhecido | - | R | C | I | I |
| Proposta solução permanente | - | A | R | C | I |
| Implementação da solução | - | I | R | A | I |
| Verificação resolução | - | R | C | I | I |
| Encerramento | I | R | - | - | I |
Métricas e KPIs
| Métrica | Descrição | Target sugerido |
|---|---|---|
| Problemas identificados proactivamente | Percentagem de problemas identificados antes de gerar incidentes visíveis nos utilizadores | > 30% |
| Backlog de problemas abertos | Número de problemas em investigação activa ou aguardando resolução | Tendência decrescente |
| Tempo médio de resolução | Tempo médio desde o registo do problema até ao encerramento com solução permanente | < 30 dias (P1) < 90 dias (P2) |
| Erros conhecidos documentados | Número de known errors activos com workaround documentado na KEDB | Crescente |
| Incidentes evitados | Incidentes prevenidos graças a acções proactivas de gestão de problemas | Crescente |
| Eficácia dos workarounds | Percentagem de workarounds que reduzem efectivamente o impacto dos incidentes associados | > 80% |
| Taxa de resolução permanente | Percentagem de problemas encerrados com solução definitiva implementada (vs. apenas workaround) | > 60% |
| Problemas por categoria | Distribuição de problemas por área de serviço ou tecnologia para análise de tendências | Análise de tendências |
Interfaces com outros processos
Gestão de incidentes
Incidentes recorrentes ou escalados sem causa-raiz identificada geram investigação de problemas. É a principal fonte de problemas reactivos.
Change enablement
Quando a solução permanente de um problema implica alterações ao ambiente, é submetido um RFC ao processo de change enablement para implementação formal.
Gestão do conhecimento
Workarounds, erros conhecidos e soluções permanentes documentadas alimentam a base de conhecimento para uso futuro pelo service desk e equipas técnicas.
CMDB
Identificação dos CIs afectados pelo problema e análise de dependências de infraestrutura que suportam a investigação da causa-raiz.
Melhoria contínua
Tendências de problemas, categorias recorrentes e lições aprendidas alimentam iniciativas de melhoria contínua dos serviços e da infraestrutura.
Monitorização e eventos
Padrões de eventos e alertas recorrentes gerados pela ferramenta de monitorização desencadeiam investigações proactivas de problemas.
Descarregar o pack completo
Inclui o processo documentado, registo de problemas, registo de erros conhecidos, modelo RACI em Excel e templates de análise de causa-raiz.