Processo ITSM Alinhado com ITIL

Gestão de problemas

Processo end-to-end com workflow, actividades, RACI e métricas

Descarregar pack completo

Âmbito e objectivos

Objectivo

Reduzir a probabilidade e o impacto dos incidentes, identificando as causas reais e potenciais e gerindo workarounds e erros conhecidos.

Trigger

Incidentes recorrentes, tendências identificadas na análise de dados, investigação proactiva.

Âmbito

Desde a identificação de um problema até à resolução permanente ou documentação de workaround.

Fora do âmbito

Restauro imediato de serviço (gestão de incidentes). Implementação de mudanças (change enablement).

Output

Causa-raiz identificada, workaround documentado, erro conhecido registado, proposta de resolução permanente.

Diagrama do processo

Diagrama BPMN simplificado do processo de gestão de problemas (3 swimlanes). Percorra horizontalmente em dispositivos móveis.

Actividades macro

# Actividade Responsável Input Output
1 Identificação do problema Service desk / Problem manager Tendências de incidentes, análise proactiva, alertas de monitorização Problema candidato identificado
2 Registo e classificação Problem manager Problema identificado Registo de problema (categoria, impacto, prioridade)
3 Investigação e análise de causa-raiz Equipa técnica / Problem manager Registo de problema, dados de incidentes, CMDB Causa-raiz identificada ou hipóteses
4 Documentação de workaround Problem manager / Equipa técnica Investigação em curso Workaround documentado e comunicado ao service desk
5 Criação de erro conhecido Problem manager Causa-raiz confirmada, workaround Registo de known error na KEDB
6 Proposta de solução permanente Equipa técnica / Problem manager Erro conhecido Proposta de resolução, RFC se necessário
7 Implementação da solução Equipa técnica / Change manager RFC aprovado ou correcção directa Solução implementada
8 Verificação da resolução Problem manager Solução implementada Confirmação de eliminação do problema
9 Encerramento Problem manager Verificação positiva Problema encerrado, registos actualizados

Descrição detalhada das actividades

Os problemas podem ser identificados de forma reactiva, a partir de incidentes recorrentes ou escalados, ou de forma proactiva, através da análise de tendências, revisão de dados operacionais e alertas de monitorização. O service desk e o problem manager colaboram na identificação, utilizando relatórios de incidentes e dados da CMDB. A identificação proactiva é preferível porque permite agir antes de o problema gerar impacto visível nos utilizadores.

Passos chave

  • Analisar tendências de incidentes recorrentes com a mesma causa aparente
  • Rever incidentes escalados sem causa-raiz identificada
  • Analisar dados operacionais e alertas de monitorização de forma proactiva
  • Avaliar sugestões de problemas submetidas por equipas técnicas
  • Registar o problema candidato para investigação formal
Critério de saída: problema candidato registado e aceite para investigação pelo problem manager.

O problem manager cria o registo formal do problema na ferramenta ITSM e atribui os atributos de classificação. A correcta categorização determina a prioridade de investigação e a equipa técnica responsável. Um problema P1 que afecte serviços críticos deve ser iniciado imediatamente, enquanto problemas de menor impacto podem entrar em backlog gerido.

Passos chave

  • Criar registo com referência única, data e descrição do problema
  • Associar os incidentes relacionados ao registo de problema
  • Determinar a categoria e área de serviço afectada
  • Avaliar o impacto potencial nos serviços e no negócio
  • Definir a prioridade e atribuir à equipa técnica adequada
Critério de saída: registo de problema criado com categoria, impacto, prioridade e equipa responsável definidos.

A equipa técnica conduz a investigação utilizando técnicas estruturadas como análise cronológica, diagrama de Ishikawa, 5 porquês ou análise de Kepner-Tregoe. O problem manager coordena a investigação, garante a documentação adequada e mantém as partes interessadas informadas sobre o progresso. O objectivo desta actividade não é restaurar o serviço, mas identificar e eliminar a causa subjacente.

Passos chave

  • Recolher e correlacionar dados de incidentes, logs e métricas do período afectado
  • Consultar a CMDB para identificar CIs afectados e dependências
  • Aplicar técnicas de análise de causa-raiz adequadas à situação
  • Formular e testar hipóteses de forma controlada
  • Documentar progressos e actualizar o registo de problema
Critério de saída: causa-raiz identificada com evidência documentada, ou hipóteses activas em investigação com workaround disponível.

Enquanto a investigação de causa-raiz decorre, o problem manager e a equipa técnica identificam e documentam um workaround que permita ao service desk reduzir o impacto nos utilizadores. O workaround não resolve o problema, mas mitiga o seu efeito enquanto a solução permanente não está disponível. Um bom workaround deve ser claro, reproduzível e validado antes de ser comunicado ao service desk.

Passos chave

  • Identificar procedimento temporário que reduza o impacto no utilizador
  • Validar a eficácia do workaround em ambiente controlado
  • Documentar o workaround com passos detalhados e condições de aplicação
  • Comunicar ao service desk para uso imediato em incidentes futuros
  • Registar o workaround no ticket de problema e na base de conhecimento
Critério de saída: workaround documentado, validado e comunicado ao service desk para uso em incidentes relacionados.

Quando a causa-raiz é confirmada e existe um workaround documentado, o problem manager cria um registo de known error na base de erros conhecidos (KEDB). Este registo é consultado pelo service desk durante a resolução de incidentes futuros, reduzindo o tempo de resolução e o impacto nos utilizadores. O known error permanece activo até a solução permanente ser implementada.

Passos chave

  • Confirmar a causa-raiz com a equipa técnica antes de criar o registo
  • Criar o registo de known error na KEDB com descrição da causa e sintomas
  • Associar o workaround aprovado ao registo de known error
  • Definir critérios para identificar incidentes relacionados com este known error
  • Notificar o service desk da existência do known error e da localização na KEDB
Critério de saída: registo de known error criado na KEDB com causa, sintomas e workaround documentados; service desk notificado.

Com a causa-raiz confirmada e o erro conhecido registado, a equipa técnica propõe a solução definitiva que elimina o problema. Se a solução implicar alterações ao ambiente de produção, é necessário submeter um RFC ao processo de change enablement. Soluções de baixo risco podem ser aplicadas directamente sem RFC formal, de acordo com as políticas de mudança em vigor.

Passos chave

  • Definir a solução técnica que elimina a causa-raiz identificada
  • Avaliar o risco e o impacto da implementação da solução
  • Determinar se a solução requer um RFC formal ao change enablement
  • Documentar a proposta de solução com passos de implementação e rollback
  • Submeter o RFC, se necessário, com toda a documentação de suporte
Critério de saída: proposta de solução documentada e aprovada; RFC submetido se necessário, ou autorização para correcção directa obtida.

A equipa técnica implementa a solução permanente, coordenada pelo change manager quando existe um RFC aprovado. A implementação deve seguir os procedimentos de mudança estabelecidos para minimizar o risco de introdução de novos problemas. O problem manager acompanha a implementação e garante que os testes de validação são executados após a mudança.

Passos chave

  • Confirmar que o RFC foi aprovado antes de iniciar a implementação
  • Implementar a solução seguindo o plano documentado
  • Executar testes funcionais após a implementação
  • Monitorizar o ambiente durante o período pós-implementação
  • Documentar o resultado da implementação no registo de problema e no RFC
Critério de saída: solução implementada com sucesso e testes iniciais concluídos sem regressão identificada.

O problem manager verifica que a solução implementada eliminou efectivamente o problema, confirmando que os incidentes associados não voltaram a ocorrer. A verificação implica um período de observação após a implementação, durante o qual os dados operacionais e os incidentes são monitorizados. Só após confirmação positiva se avança para o encerramento formal.

Passos chave

  • Monitorizar os incidentes relacionados durante o período de observação definido
  • Verificar que os sintomas do problema não voltaram a manifestar-se
  • Confirmar com a equipa técnica que a causa-raiz foi eliminada
  • Actualizar o registo de known error para reflectir a resolução
Critério de saída: confirmação documentada de que o problema foi eliminado; ausência de reocorrência durante o período de observação.

O problema é formalmente encerrado após verificação positiva da resolução. O registo é actualizado com a cronologia completa, a causa-raiz e a solução definitiva. O known error associado é marcado como resolvido na KEDB e os incidentes relacionados são actualizados. A informação recolhida ao longo do processo alimenta a base de conhecimento e as iniciativas de melhoria contínua.

Passos chave

  • Actualizar o registo de problema com causa-raiz, solução e cronologia completa
  • Marcar o known error como resolvido na KEDB
  • Actualizar os incidentes associados com referência à resolução do problema
  • Criar ou actualizar artigos na base de conhecimento com a solução documentada
  • Registar lições aprendidas e submeter contribuições para a melhoria contínua
Critério de saída: problema encerrado com estado "resolvido", registos completos, known error actualizado e lições aprendidas documentadas.

Modelo RACI

Actividade Service desk
(SD)
Problem manager
(PM)
Eq. técnica
(ET)
Change manager
(CM)
Service owner
(SO)
Identificação do problema R A C - I
Registo e classificação I R - - I
Investigação causa-raiz C A R - I
Documentação workaround I R R - I
Criação erro conhecido - R C I I
Proposta solução permanente - A R C I
Implementação da solução - I R A I
Verificação resolução - R C I I
Encerramento I R - - I
R Responsible - executa a actividade A Accountable - responde pelo resultado C Consulted - é consultado I Informed - é informado

Métricas e KPIs

Métrica Descrição Target sugerido
Problemas identificados proactivamente Percentagem de problemas identificados antes de gerar incidentes visíveis nos utilizadores > 30%
Backlog de problemas abertos Número de problemas em investigação activa ou aguardando resolução Tendência decrescente
Tempo médio de resolução Tempo médio desde o registo do problema até ao encerramento com solução permanente < 30 dias (P1) < 90 dias (P2)
Erros conhecidos documentados Número de known errors activos com workaround documentado na KEDB Crescente
Incidentes evitados Incidentes prevenidos graças a acções proactivas de gestão de problemas Crescente
Eficácia dos workarounds Percentagem de workarounds que reduzem efectivamente o impacto dos incidentes associados > 80%
Taxa de resolução permanente Percentagem de problemas encerrados com solução definitiva implementada (vs. apenas workaround) > 60%
Problemas por categoria Distribuição de problemas por área de serviço ou tecnologia para análise de tendências Análise de tendências

Interfaces com outros processos

Entrada

Gestão de incidentes

Incidentes recorrentes ou escalados sem causa-raiz identificada geram investigação de problemas. É a principal fonte de problemas reactivos.

Saida

Change enablement

Quando a solução permanente de um problema implica alterações ao ambiente, é submetido um RFC ao processo de change enablement para implementação formal.

Saida

Gestão do conhecimento

Workarounds, erros conhecidos e soluções permanentes documentadas alimentam a base de conhecimento para uso futuro pelo service desk e equipas técnicas.

Entrada

CMDB

Identificação dos CIs afectados pelo problema e análise de dependências de infraestrutura que suportam a investigação da causa-raiz.

Saida

Melhoria contínua

Tendências de problemas, categorias recorrentes e lições aprendidas alimentam iniciativas de melhoria contínua dos serviços e da infraestrutura.

Entrada

Monitorização e eventos

Padrões de eventos e alertas recorrentes gerados pela ferramenta de monitorização desencadeiam investigações proactivas de problemas.

Descarregar o pack completo

Inclui o processo documentado, registo de problemas, registo de erros conhecidos, modelo RACI em Excel e templates de análise de causa-raiz.