Processo ITSM Alinhado com ITIL

Gestão de problemas

Processo end-to-end com workflow, actividades, RACI e métricas

Âmbito e objectivos

Objectivo

Reduzir a probabilidade e o impacto dos incidentes, identificando as causas reais e potenciais e gerindo workarounds e erros conhecidos.

Trigger

Incidentes recorrentes, tendências identificadas na análise de dados, investigação proactiva.

Âmbito

Desde a identificação de um problema até à resolução permanente ou documentação de workaround.

Fora do âmbito

Restauro imediato de serviço (gestão de incidentes). Implementação de mudanças (change enablement).

Output

Causa-raiz identificada, workaround documentado, erro conhecido registado, proposta de resolução permanente.

Diagrama do processo

Diagrama BPMN simplificado do processo de gestão de problemas (3 swimlanes). Percorra horizontalmente em dispositivos móveis.

Actividades macro

#	Actividade	Responsável	Input	Output
1	Identificação do problema	Service desk / Problem manager	Tendências de incidentes, análise proactiva, alertas de monitorização	Problema candidato identificado
2	Registo e classificação	Problem manager	Problema identificado	Registo de problema (categoria, impacto, prioridade)
3	Investigação e análise de causa-raiz	Equipa técnica / Problem manager	Registo de problema, dados de incidentes, CMDB	Causa-raiz identificada ou hipóteses
4	Documentação de workaround	Problem manager / Equipa técnica	Investigação em curso	Workaround documentado e comunicado ao service desk
5	Criação de erro conhecido	Problem manager	Causa-raiz confirmada, workaround	Registo de known error na KEDB
6	Proposta de solução permanente	Equipa técnica / Problem manager	Erro conhecido	Proposta de resolução, RFC se necessário
7	Implementação da solução	Equipa técnica / Change manager	RFC aprovado ou correcção directa	Solução implementada
8	Verificação da resolução	Problem manager	Solução implementada	Confirmação de eliminação do problema
9	Encerramento	Problem manager	Verificação positiva	Problema encerrado, registos actualizados

Descrição detalhada das actividades

1 Identificação do problema

Os problemas podem ser identificados de forma reactiva, a partir de incidentes recorrentes ou escalados, ou de forma proactiva, através da análise de tendências, revisão de dados operacionais e alertas de monitorização. O service desk e o problem manager colaboram na identificação, utilizando relatórios de incidentes e dados da CMDB. A identificação proactiva é preferível porque permite agir antes de o problema gerar impacto visível nos utilizadores.

Passos chave

Analisar tendências de incidentes recorrentes com a mesma causa aparente
Rever incidentes escalados sem causa-raiz identificada
Analisar dados operacionais e alertas de monitorização de forma proactiva
Avaliar sugestões de problemas submetidas por equipas técnicas
Registar o problema candidato para investigação formal

Critério de saída: problema candidato registado e aceite para investigação pelo problem manager.

2 Registo e classificação

O problem manager cria o registo formal do problema na ferramenta ITSM e atribui os atributos de classificação. A correcta categorização determina a prioridade de investigação e a equipa técnica responsável. Um problema P1 que afecte serviços críticos deve ser iniciado imediatamente, enquanto problemas de menor impacto podem entrar em backlog gerido.

Passos chave

Criar registo com referência única, data e descrição do problema
Associar os incidentes relacionados ao registo de problema
Determinar a categoria e área de serviço afectada
Avaliar o impacto potencial nos serviços e no negócio
Definir a prioridade e atribuir à equipa técnica adequada

Critério de saída: registo de problema criado com categoria, impacto, prioridade e equipa responsável definidos.

3 Investigação e análise de causa-raiz

A equipa técnica conduz a investigação utilizando técnicas estruturadas como análise cronológica, diagrama de Ishikawa, 5 porquês ou análise de Kepner-Tregoe. O problem manager coordena a investigação, garante a documentação adequada e mantém as partes interessadas informadas sobre o progresso. O objectivo desta actividade não é restaurar o serviço, mas identificar e eliminar a causa subjacente.

Passos chave

Recolher e correlacionar dados de incidentes, logs e métricas do período afectado
Consultar a CMDB para identificar CIs afectados e dependências
Aplicar técnicas de análise de causa-raiz adequadas à situação
Formular e testar hipóteses de forma controlada
Documentar progressos e actualizar o registo de problema

Critério de saída: causa-raiz identificada com evidência documentada, ou hipóteses activas em investigação com workaround disponível.

4 Documentação de workaround

Enquanto a investigação de causa-raiz decorre, o problem manager e a equipa técnica identificam e documentam um workaround que permita ao service desk reduzir o impacto nos utilizadores. O workaround não resolve o problema, mas mitiga o seu efeito enquanto a solução permanente não está disponível. Um bom workaround deve ser claro, reproduzível e validado antes de ser comunicado ao service desk.

Passos chave

Identificar procedimento temporário que reduza o impacto no utilizador
Validar a eficácia do workaround em ambiente controlado
Documentar o workaround com passos detalhados e condições de aplicação
Comunicar ao service desk para uso imediato em incidentes futuros
Registar o workaround no ticket de problema e na base de conhecimento

Critério de saída: workaround documentado, validado e comunicado ao service desk para uso em incidentes relacionados.

5 Criação de erro conhecido

Quando a causa-raiz é confirmada e existe um workaround documentado, o problem manager cria um registo de known error na base de erros conhecidos (KEDB). Este registo é consultado pelo service desk durante a resolução de incidentes futuros, reduzindo o tempo de resolução e o impacto nos utilizadores. O known error permanece activo até a solução permanente ser implementada.

Passos chave

Confirmar a causa-raiz com a equipa técnica antes de criar o registo
Criar o registo de known error na KEDB com descrição da causa e sintomas
Associar o workaround aprovado ao registo de known error
Definir critérios para identificar incidentes relacionados com este known error
Notificar o service desk da existência do known error e da localização na KEDB

Critério de saída: registo de known error criado na KEDB com causa, sintomas e workaround documentados; service desk notificado.

6 Proposta de solução permanente

Com a causa-raiz confirmada e o erro conhecido registado, a equipa técnica propõe a solução definitiva que elimina o problema. Se a solução implicar alterações ao ambiente de produção, é necessário submeter um RFC ao processo de change enablement. Soluções de baixo risco podem ser aplicadas directamente sem RFC formal, de acordo com as políticas de mudança em vigor.

Passos chave

Definir a solução técnica que elimina a causa-raiz identificada
Avaliar o risco e o impacto da implementação da solução
Determinar se a solução requer um RFC formal ao change enablement
Documentar a proposta de solução com passos de implementação e rollback
Submeter o RFC, se necessário, com toda a documentação de suporte

Critério de saída: proposta de solução documentada e aprovada; RFC submetido se necessário, ou autorização para correcção directa obtida.

7 Implementação da solução

A equipa técnica implementa a solução permanente, coordenada pelo change manager quando existe um RFC aprovado. A implementação deve seguir os procedimentos de mudança estabelecidos para minimizar o risco de introdução de novos problemas. O problem manager acompanha a implementação e garante que os testes de validação são executados após a mudança.

Passos chave

Confirmar que o RFC foi aprovado antes de iniciar a implementação
Implementar a solução seguindo o plano documentado
Executar testes funcionais após a implementação
Monitorizar o ambiente durante o período pós-implementação
Documentar o resultado da implementação no registo de problema e no RFC

Critério de saída: solução implementada com sucesso e testes iniciais concluídos sem regressão identificada.

8 Verificação da resolução

O problem manager verifica que a solução implementada eliminou efectivamente o problema, confirmando que os incidentes associados não voltaram a ocorrer. A verificação implica um período de observação após a implementação, durante o qual os dados operacionais e os incidentes são monitorizados. Só após confirmação positiva se avança para o encerramento formal.

Passos chave

Monitorizar os incidentes relacionados durante o período de observação definido
Verificar que os sintomas do problema não voltaram a manifestar-se
Confirmar com a equipa técnica que a causa-raiz foi eliminada
Actualizar o registo de known error para reflectir a resolução

Critério de saída: confirmação documentada de que o problema foi eliminado; ausência de reocorrência durante o período de observação.

9 Encerramento

O problema é formalmente encerrado após verificação positiva da resolução. O registo é actualizado com a cronologia completa, a causa-raiz e a solução definitiva. O known error associado é marcado como resolvido na KEDB e os incidentes relacionados são actualizados. A informação recolhida ao longo do processo alimenta a base de conhecimento e as iniciativas de melhoria contínua.

Passos chave

Actualizar o registo de problema com causa-raiz, solução e cronologia completa
Marcar o known error como resolvido na KEDB
Actualizar os incidentes associados com referência à resolução do problema
Criar ou actualizar artigos na base de conhecimento com a solução documentada
Registar lições aprendidas e submeter contribuições para a melhoria contínua

Critério de saída: problema encerrado com estado "resolvido", registos completos, known error actualizado e lições aprendidas documentadas.

Modelo RACI

Actividade	Service desk (SD)	Problem manager (PM)	Eq. técnica (ET)	Change manager (CM)	Service owner (SO)
Identificação do problema	R	A	C	-	I
Registo e classificação	I	R	-	-	I
Investigação causa-raiz	C	A	R	-	I
Documentação workaround	I	R	R	-	I
Criação erro conhecido	-	R	C	I	I
Proposta solução permanente	-	A	R	C	I
Implementação da solução	-	I	R	A	I
Verificação resolução	-	R	C	I	I
Encerramento	I	R	-	-	I

R Responsible - executa a actividade A Accountable - responde pelo resultado C Consulted - é consultado I Informed - é informado

Métricas e KPIs

Métrica	Descrição	Target sugerido
Problemas identificados proactivamente	Percentagem de problemas identificados antes de gerar incidentes visíveis nos utilizadores	> 30%
Backlog de problemas abertos	Número de problemas em investigação activa ou aguardando resolução	Tendência decrescente
Tempo médio de resolução	Tempo médio desde o registo do problema até ao encerramento com solução permanente	< 30 dias (P1) < 90 dias (P2)
Erros conhecidos documentados	Número de known errors activos com workaround documentado na KEDB	Crescente
Incidentes evitados	Incidentes prevenidos graças a acções proactivas de gestão de problemas	Crescente
Eficácia dos workarounds	Percentagem de workarounds que reduzem efectivamente o impacto dos incidentes associados	> 80%
Taxa de resolução permanente	Percentagem de problemas encerrados com solução definitiva implementada (vs. apenas workaround)	> 60%
Problemas por categoria	Distribuição de problemas por área de serviço ou tecnologia para análise de tendências	Análise de tendências

Interfaces com outros processos

Entrada

Gestão de incidentes

Incidentes recorrentes ou escalados sem causa-raiz identificada geram investigação de problemas. É a principal fonte de problemas reactivos.

Saida

Change enablement

Quando a solução permanente de um problema implica alterações ao ambiente, é submetido um RFC ao processo de change enablement para implementação formal.

Saida

Gestão do conhecimento

Workarounds, erros conhecidos e soluções permanentes documentadas alimentam a base de conhecimento para uso futuro pelo service desk e equipas técnicas.

Entrada

CMDB

Identificação dos CIs afectados pelo problema e análise de dependências de infraestrutura que suportam a investigação da causa-raiz.

Saida

Melhoria contínua

Tendências de problemas, categorias recorrentes e lições aprendidas alimentam iniciativas de melhoria contínua dos serviços e da infraestrutura.

Entrada

Monitorização e eventos

Padrões de eventos e alertas recorrentes gerados pela ferramenta de monitorização desencadeiam investigações proactivas de problemas.

Descarregar o pack completo

Inclui o processo documentado, registo de problemas, registo de erros conhecidos, modelo RACI em Excel e templates de análise de causa-raiz.

Descarregar pack completo Precisa de ajuda a implementar? Fale connosco