Processo ITSM Alinhado com ITIL

Monitorização e gestão de eventos

Processo end-to-end: observabilidade, classificação de eventos, correlação, alertas e resposta automatizada

Descarregar pack completo

Âmbito e objectivos

Objectivo

Suportar a operação normal dos componentes de serviço, observando e respondendo adequadamente a alterações de estado nesses componentes, de acordo com a definição ITIL.

Trigger

Configuração inicial de monitorização para um novo serviço ou CI, alteração de thresholds de desempenho, ou revisão do modelo de eventos existente.

Âmbito

Definição de modelos de eventos, configuração de agentes e ferramentas de monitorização, detecção, classificação, correlação e resposta a eventos informativos, de aviso e de excepção.

Fora do âmbito

Resolução de incidentes gerados por excepções (gestão de incidentes) e investigação de causa raiz de eventos recorrentes (gestão de problemas).

Output

Eventos detectados e processados conforme o seu tipo, alertas gerados para as equipas adequadas, incidentes criados automaticamente a partir de excepções, e dados de observabilidade disponíveis para reporting e análise de tendências.

Diagrama do processo

Diagrama BPMN simplificado do processo de monitorização e gestão de eventos (3 swimlanes). Percorra horizontalmente em dispositivos móveis.

Actividades macro

# Actividade Responsável Input Output
1 Definição do modelo de eventos Monitoring engineer Catálogo de serviços, lista de CIs, requisitos de SLA Modelo de eventos documentado com tipos, thresholds e acções
2 Configuração da monitorização Monitoring engineer Modelo de eventos, inventário de CIs na CMDB Agentes, colectores e regras de alerta activos
3 Detecção de eventos Ferramenta de monitorização / Equipa operações Métricas, logs e traces dos CIs Evento detectado e registado
4 Classificação do evento Equipa operações Evento detectado Evento classificado: informativo, aviso ou excepção
5 Correlação de eventos Equipa operações Múltiplos eventos relacionados Padrão identificado, ruído reduzido, evento raiz determinado
6 Resposta automática Ferramenta de automação / Equipa operações Evento classificado com runbook associado Acção correctiva executada (self-healing)
7 Escalação para incident management Equipa operações / Incident manager Excepção não resolvida automaticamente Incidente criado e atribuído
8 Reporting e análise de tendências Monitoring engineer / Service owner Dados históricos de eventos Relatório de tendências, dashboard de observabilidade
9 Melhoria do modelo de monitorização Monitoring engineer Relatório de tendências, feedback de operações Thresholds e regras actualizados, cobertura expandida

Descrição detalhada das actividades

O modelo de eventos define, para cada CI ou serviço, quais as alterações de estado que são relevantes e como devem ser classificadas. Um evento é qualquer alteração de estado com significado para a gestão de serviços, podendo ser informativo (estado normal documentado), de aviso (limiar aproximando-se) ou de excepção (limiar ultrapassado ou falha detectada). A qualidade do modelo determina directamente a relação sinal/ruído da monitorização.

Passos chave

  • Mapear CIs críticos a partir da CMDB e do catálogo de serviços
  • Definir thresholds de desempenho por CI em conjunto com capacity management
  • Estabelecer critérios de classificação: informativo, aviso, excepção
  • Definir acção de resposta por tipo de evento (log, alerta, remediação, incidente)
  • Documentar o modelo num registo de configuração de monitorização
Critério de saída: modelo de eventos aprovado e documentado, com thresholds, critérios de classificação e acções definidas para cada CI relevante.

A monitorização pode ser implementada através de diferentes abordagens consoante o tipo de CI. A monitorização por agente instala software no host que recolhe métricas locais com maior granularidade. A monitorização sem agente usa protocolos externos como SNMP, WMI ou chamadas de API. Para ambientes cloud, a observabilidade baseia-se em métricas, logs e traces (os três pilares do modelo OpenTelemetry). Sistemas SIEM centralizam e correlacionam eventos de múltiplas fontes para detectar padrões de segurança.

Métodos de recolha

  • Agentes instalados: maior detalhe, requer gestão do agente
  • SNMP e WMI: monitorização sem agente para rede e sistemas Windows
  • APIs cloud: AWS CloudWatch, Azure Monitor, Google Cloud Operations
  • Logs centralizados: ELK Stack, Splunk, Loki para análise de texto
  • Tracing distribuído: Jaeger, Zipkin para rastreio de transacções em microserviços
Critério de saída: todos os CIs definidos no modelo estão a ser monitorizados, com dados a fluir para a plataforma centralizada e regras de alerta activas.

A detecção ocorre quando um CI reporta uma alteração de estado que ultrapassa um threshold configurado ou corresponde a um padrão definido. A detecção baseada em threshold é directa (CPU acima de 90%) mas pode gerar falsos positivos se o threshold não for calibrado. Abordagens mais avançadas usam detecção de anomalias por machine learning, que identifica desvios do comportamento histórico normal sem threshold fixo, reduzindo falsos positivos em ambientes dinâmicos.

Passos chave

  • A ferramenta de monitorização avalia continuamente os dados recolhidos
  • Quando um threshold é ultrapassado, é gerado um evento
  • O evento é registado com timestamp, CI afectado, valor observado e threshold
  • A detecção pode ser por polling (intervalo fixo) ou por trap/push (evento imediato)
Critério de saída: evento registado com dados completos: CI, timestamp, valor, threshold, fonte de detecção.

Cada evento detectado é classificado num de três tipos, determinando a acção de resposta adequada. Os eventos informativos documentam o estado normal do serviço e são registados para auditoria e análise histórica sem acção imediata. Os eventos de aviso indicam que um limiar de precaução foi atingido e requerem atenção preventiva antes de se tornarem excepção. Os eventos de excepção representam uma condição fora do normal que pode afectar a disponibilidade ou desempenho do serviço e requerem acção imediata.

Critérios de classificação

  • Informativo: operação dentro dos parâmetros normais, apenas para registo
  • Aviso: 70 a 90% do threshold, tendência preocupante, alerta preventivo
  • Excepção: threshold ultrapassado, serviço degradado ou indisponível
  • A classificação pode ser automática (baseada em regras) ou revista manualmente
Critério de saída: evento classificado como informativo, aviso ou excepção, com acção de resposta determinada.

Em ambientes complexos, uma única falha de infraestrutura pode gerar centenas de eventos em cascata, tornando impossível identificar a causa raiz sem correlação. A correlação agrupa eventos relacionados, elimina duplicados (deduplicação), identifica o evento raiz e suprime os eventos secundários. Ferramentas como Moogsoft, BigPanda ou funcionalidades nativas de plataformas como Datadog AIOps aplicam correlação baseada em topologia, tempo e padrões históricos para reduzir o noise ratio em ambientes de produção.

Técnicas de correlação

  • Correlação temporal: eventos ocorridos dentro de uma janela de tempo definida
  • Correlação topológica: eventos em CIs com relações na CMDB
  • Deduplicação: supressão de eventos repetidos do mesmo CI e tipo
  • Compressão de alertas: agrupamento de eventos similares num único alerta
  • Root cause identification: identificação do evento gerador da cascata
Critério de saída: evento raiz identificado, eventos secundários suprimidos, alerta consolidado gerado com contexto suficiente para resposta.

A resposta automática, também designada self-healing, é a capacidade de executar acções correctivas sem intervenção humana quando um evento de aviso ou excepção é detectado. Esta abordagem reduz o MTTD (mean time to detect) e o MTTR, e é especialmente eficaz para cenários recorrentes com resolução conhecida. Os runbooks de automação são activados por regras associadas ao modelo de eventos e podem incluir reinicialização de serviços, limpeza de espaço em disco, escalamento automático ou failover.

Exemplos de automação

  • Reinício automático de serviço quando processo fica não responsivo
  • Limpeza de logs e ficheiros temporários quando disco ultrapassa 85%
  • Escalamento horizontal de pods Kubernetes quando CPU ultrapassa threshold
  • Failover automático para réplica de base de dados em caso de falha primária
  • Notificação via Slack ou Teams com contexto completo do evento
Critério de saída: acção automática executada e resultado registado; se a acção não resolver o evento, escalação para incident management é activada.

Quando um evento de excepção não é resolvido automaticamente, é criado um incidente no processo de incident management. Esta integração é um dos pontos de interface mais críticos do processo, pois garante que excepções não detectadas por utilizadores são igualmente geridas. O incidente criado deve incluir todo o contexto do evento: CI afectado, dados de monitorização, timeline, acções automáticas já tentadas e resultado.

Passos chave

  • Verificar que a excepção não foi resolvida automaticamente
  • Criar ticket de incidente via integração com ferramenta ITSM (API ou webhook)
  • Incluir dados de contexto: CI, métricas, logs relevantes, timeline do evento
  • Atribuir prioridade com base na criticidade do CI e impacto no serviço
  • Notificar a equipa de incident management e o service owner
Critério de saída: incidente criado na ferramenta ITSM com referência cruzada ao evento de monitorização; equipa notificada.

Os dados acumulados de eventos são analisados periodicamente para identificar tendências, padrões recorrentes e oportunidades de melhoria. Dashboards em tempo real permitem à equipa de operações visualizar o estado actual de todos os CIs monitorizados. Relatórios de tendências revelam quais os CIs com maior frequência de eventos, quais os thresholds que geram mais falsos positivos e quais os serviços com maior risco de indisponibilidade. Esta análise alimenta também o processo de problem management e de capacity management.

Conteúdo do relatório periódico

  • Distribuição de eventos por tipo (informativo, aviso, excepção)
  • Top 10 CIs por volume de eventos e por taxa de excepções
  • Taxa de falsos positivos e tendência de melhoria do modelo
  • Taxa de resolução automática versus escalação para incident management
  • Evolução do MTTD ao longo do tempo
Critério de saída: relatório de tendências publicado mensalmente; dashboards actualizados em tempo real e acessíveis às equipas relevantes.

O modelo de monitorização não é estático: deve ser ajustado com base na análise de tendências, no feedback das equipas operacionais e nas alterações ao ambiente. Thresholds demasiado sensíveis geram ruído excessivo e fadiga de alertas, enquanto thresholds demasiado tolerantes atrasam a detecção de problemas reais. O processo de melhoria contínua do modelo reduz progressivamente a taxa de falsos positivos, aumenta a cobertura de monitorização e melhora a capacidade de resposta automatizada.

Acções de melhoria típicas

  • Ajustar thresholds com base em dados históricos de desempenho
  • Adicionar novos CIs ao âmbito de monitorização
  • Criar novos runbooks de automação para eventos recorrentes resolvidos manualmente
  • Rever regras de correlação para reduzir falsos positivos
  • Integrar feedback de problem management sobre eventos precursores de problemas
Critério de saída: modelo actualizado com novos thresholds e regras aprovadas; taxa de falsos positivos em tendência decrescente.

Modelo RACI

Actividade Monitoring engineer
(ME)
Eq. operações
(OPS)
Incident manager
(IM)
Service owner
(SO)
Capacity manager
(CM)
Definição do modelo de eventos R C I A C
Configuração da monitorização R C I A -
Detecção de eventos A R - - -
Classificação do evento A R I - -
Correlação de eventos C R A - -
Resposta automática A R - - -
Escalação para incident management - R A I -
Reporting e análise de tendências R C I A I
Melhoria do modelo de monitorização R C I A C
R Responsible - executa a actividade A Accountable - responde pelo resultado C Consulted - é consultado I Informed - é informado

Métricas e KPIs

Métrica Descrição Target sugerido
Eventos por categoria Distribuição percentual de eventos por tipo: informativo, aviso e excepção Excepções < 10%
Taxa de falsos positivos Percentagem de alertas gerados que não corresponderam a um problema real de serviço < 15%
MTTD Mean time to detect: tempo médio entre ocorrência de um problema e a sua detecção pela monitorização < 2 min (serviços críticos)
Taxa de resposta automática Percentagem de eventos de excepção resolvidos por automação sem intervenção humana > 40%
Cobertura de monitorização Percentagem de CIs críticos (classe A e B na CMDB) com monitorização activa configurada 100% CIs críticos
Rácio alerta/incidente Número médio de alertas gerados por cada incidente criado; indica a eficácia da correlação < 5 alertas/incidente
Redução de ruído Percentagem de redução do volume total de alertas obtida através de correlação e deduplicação > 60%

Interfaces com outros processos

Saida

Incident management

Excepções não resolvidas automaticamente geram incidentes no processo de incident management para gestão e resolução.

Saida

Problem management

Tendências de eventos recorrentes e padrões identificados na análise de dados alimentam o processo de problem management para investigação de causa raiz.

Entrada

CMDB

A CMDB fornece o inventário de CIs a monitorizar, as relações entre componentes para correlação topológica e os níveis de criticidade para priorização de alertas.

Entrada

Capacity management

Os thresholds de desempenho utilizados no modelo de eventos são definidos em conjunto com capacity management, reflectindo os limites operacionais de cada CI.

Saida

Service level management

Os dados de monitorização em tempo real fornecem ao service level management métricas de disponibilidade e desempenho para cálculo e reporte de SLAs.

Saida

Segurança da informação

Eventos de segurança detectados pela monitorização (acessos anómalos, tráfego suspeito) são encaminhados para o processo de gestão de segurança e SIEM.

Descarregar o pack completo

Inclui o processo documentado, modelo de eventos em Excel, modelo RACI e catálogo de thresholds por tipo de CI.