Processo ITSM Alinhado com ITIL

Monitorização e gestão de eventos

Processo end-to-end: observabilidade, classificação de eventos, correlação, alertas e resposta automatizada

Âmbito e objectivos

Objectivo

Suportar a operação normal dos componentes de serviço, observando e respondendo adequadamente a alterações de estado nesses componentes, de acordo com a definição ITIL.

Trigger

Configuração inicial de monitorização para um novo serviço ou CI, alteração de thresholds de desempenho, ou revisão do modelo de eventos existente.

Âmbito

Definição de modelos de eventos, configuração de agentes e ferramentas de monitorização, detecção, classificação, correlação e resposta a eventos informativos, de aviso e de excepção.

Fora do âmbito

Resolução de incidentes gerados por excepções (gestão de incidentes) e investigação de causa raiz de eventos recorrentes (gestão de problemas).

Output

Eventos detectados e processados conforme o seu tipo, alertas gerados para as equipas adequadas, incidentes criados automaticamente a partir de excepções, e dados de observabilidade disponíveis para reporting e análise de tendências.

Diagrama do processo

Diagrama BPMN simplificado do processo de monitorização e gestão de eventos (3 swimlanes). Percorra horizontalmente em dispositivos móveis.

Actividades macro

#	Actividade	Responsável	Input	Output
1	Definição do modelo de eventos	Monitoring engineer	Catálogo de serviços, lista de CIs, requisitos de SLA	Modelo de eventos documentado com tipos, thresholds e acções
2	Configuração da monitorização	Monitoring engineer	Modelo de eventos, inventário de CIs na CMDB	Agentes, colectores e regras de alerta activos
3	Detecção de eventos	Ferramenta de monitorização / Equipa operações	Métricas, logs e traces dos CIs	Evento detectado e registado
4	Classificação do evento	Equipa operações	Evento detectado	Evento classificado: informativo, aviso ou excepção
5	Correlação de eventos	Equipa operações	Múltiplos eventos relacionados	Padrão identificado, ruído reduzido, evento raiz determinado
6	Resposta automática	Ferramenta de automação / Equipa operações	Evento classificado com runbook associado	Acção correctiva executada (self-healing)
7	Escalação para incident management	Equipa operações / Incident manager	Excepção não resolvida automaticamente	Incidente criado e atribuído
8	Reporting e análise de tendências	Monitoring engineer / Service owner	Dados históricos de eventos	Relatório de tendências, dashboard de observabilidade
9	Melhoria do modelo de monitorização	Monitoring engineer	Relatório de tendências, feedback de operações	Thresholds e regras actualizados, cobertura expandida

Descrição detalhada das actividades

1 Definição do modelo de eventos

O modelo de eventos define, para cada CI ou serviço, quais as alterações de estado que são relevantes e como devem ser classificadas. Um evento é qualquer alteração de estado com significado para a gestão de serviços, podendo ser informativo (estado normal documentado), de aviso (limiar aproximando-se) ou de excepção (limiar ultrapassado ou falha detectada). A qualidade do modelo determina directamente a relação sinal/ruído da monitorização.

Passos chave

Mapear CIs críticos a partir da CMDB e do catálogo de serviços
Definir thresholds de desempenho por CI em conjunto com capacity management
Estabelecer critérios de classificação: informativo, aviso, excepção
Definir acção de resposta por tipo de evento (log, alerta, remediação, incidente)
Documentar o modelo num registo de configuração de monitorização

Critério de saída: modelo de eventos aprovado e documentado, com thresholds, critérios de classificação e acções definidas para cada CI relevante.

2 Configuração da monitorização

A monitorização pode ser implementada através de diferentes abordagens consoante o tipo de CI. A monitorização por agente instala software no host que recolhe métricas locais com maior granularidade. A monitorização sem agente usa protocolos externos como SNMP, WMI ou chamadas de API. Para ambientes cloud, a observabilidade baseia-se em métricas, logs e traces (os três pilares do modelo OpenTelemetry). Sistemas SIEM centralizam e correlacionam eventos de múltiplas fontes para detectar padrões de segurança.

Métodos de recolha

Agentes instalados: maior detalhe, requer gestão do agente
SNMP e WMI: monitorização sem agente para rede e sistemas Windows
APIs cloud: AWS CloudWatch, Azure Monitor, Google Cloud Operations
Logs centralizados: ELK Stack, Splunk, Loki para análise de texto
Tracing distribuído: Jaeger, Zipkin para rastreio de transacções em microserviços

Critério de saída: todos os CIs definidos no modelo estão a ser monitorizados, com dados a fluir para a plataforma centralizada e regras de alerta activas.

3 Detecção de eventos

A detecção ocorre quando um CI reporta uma alteração de estado que ultrapassa um threshold configurado ou corresponde a um padrão definido. A detecção baseada em threshold é directa (CPU acima de 90%) mas pode gerar falsos positivos se o threshold não for calibrado. Abordagens mais avançadas usam detecção de anomalias por machine learning, que identifica desvios do comportamento histórico normal sem threshold fixo, reduzindo falsos positivos em ambientes dinâmicos.

Passos chave

A ferramenta de monitorização avalia continuamente os dados recolhidos
Quando um threshold é ultrapassado, é gerado um evento
O evento é registado com timestamp, CI afectado, valor observado e threshold
A detecção pode ser por polling (intervalo fixo) ou por trap/push (evento imediato)

Critério de saída: evento registado com dados completos: CI, timestamp, valor, threshold, fonte de detecção.

4 Classificação do evento

Cada evento detectado é classificado num de três tipos, determinando a acção de resposta adequada. Os eventos informativos documentam o estado normal do serviço e são registados para auditoria e análise histórica sem acção imediata. Os eventos de aviso indicam que um limiar de precaução foi atingido e requerem atenção preventiva antes de se tornarem excepção. Os eventos de excepção representam uma condição fora do normal que pode afectar a disponibilidade ou desempenho do serviço e requerem acção imediata.

Critérios de classificação

Informativo: operação dentro dos parâmetros normais, apenas para registo
Aviso: 70 a 90% do threshold, tendência preocupante, alerta preventivo
Excepção: threshold ultrapassado, serviço degradado ou indisponível
A classificação pode ser automática (baseada em regras) ou revista manualmente

Critério de saída: evento classificado como informativo, aviso ou excepção, com acção de resposta determinada.

5 Correlação de eventos

Em ambientes complexos, uma única falha de infraestrutura pode gerar centenas de eventos em cascata, tornando impossível identificar a causa raiz sem correlação. A correlação agrupa eventos relacionados, elimina duplicados (deduplicação), identifica o evento raiz e suprime os eventos secundários. Ferramentas como Moogsoft, BigPanda ou funcionalidades nativas de plataformas como Datadog AIOps aplicam correlação baseada em topologia, tempo e padrões históricos para reduzir o noise ratio em ambientes de produção.

Técnicas de correlação

Correlação temporal: eventos ocorridos dentro de uma janela de tempo definida
Correlação topológica: eventos em CIs com relações na CMDB
Deduplicação: supressão de eventos repetidos do mesmo CI e tipo
Compressão de alertas: agrupamento de eventos similares num único alerta
Root cause identification: identificação do evento gerador da cascata

Critério de saída: evento raiz identificado, eventos secundários suprimidos, alerta consolidado gerado com contexto suficiente para resposta.

6 Resposta automática

A resposta automática, também designada self-healing, é a capacidade de executar acções correctivas sem intervenção humana quando um evento de aviso ou excepção é detectado. Esta abordagem reduz o MTTD (mean time to detect) e o MTTR, e é especialmente eficaz para cenários recorrentes com resolução conhecida. Os runbooks de automação são activados por regras associadas ao modelo de eventos e podem incluir reinicialização de serviços, limpeza de espaço em disco, escalamento automático ou failover.

Exemplos de automação

Reinício automático de serviço quando processo fica não responsivo
Limpeza de logs e ficheiros temporários quando disco ultrapassa 85%
Escalamento horizontal de pods Kubernetes quando CPU ultrapassa threshold
Failover automático para réplica de base de dados em caso de falha primária
Notificação via Slack ou Teams com contexto completo do evento

Critério de saída: acção automática executada e resultado registado; se a acção não resolver o evento, escalação para incident management é activada.

7 Escalação para incident management

Quando um evento de excepção não é resolvido automaticamente, é criado um incidente no processo de incident management. Esta integração é um dos pontos de interface mais críticos do processo, pois garante que excepções não detectadas por utilizadores são igualmente geridas. O incidente criado deve incluir todo o contexto do evento: CI afectado, dados de monitorização, timeline, acções automáticas já tentadas e resultado.

Passos chave

Verificar que a excepção não foi resolvida automaticamente
Criar ticket de incidente via integração com ferramenta ITSM (API ou webhook)
Incluir dados de contexto: CI, métricas, logs relevantes, timeline do evento
Atribuir prioridade com base na criticidade do CI e impacto no serviço
Notificar a equipa de incident management e o service owner

Critério de saída: incidente criado na ferramenta ITSM com referência cruzada ao evento de monitorização; equipa notificada.

8 Reporting e análise de tendências

Os dados acumulados de eventos são analisados periodicamente para identificar tendências, padrões recorrentes e oportunidades de melhoria. Dashboards em tempo real permitem à equipa de operações visualizar o estado actual de todos os CIs monitorizados. Relatórios de tendências revelam quais os CIs com maior frequência de eventos, quais os thresholds que geram mais falsos positivos e quais os serviços com maior risco de indisponibilidade. Esta análise alimenta também o processo de problem management e de capacity management.

Conteúdo do relatório periódico

Distribuição de eventos por tipo (informativo, aviso, excepção)
Top 10 CIs por volume de eventos e por taxa de excepções
Taxa de falsos positivos e tendência de melhoria do modelo
Taxa de resolução automática versus escalação para incident management
Evolução do MTTD ao longo do tempo

Critério de saída: relatório de tendências publicado mensalmente; dashboards actualizados em tempo real e acessíveis às equipas relevantes.

9 Melhoria do modelo de monitorização

O modelo de monitorização não é estático: deve ser ajustado com base na análise de tendências, no feedback das equipas operacionais e nas alterações ao ambiente. Thresholds demasiado sensíveis geram ruído excessivo e fadiga de alertas, enquanto thresholds demasiado tolerantes atrasam a detecção de problemas reais. O processo de melhoria contínua do modelo reduz progressivamente a taxa de falsos positivos, aumenta a cobertura de monitorização e melhora a capacidade de resposta automatizada.

Acções de melhoria típicas

Ajustar thresholds com base em dados históricos de desempenho
Adicionar novos CIs ao âmbito de monitorização
Criar novos runbooks de automação para eventos recorrentes resolvidos manualmente
Rever regras de correlação para reduzir falsos positivos
Integrar feedback de problem management sobre eventos precursores de problemas

Critério de saída: modelo actualizado com novos thresholds e regras aprovadas; taxa de falsos positivos em tendência decrescente.

Modelo RACI

Actividade	Monitoring engineer (ME)	Eq. operações (OPS)	Incident manager (IM)	Service owner (SO)	Capacity manager (CM)
Definição do modelo de eventos	R	C	I	A	C
Configuração da monitorização	R	C	I	A	-
Detecção de eventos	A	R	-	-	-
Classificação do evento	A	R	I	-	-
Correlação de eventos	C	R	A	-	-
Resposta automática	A	R	-	-	-
Escalação para incident management	-	R	A	I	-
Reporting e análise de tendências	R	C	I	A	I
Melhoria do modelo de monitorização	R	C	I	A	C

R Responsible - executa a actividade A Accountable - responde pelo resultado C Consulted - é consultado I Informed - é informado

Métricas e KPIs

Métrica	Descrição	Target sugerido
Eventos por categoria	Distribuição percentual de eventos por tipo: informativo, aviso e excepção	Excepções < 10%
Taxa de falsos positivos	Percentagem de alertas gerados que não corresponderam a um problema real de serviço	< 15%
MTTD	Mean time to detect: tempo médio entre ocorrência de um problema e a sua detecção pela monitorização	< 2 min (serviços críticos)
Taxa de resposta automática	Percentagem de eventos de excepção resolvidos por automação sem intervenção humana	> 40%
Cobertura de monitorização	Percentagem de CIs críticos (classe A e B na CMDB) com monitorização activa configurada	100% CIs críticos
Rácio alerta/incidente	Número médio de alertas gerados por cada incidente criado; indica a eficácia da correlação	< 5 alertas/incidente
Redução de ruído	Percentagem de redução do volume total de alertas obtida através de correlação e deduplicação	> 60%

Interfaces com outros processos

Saida

Incident management

Excepções não resolvidas automaticamente geram incidentes no processo de incident management para gestão e resolução.

Saida

Problem management

Tendências de eventos recorrentes e padrões identificados na análise de dados alimentam o processo de problem management para investigação de causa raiz.

Entrada

CMDB

A CMDB fornece o inventário de CIs a monitorizar, as relações entre componentes para correlação topológica e os níveis de criticidade para priorização de alertas.

Entrada

Capacity management

Os thresholds de desempenho utilizados no modelo de eventos são definidos em conjunto com capacity management, reflectindo os limites operacionais de cada CI.

Saida

Service level management

Os dados de monitorização em tempo real fornecem ao service level management métricas de disponibilidade e desempenho para cálculo e reporte de SLAs.

Saida

Segurança da informação

Eventos de segurança detectados pela monitorização (acessos anómalos, tráfego suspeito) são encaminhados para o processo de gestão de segurança e SIEM.

Descarregar o pack completo

Inclui o processo documentado, modelo de eventos em Excel, modelo RACI e catálogo de thresholds por tipo de CI.

Descarregar pack completo Precisa de ajuda a implementar? Fale connosco