Monitorização e gestão de eventos
Processo end-to-end: observabilidade, classificação de eventos, correlação, alertas e resposta automatizada
Descarregar pack completoÂmbito e objectivos
Suportar a operação normal dos componentes de serviço, observando e respondendo adequadamente a alterações de estado nesses componentes, de acordo com a definição ITIL.
Configuração inicial de monitorização para um novo serviço ou CI, alteração de thresholds de desempenho, ou revisão do modelo de eventos existente.
Definição de modelos de eventos, configuração de agentes e ferramentas de monitorização, detecção, classificação, correlação e resposta a eventos informativos, de aviso e de excepção.
Resolução de incidentes gerados por excepções (gestão de incidentes) e investigação de causa raiz de eventos recorrentes (gestão de problemas).
Eventos detectados e processados conforme o seu tipo, alertas gerados para as equipas adequadas, incidentes criados automaticamente a partir de excepções, e dados de observabilidade disponíveis para reporting e análise de tendências.
Diagrama do processo
Diagrama BPMN simplificado do processo de monitorização e gestão de eventos (3 swimlanes). Percorra horizontalmente em dispositivos móveis.
Actividades macro
| # | Actividade | Responsável | Input | Output |
|---|---|---|---|---|
| 1 | Definição do modelo de eventos | Monitoring engineer | Catálogo de serviços, lista de CIs, requisitos de SLA | Modelo de eventos documentado com tipos, thresholds e acções |
| 2 | Configuração da monitorização | Monitoring engineer | Modelo de eventos, inventário de CIs na CMDB | Agentes, colectores e regras de alerta activos |
| 3 | Detecção de eventos | Ferramenta de monitorização / Equipa operações | Métricas, logs e traces dos CIs | Evento detectado e registado |
| 4 | Classificação do evento | Equipa operações | Evento detectado | Evento classificado: informativo, aviso ou excepção |
| 5 | Correlação de eventos | Equipa operações | Múltiplos eventos relacionados | Padrão identificado, ruído reduzido, evento raiz determinado |
| 6 | Resposta automática | Ferramenta de automação / Equipa operações | Evento classificado com runbook associado | Acção correctiva executada (self-healing) |
| 7 | Escalação para incident management | Equipa operações / Incident manager | Excepção não resolvida automaticamente | Incidente criado e atribuído |
| 8 | Reporting e análise de tendências | Monitoring engineer / Service owner | Dados históricos de eventos | Relatório de tendências, dashboard de observabilidade |
| 9 | Melhoria do modelo de monitorização | Monitoring engineer | Relatório de tendências, feedback de operações | Thresholds e regras actualizados, cobertura expandida |
Descrição detalhada das actividades
O modelo de eventos define, para cada CI ou serviço, quais as alterações de estado que são relevantes e como devem ser classificadas. Um evento é qualquer alteração de estado com significado para a gestão de serviços, podendo ser informativo (estado normal documentado), de aviso (limiar aproximando-se) ou de excepção (limiar ultrapassado ou falha detectada). A qualidade do modelo determina directamente a relação sinal/ruído da monitorização.
Passos chave
- Mapear CIs críticos a partir da CMDB e do catálogo de serviços
- Definir thresholds de desempenho por CI em conjunto com capacity management
- Estabelecer critérios de classificação: informativo, aviso, excepção
- Definir acção de resposta por tipo de evento (log, alerta, remediação, incidente)
- Documentar o modelo num registo de configuração de monitorização
A monitorização pode ser implementada através de diferentes abordagens consoante o tipo de CI. A monitorização por agente instala software no host que recolhe métricas locais com maior granularidade. A monitorização sem agente usa protocolos externos como SNMP, WMI ou chamadas de API. Para ambientes cloud, a observabilidade baseia-se em métricas, logs e traces (os três pilares do modelo OpenTelemetry). Sistemas SIEM centralizam e correlacionam eventos de múltiplas fontes para detectar padrões de segurança.
Métodos de recolha
- Agentes instalados: maior detalhe, requer gestão do agente
- SNMP e WMI: monitorização sem agente para rede e sistemas Windows
- APIs cloud: AWS CloudWatch, Azure Monitor, Google Cloud Operations
- Logs centralizados: ELK Stack, Splunk, Loki para análise de texto
- Tracing distribuído: Jaeger, Zipkin para rastreio de transacções em microserviços
A detecção ocorre quando um CI reporta uma alteração de estado que ultrapassa um threshold configurado ou corresponde a um padrão definido. A detecção baseada em threshold é directa (CPU acima de 90%) mas pode gerar falsos positivos se o threshold não for calibrado. Abordagens mais avançadas usam detecção de anomalias por machine learning, que identifica desvios do comportamento histórico normal sem threshold fixo, reduzindo falsos positivos em ambientes dinâmicos.
Passos chave
- A ferramenta de monitorização avalia continuamente os dados recolhidos
- Quando um threshold é ultrapassado, é gerado um evento
- O evento é registado com timestamp, CI afectado, valor observado e threshold
- A detecção pode ser por polling (intervalo fixo) ou por trap/push (evento imediato)
Cada evento detectado é classificado num de três tipos, determinando a acção de resposta adequada. Os eventos informativos documentam o estado normal do serviço e são registados para auditoria e análise histórica sem acção imediata. Os eventos de aviso indicam que um limiar de precaução foi atingido e requerem atenção preventiva antes de se tornarem excepção. Os eventos de excepção representam uma condição fora do normal que pode afectar a disponibilidade ou desempenho do serviço e requerem acção imediata.
Critérios de classificação
- Informativo: operação dentro dos parâmetros normais, apenas para registo
- Aviso: 70 a 90% do threshold, tendência preocupante, alerta preventivo
- Excepção: threshold ultrapassado, serviço degradado ou indisponível
- A classificação pode ser automática (baseada em regras) ou revista manualmente
Em ambientes complexos, uma única falha de infraestrutura pode gerar centenas de eventos em cascata, tornando impossível identificar a causa raiz sem correlação. A correlação agrupa eventos relacionados, elimina duplicados (deduplicação), identifica o evento raiz e suprime os eventos secundários. Ferramentas como Moogsoft, BigPanda ou funcionalidades nativas de plataformas como Datadog AIOps aplicam correlação baseada em topologia, tempo e padrões históricos para reduzir o noise ratio em ambientes de produção.
Técnicas de correlação
- Correlação temporal: eventos ocorridos dentro de uma janela de tempo definida
- Correlação topológica: eventos em CIs com relações na CMDB
- Deduplicação: supressão de eventos repetidos do mesmo CI e tipo
- Compressão de alertas: agrupamento de eventos similares num único alerta
- Root cause identification: identificação do evento gerador da cascata
A resposta automática, também designada self-healing, é a capacidade de executar acções correctivas sem intervenção humana quando um evento de aviso ou excepção é detectado. Esta abordagem reduz o MTTD (mean time to detect) e o MTTR, e é especialmente eficaz para cenários recorrentes com resolução conhecida. Os runbooks de automação são activados por regras associadas ao modelo de eventos e podem incluir reinicialização de serviços, limpeza de espaço em disco, escalamento automático ou failover.
Exemplos de automação
- Reinício automático de serviço quando processo fica não responsivo
- Limpeza de logs e ficheiros temporários quando disco ultrapassa 85%
- Escalamento horizontal de pods Kubernetes quando CPU ultrapassa threshold
- Failover automático para réplica de base de dados em caso de falha primária
- Notificação via Slack ou Teams com contexto completo do evento
Quando um evento de excepção não é resolvido automaticamente, é criado um incidente no processo de incident management. Esta integração é um dos pontos de interface mais críticos do processo, pois garante que excepções não detectadas por utilizadores são igualmente geridas. O incidente criado deve incluir todo o contexto do evento: CI afectado, dados de monitorização, timeline, acções automáticas já tentadas e resultado.
Passos chave
- Verificar que a excepção não foi resolvida automaticamente
- Criar ticket de incidente via integração com ferramenta ITSM (API ou webhook)
- Incluir dados de contexto: CI, métricas, logs relevantes, timeline do evento
- Atribuir prioridade com base na criticidade do CI e impacto no serviço
- Notificar a equipa de incident management e o service owner
Os dados acumulados de eventos são analisados periodicamente para identificar tendências, padrões recorrentes e oportunidades de melhoria. Dashboards em tempo real permitem à equipa de operações visualizar o estado actual de todos os CIs monitorizados. Relatórios de tendências revelam quais os CIs com maior frequência de eventos, quais os thresholds que geram mais falsos positivos e quais os serviços com maior risco de indisponibilidade. Esta análise alimenta também o processo de problem management e de capacity management.
Conteúdo do relatório periódico
- Distribuição de eventos por tipo (informativo, aviso, excepção)
- Top 10 CIs por volume de eventos e por taxa de excepções
- Taxa de falsos positivos e tendência de melhoria do modelo
- Taxa de resolução automática versus escalação para incident management
- Evolução do MTTD ao longo do tempo
O modelo de monitorização não é estático: deve ser ajustado com base na análise de tendências, no feedback das equipas operacionais e nas alterações ao ambiente. Thresholds demasiado sensíveis geram ruído excessivo e fadiga de alertas, enquanto thresholds demasiado tolerantes atrasam a detecção de problemas reais. O processo de melhoria contínua do modelo reduz progressivamente a taxa de falsos positivos, aumenta a cobertura de monitorização e melhora a capacidade de resposta automatizada.
Acções de melhoria típicas
- Ajustar thresholds com base em dados históricos de desempenho
- Adicionar novos CIs ao âmbito de monitorização
- Criar novos runbooks de automação para eventos recorrentes resolvidos manualmente
- Rever regras de correlação para reduzir falsos positivos
- Integrar feedback de problem management sobre eventos precursores de problemas
Modelo RACI
| Actividade | Monitoring engineer (ME) |
Eq. operações (OPS) |
Incident manager (IM) |
Service owner (SO) |
Capacity manager (CM) |
|---|---|---|---|---|---|
| Definição do modelo de eventos | R | C | I | A | C |
| Configuração da monitorização | R | C | I | A | - |
| Detecção de eventos | A | R | - | - | - |
| Classificação do evento | A | R | I | - | - |
| Correlação de eventos | C | R | A | - | - |
| Resposta automática | A | R | - | - | - |
| Escalação para incident management | - | R | A | I | - |
| Reporting e análise de tendências | R | C | I | A | I |
| Melhoria do modelo de monitorização | R | C | I | A | C |
Métricas e KPIs
| Métrica | Descrição | Target sugerido |
|---|---|---|
| Eventos por categoria | Distribuição percentual de eventos por tipo: informativo, aviso e excepção | Excepções < 10% |
| Taxa de falsos positivos | Percentagem de alertas gerados que não corresponderam a um problema real de serviço | < 15% |
| MTTD | Mean time to detect: tempo médio entre ocorrência de um problema e a sua detecção pela monitorização | < 2 min (serviços críticos) |
| Taxa de resposta automática | Percentagem de eventos de excepção resolvidos por automação sem intervenção humana | > 40% |
| Cobertura de monitorização | Percentagem de CIs críticos (classe A e B na CMDB) com monitorização activa configurada | 100% CIs críticos |
| Rácio alerta/incidente | Número médio de alertas gerados por cada incidente criado; indica a eficácia da correlação | < 5 alertas/incidente |
| Redução de ruído | Percentagem de redução do volume total de alertas obtida através de correlação e deduplicação | > 60% |
Interfaces com outros processos
Incident management
Excepções não resolvidas automaticamente geram incidentes no processo de incident management para gestão e resolução.
Problem management
Tendências de eventos recorrentes e padrões identificados na análise de dados alimentam o processo de problem management para investigação de causa raiz.
CMDB
A CMDB fornece o inventário de CIs a monitorizar, as relações entre componentes para correlação topológica e os níveis de criticidade para priorização de alertas.
Capacity management
Os thresholds de desempenho utilizados no modelo de eventos são definidos em conjunto com capacity management, reflectindo os limites operacionais de cada CI.
Service level management
Os dados de monitorização em tempo real fornecem ao service level management métricas de disponibilidade e desempenho para cálculo e reporte de SLAs.
Segurança da informação
Eventos de segurança detectados pela monitorização (acessos anómalos, tráfego suspeito) são encaminhados para o processo de gestão de segurança e SIEM.
Descarregar o pack completo
Inclui o processo documentado, modelo de eventos em Excel, modelo RACI e catálogo de thresholds por tipo de CI.