Processo ITSM Alinhado com ITIL

Gestão de capacidade e desempenho

Planeamento de capacidade, gestão de desempenho, cloud scaling e FinOps: processo end-to-end com actividades, RACI e métricas

Descarregar pack completo

Âmbito e objectivos

Objectivo

Garantir que os serviços atingem o desempenho acordado e satisfazem a procura actual e futura de forma eficiente em custos, conforme a definição ITIL.

Trigger

Degradação de desempenho detectada, aumento de procura previsto ou inesperado, lançamento de novo serviço, previsão de crescimento do negócio ou necessidade de optimização de custos cloud.

Âmbito

Planeamento de capacidade (negócio, serviço e componente), gestão de desempenho, previsão de procura, right-sizing e optimização de recursos de TI e cloud.

Fora do âmbito

Gestão de disponibilidade (availability management) e resolução de incidentes de degradação de desempenho activos, que são tratados pela gestão de incidentes.

Output

Plano de capacidade documentado, relatórios de desempenho por serviço, previsões de crescimento, recomendações de right-sizing e relatórios FinOps com poupanças identificadas.

Três sub-capacidades do processo

O processo de gestão de capacidade e desempenho organiza-se em três sub-capacidades complementares, cada uma com foco distinto mas totalmente interdependentes:

Sub-capacidade Foco Perguntas-chave
Business capacity management Traduzir as necessidades e planos de negócio em requisitos de capacidade de TI futura Quantos utilizadores teremos em 12 meses? Que volume de transacções o negócio prevê?
Service capacity management Garantir que os serviços end-to-end atingem o desempenho acordado nos SLAs, incluindo tempo de resposta e throughput O serviço de CRM está a cumprir o SLA de 2 segundos de tempo de resposta? Qual é o pico de utilização?
Component capacity management Gerir a capacidade de componentes individuais de infraestrutura: servidores, bases de dados, rede, armazenamento e instâncias cloud A utilização de CPU do servidor de base de dados está a exceder 80%? As instâncias cloud estão correctamente dimensionadas?

Diagrama do processo

Diagrama BPMN simplificado do processo de gestão de capacidade e desempenho (3 swimlanes: capacity manager, equipa técnica, service owner). Percorra horizontalmente em dispositivos móveis.

Actividades macro

# Actividade Responsável Input Output
1 Análise de requisitos Capacity manager Planos de negócio, SLAs, dados históricos Requisitos de capacidade documentados
2 Monitorização de desempenho Equipa técnica Dados de monitorização APM, métricas de infraestrutura Relatórios de desempenho, alertas de threshold
3 Capacity modelling e previsão Equipa técnica / Capacity manager Dados históricos, requisitos de negócio Modelos de capacidade, previsões de crescimento
4 Gestão de procura Equipa técnica Padrões de procura, previsões Políticas de demand shaping, auto-scaling configurado
5 Right-sizing e optimização Equipa técnica Dados de utilização de recursos cloud, relatórios FinOps Recomendações de right-sizing, poupanças identificadas
6 Planeamento de capacidade Capacity manager Modelos, previsões, requisitos aprovados Plano de capacidade documentado e aprovado
7 Performance testing Equipa técnica Ambientes de teste, cenários de carga Resultados de testes de carga, stress e soak
8 Reporting Capacity manager Dados de desempenho, plano de capacidade Dashboards, relatórios periódicos para stakeholders
9 Melhoria contínua Capacity manager / Service owner Relatórios, resultados de testes, feedback Acções de melhoria, actualização de processos e thresholds

Descrição detalhada das actividades

O processo inicia com a recolha e análise dos requisitos de capacidade provenientes de duas fontes principais: os planos de negócio (business capacity management) e os SLAs de desempenho acordados com os service owners. Esta actividade é o alicerce para todo o planeamento subsequente e deve ser revista pelo menos anualmente, ou sempre que ocorram mudanças significativas no negócio.

Passos chave

  • Recolher planos estratégicos e projecções de crescimento do negócio
  • Mapear requisitos de desempenho por serviço (tempo de resposta, throughput, disponibilidade)
  • Analisar dados históricos de utilização dos últimos 12 a 24 meses
  • Identificar picos sazonais e eventos previstos (campanhas, lançamentos de produto)
  • Documentar requisitos de capacidade para novos serviços em pipeline
Critério de saída: documento de requisitos de capacidade aprovado pelos service owners e alinhado com os objectivos de negócio.

A monitorização contínua de desempenho é executada pela equipa técnica utilizando ferramentas APM (Application Performance Monitoring) como Dynatrace, New Relic, Datadog ou Prometheus. O objectivo é recolher dados em tempo real e históricos sobre utilização de CPU, memória, armazenamento, rede e tempos de resposta das aplicações, alimentando os modelos de capacidade e os alertas de threshold.

Passos chave

  • Configurar dashboards de desempenho por serviço e por componente
  • Definir thresholds de alerta (ex.: CPU acima de 80% por mais de 15 minutos)
  • Monitorizar tempo de resposta end-to-end das transacções críticas
  • Recolher métricas de utilização de instâncias cloud para análise FinOps
  • Exportar dados históricos para alimentar os modelos de previsão
Critério de saída: dados de desempenho disponíveis com granularidade adequada (mínimo horária), alertas activos e relatório semanal de utilização gerado automaticamente.

O capacity modelling consiste em criar representações matemáticas ou simuladas do comportamento dos serviços e componentes sob diferentes condições de carga. Existem três abordagens complementares: modelos analíticos (baseados em fórmulas matemáticas como teoria de filas), modelos de simulação (que replicam o ambiente em condições controladas) e modelos de trending (que extrapolam tendências históricas para o futuro). Esta actividade é o núcleo técnico do processo e fundamenta todas as decisões de investimento em capacidade.

Técnicas de modelling

  • Trending: análise de regressão linear ou exponencial sobre dados históricos de utilização
  • Modelos analíticos: teoria de filas (M/M/1, M/M/c) para sistemas de transacções
  • Simulação: ambientes de teste representativos para validar previsões
  • Análise de pico: identificar o percentil 95 de utilização como base de planeamento
  • Modelação what-if: simular impacto de novos serviços ou campanhas de negócio
Critério de saída: modelos validados com dados históricos, previsões de capacidade para 3, 6 e 12 meses documentadas com intervalos de confiança.

A gestão de procura (demand management) visa influenciar e regular o padrão de utilização dos serviços para optimizar o uso dos recursos existentes antes de investir em capacidade adicional. Inclui técnicas de demand shaping (incentivar utilizadores a adoptar padrões de utilização mais eficientes), throttling (limitar pedidos excessivos) e a configuração de políticas de auto-scaling em ambientes cloud para responder elasticamente a variações de procura.

Técnicas de gestão de procura

  • Demand shaping: incentivos tarifários para deslocar utilização para horas de menor carga
  • Throttling e rate limiting: controlar picos de pedidos em APIs e sistemas críticos
  • Auto-scaling horizontal: adicionar instâncias automaticamente com base em métricas de CPU ou throughput
  • Auto-scaling vertical: aumentar recursos (CPU, RAM) de instâncias existentes
  • Scheduled scaling: escalar proactivamente antes de eventos previstos (campanhas, períodos de fecho)
Critério de saída: políticas de auto-scaling configuradas e testadas, políticas de demand shaping documentadas e comunicadas aos utilizadores.

O right-sizing consiste em ajustar o dimensionamento dos recursos de TI, em particular instâncias cloud, ao consumo real, eliminando o sobre-provisionamento (overprovisioning) sem comprometer o desempenho. Esta actividade está no centro da disciplina FinOps (Cloud Financial Operations), que alinha as equipas de TI, finanças e negócio na optimização contínua dos custos cloud. Estudos de mercado indicam que tipicamente 30 a 40% das instâncias cloud estão sobre-provisionadas.

Passos chave

  • Analisar relatórios de utilização de instâncias cloud (AWS Cost Explorer, Azure Advisor, GCP Recommender)
  • Identificar instâncias com utilização média de CPU inferior a 20% durante 30 dias
  • Avaliar oportunidades de mudança para instâncias reservadas ou savings plans
  • Identificar recursos órfãos (volumes de disco, IPs estáticos, load balancers sem tráfego)
  • Documentar poupanças realizadas e reportar à equipa de finanças
  • Configurar budgets e alertas de custo por serviço e ambiente
Critério de saída: relatório FinOps com poupanças identificadas e realizadas, instâncias redimensionadas sem violação de SLAs, budgets cloud configurados.

O plano de capacidade é o documento central do processo, consolidando todas as análises e modelos numa proposta concreta de acção para garantir que os serviços satisfazem a procura futura de forma eficiente em custos. É um documento vivo, revisto trimestralmente e sempre que ocorram mudanças significativas nos requisitos de negócio ou nos padrões de utilização.

Conteúdo do plano de capacidade

  • Sumário executivo com recomendações prioritárias e investimentos necessários
  • Estado actual de capacidade por serviço (utilização actual vs. thresholds)
  • Previsões de crescimento a 3, 6 e 12 meses com intervalos de confiança
  • Recomendações de aquisição, expansão ou right-sizing de recursos
  • Análise custo-benefício de cada recomendação
  • Plano de acção com datas, responsáveis e dependências
Critério de saída: plano de capacidade aprovado pelo service owner e pela gestão de TI, com plano de acção detalhado e orçamento estimado.

Os testes de desempenho validam empiricamente se o sistema consegue suportar os volumes de carga previstos no plano de capacidade e identificam o ponto de ruptura antes que ocorra em produção. São complementares ao capacity modelling teórico e devem ser executados antes de lançamentos de novos serviços, após mudanças significativas na arquitectura e periodicamente em sistemas críticos.

Tipos de performance testing

  • Load testing: validar o comportamento do sistema sob a carga esperada normal e de pico
  • Stress testing: identificar o ponto de falha ao aumentar progressivamente a carga além do esperado
  • Soak testing (endurance): verificar comportamento estável sob carga normal durante período prolongado (8 a 24 horas) para detectar fugas de memória
  • Spike testing: simular aumentos súbitos e abruptos de carga (ex.: flash sales, campanhas virais)
  • Scalability testing: verificar se o sistema escala linearmente com adição de recursos
Critério de saída: relatório de testes documentado com resultados por tipo de teste, bottlenecks identificados e recomendações de optimização.

O reporting de capacidade e desempenho garante visibilidade transversal sobre o estado dos serviços, a execução do plano de capacidade e as poupanças FinOps realizadas. Os dashboards devem ser adaptados à audiência: dashboards técnicos (métricas de infraestrutura em tempo real) para a equipa técnica, e dashboards de gestão (tendências, cumprimento de SLAs, custos cloud) para os service owners e a gestão de TI.

Conteúdo dos relatórios

  • Utilização actual de capacidade por serviço vs. thresholds (semáforo RAG)
  • Tendências de crescimento e previsões actualizadas
  • Cumprimento de SLAs de desempenho no período
  • Alertas de capacidade activos e respectivas acções em curso
  • Custos cloud por serviço e poupanças FinOps do período
  • Estado de execução do plano de capacidade
Critério de saída: relatório mensal publicado e partilhado com os stakeholders, dashboards actualizados e acessíveis em tempo real.

A melhoria contínua do processo de gestão de capacidade e desempenho assegura que os modelos, thresholds, ferramentas e práticas evoluem em linha com as mudanças tecnológicas e de negócio. Deve ser conduzida pelo capacity manager em colaboração com o service owner, com revisão formal trimestral do processo e actualização anual do plano de capacidade.

Passos chave

  • Rever a exactidão das previsões face ao real (forecast accuracy)
  • Actualizar os modelos de capacidade com novos dados históricos
  • Rever e ajustar thresholds de alerta com base em experiência acumulada
  • Avaliar novas ferramentas de APM, capacity planning e FinOps
  • Documentar lições aprendidas de incidentes de desempenho
  • Propor melhorias ao processo e submeter ao service owner para aprovação
Critério de saída: relatório de revisão do processo publicado, melhorias aprovadas e incorporadas na próxima iteração do plano de capacidade.

Modelo RACI

Actividade Capacity manager
(CM)
Eq. técnica
(ET)
Service owner
(SO)
Availability mgr
(AM)
Finanças
(FI)
Análise de requisitos R C A C I
Monitorização de desempenho A R I C -
Capacity modelling e previsão A R I C -
Gestão de procura A R C - -
Right-sizing e optimização FinOps A R I - C
Planeamento de capacidade R C A I C
Performance testing I R A C -
Reporting A R I I I
Melhoria contínua R C A I I
R Responsible - executa a actividade A Accountable - responde pelo resultado C Consulted - é consultado I Informed - é informado

Métricas e KPIs

Métrica Descrição Target sugerido
Utilização de CPU/memória Percentagem média de utilização de CPU e memória dos servidores e instâncias cloud, medida por componente 40% a 70%
Utilização de armazenamento Percentagem de capacidade de armazenamento utilizada, com alerta quando supera o threshold definido < 80%
Tempo de resposta por serviço Percentil 95 do tempo de resposta das transacções end-to-end para cada serviço crítico Conforme SLA acordado
Throughput Número de transacções ou pedidos processados por segundo, validado face à capacidade declarada do serviço Dentro da capacidade nominal
Custo cloud por serviço Custo mensal de infraestrutura cloud alocado por serviço, monitorizado face ao orçamento aprovado Dentro do budget aprovado
Poupanças de right-sizing Valor monetário poupado através de redimensionamento e optimização de recursos cloud no período > 15% do custo cloud anual
Exactidão de previsão Desvio percentual entre a capacidade prevista nos modelos e o consumo real observado Desvio < 10%
Cumprimento de SLA de desempenho Percentagem de meses em que todos os serviços cumpriram os SLAs de desempenho acordados > 99%

Interfaces com outros processos

Entrada

SLM (Service Level Management)

Fornece os targets de desempenho acordados (SLAs) que constituem os requisitos base do planeamento de capacidade.

Entrada

Monitorização e eventos

Fornece os dados de desempenho em tempo real e históricos que alimentam os modelos de capacidade e os alertas de threshold.

Saida

Availability management

Recebe dados de dimensionamento e redundância de recursos necessários para garantir os targets de disponibilidade (HA, failover).

Entrada

Change enablement

Comunica mudanças previstas para avaliação do impacto na capacidade; o processo de capacidade aprova ou condiciona mudanças com impacto significativo nos recursos.

Saida

ITAM (IT Asset Management)

As previsões de capacidade geram requisições de aquisição de activos; o ITAM fornece o inventário actual de recursos disponíveis.

Saida

Finanças (FinOps)

Recebe relatórios de custos cloud por serviço, poupanças realizadas com right-sizing e previsões de despesa de infraestrutura para o orçamento anual.

Descarregar o pack completo

Inclui o processo documentado, plano de capacidade em Excel, modelo RACI, templates de relatório de desempenho e guia de performance testing.