Gestão de capacidade e desempenho
Planeamento de capacidade, gestão de desempenho, cloud scaling e FinOps: processo end-to-end com actividades, RACI e métricas
Descarregar pack completoÂmbito e objectivos
Garantir que os serviços atingem o desempenho acordado e satisfazem a procura actual e futura de forma eficiente em custos, conforme a definição ITIL.
Degradação de desempenho detectada, aumento de procura previsto ou inesperado, lançamento de novo serviço, previsão de crescimento do negócio ou necessidade de optimização de custos cloud.
Planeamento de capacidade (negócio, serviço e componente), gestão de desempenho, previsão de procura, right-sizing e optimização de recursos de TI e cloud.
Gestão de disponibilidade (availability management) e resolução de incidentes de degradação de desempenho activos, que são tratados pela gestão de incidentes.
Plano de capacidade documentado, relatórios de desempenho por serviço, previsões de crescimento, recomendações de right-sizing e relatórios FinOps com poupanças identificadas.
Três sub-capacidades do processo
O processo de gestão de capacidade e desempenho organiza-se em três sub-capacidades complementares, cada uma com foco distinto mas totalmente interdependentes:
| Sub-capacidade | Foco | Perguntas-chave |
|---|---|---|
| Business capacity management | Traduzir as necessidades e planos de negócio em requisitos de capacidade de TI futura | Quantos utilizadores teremos em 12 meses? Que volume de transacções o negócio prevê? |
| Service capacity management | Garantir que os serviços end-to-end atingem o desempenho acordado nos SLAs, incluindo tempo de resposta e throughput | O serviço de CRM está a cumprir o SLA de 2 segundos de tempo de resposta? Qual é o pico de utilização? |
| Component capacity management | Gerir a capacidade de componentes individuais de infraestrutura: servidores, bases de dados, rede, armazenamento e instâncias cloud | A utilização de CPU do servidor de base de dados está a exceder 80%? As instâncias cloud estão correctamente dimensionadas? |
Diagrama do processo
Diagrama BPMN simplificado do processo de gestão de capacidade e desempenho (3 swimlanes: capacity manager, equipa técnica, service owner). Percorra horizontalmente em dispositivos móveis.
Actividades macro
| # | Actividade | Responsável | Input | Output |
|---|---|---|---|---|
| 1 | Análise de requisitos | Capacity manager | Planos de negócio, SLAs, dados históricos | Requisitos de capacidade documentados |
| 2 | Monitorização de desempenho | Equipa técnica | Dados de monitorização APM, métricas de infraestrutura | Relatórios de desempenho, alertas de threshold |
| 3 | Capacity modelling e previsão | Equipa técnica / Capacity manager | Dados históricos, requisitos de negócio | Modelos de capacidade, previsões de crescimento |
| 4 | Gestão de procura | Equipa técnica | Padrões de procura, previsões | Políticas de demand shaping, auto-scaling configurado |
| 5 | Right-sizing e optimização | Equipa técnica | Dados de utilização de recursos cloud, relatórios FinOps | Recomendações de right-sizing, poupanças identificadas |
| 6 | Planeamento de capacidade | Capacity manager | Modelos, previsões, requisitos aprovados | Plano de capacidade documentado e aprovado |
| 7 | Performance testing | Equipa técnica | Ambientes de teste, cenários de carga | Resultados de testes de carga, stress e soak |
| 8 | Reporting | Capacity manager | Dados de desempenho, plano de capacidade | Dashboards, relatórios periódicos para stakeholders |
| 9 | Melhoria contínua | Capacity manager / Service owner | Relatórios, resultados de testes, feedback | Acções de melhoria, actualização de processos e thresholds |
Descrição detalhada das actividades
O processo inicia com a recolha e análise dos requisitos de capacidade provenientes de duas fontes principais: os planos de negócio (business capacity management) e os SLAs de desempenho acordados com os service owners. Esta actividade é o alicerce para todo o planeamento subsequente e deve ser revista pelo menos anualmente, ou sempre que ocorram mudanças significativas no negócio.
Passos chave
- Recolher planos estratégicos e projecções de crescimento do negócio
- Mapear requisitos de desempenho por serviço (tempo de resposta, throughput, disponibilidade)
- Analisar dados históricos de utilização dos últimos 12 a 24 meses
- Identificar picos sazonais e eventos previstos (campanhas, lançamentos de produto)
- Documentar requisitos de capacidade para novos serviços em pipeline
A monitorização contínua de desempenho é executada pela equipa técnica utilizando ferramentas APM (Application Performance Monitoring) como Dynatrace, New Relic, Datadog ou Prometheus. O objectivo é recolher dados em tempo real e históricos sobre utilização de CPU, memória, armazenamento, rede e tempos de resposta das aplicações, alimentando os modelos de capacidade e os alertas de threshold.
Passos chave
- Configurar dashboards de desempenho por serviço e por componente
- Definir thresholds de alerta (ex.: CPU acima de 80% por mais de 15 minutos)
- Monitorizar tempo de resposta end-to-end das transacções críticas
- Recolher métricas de utilização de instâncias cloud para análise FinOps
- Exportar dados históricos para alimentar os modelos de previsão
O capacity modelling consiste em criar representações matemáticas ou simuladas do comportamento dos serviços e componentes sob diferentes condições de carga. Existem três abordagens complementares: modelos analíticos (baseados em fórmulas matemáticas como teoria de filas), modelos de simulação (que replicam o ambiente em condições controladas) e modelos de trending (que extrapolam tendências históricas para o futuro). Esta actividade é o núcleo técnico do processo e fundamenta todas as decisões de investimento em capacidade.
Técnicas de modelling
- Trending: análise de regressão linear ou exponencial sobre dados históricos de utilização
- Modelos analíticos: teoria de filas (M/M/1, M/M/c) para sistemas de transacções
- Simulação: ambientes de teste representativos para validar previsões
- Análise de pico: identificar o percentil 95 de utilização como base de planeamento
- Modelação what-if: simular impacto de novos serviços ou campanhas de negócio
A gestão de procura (demand management) visa influenciar e regular o padrão de utilização dos serviços para optimizar o uso dos recursos existentes antes de investir em capacidade adicional. Inclui técnicas de demand shaping (incentivar utilizadores a adoptar padrões de utilização mais eficientes), throttling (limitar pedidos excessivos) e a configuração de políticas de auto-scaling em ambientes cloud para responder elasticamente a variações de procura.
Técnicas de gestão de procura
- Demand shaping: incentivos tarifários para deslocar utilização para horas de menor carga
- Throttling e rate limiting: controlar picos de pedidos em APIs e sistemas críticos
- Auto-scaling horizontal: adicionar instâncias automaticamente com base em métricas de CPU ou throughput
- Auto-scaling vertical: aumentar recursos (CPU, RAM) de instâncias existentes
- Scheduled scaling: escalar proactivamente antes de eventos previstos (campanhas, períodos de fecho)
O right-sizing consiste em ajustar o dimensionamento dos recursos de TI, em particular instâncias cloud, ao consumo real, eliminando o sobre-provisionamento (overprovisioning) sem comprometer o desempenho. Esta actividade está no centro da disciplina FinOps (Cloud Financial Operations), que alinha as equipas de TI, finanças e negócio na optimização contínua dos custos cloud. Estudos de mercado indicam que tipicamente 30 a 40% das instâncias cloud estão sobre-provisionadas.
Passos chave
- Analisar relatórios de utilização de instâncias cloud (AWS Cost Explorer, Azure Advisor, GCP Recommender)
- Identificar instâncias com utilização média de CPU inferior a 20% durante 30 dias
- Avaliar oportunidades de mudança para instâncias reservadas ou savings plans
- Identificar recursos órfãos (volumes de disco, IPs estáticos, load balancers sem tráfego)
- Documentar poupanças realizadas e reportar à equipa de finanças
- Configurar budgets e alertas de custo por serviço e ambiente
O plano de capacidade é o documento central do processo, consolidando todas as análises e modelos numa proposta concreta de acção para garantir que os serviços satisfazem a procura futura de forma eficiente em custos. É um documento vivo, revisto trimestralmente e sempre que ocorram mudanças significativas nos requisitos de negócio ou nos padrões de utilização.
Conteúdo do plano de capacidade
- Sumário executivo com recomendações prioritárias e investimentos necessários
- Estado actual de capacidade por serviço (utilização actual vs. thresholds)
- Previsões de crescimento a 3, 6 e 12 meses com intervalos de confiança
- Recomendações de aquisição, expansão ou right-sizing de recursos
- Análise custo-benefício de cada recomendação
- Plano de acção com datas, responsáveis e dependências
Os testes de desempenho validam empiricamente se o sistema consegue suportar os volumes de carga previstos no plano de capacidade e identificam o ponto de ruptura antes que ocorra em produção. São complementares ao capacity modelling teórico e devem ser executados antes de lançamentos de novos serviços, após mudanças significativas na arquitectura e periodicamente em sistemas críticos.
Tipos de performance testing
- Load testing: validar o comportamento do sistema sob a carga esperada normal e de pico
- Stress testing: identificar o ponto de falha ao aumentar progressivamente a carga além do esperado
- Soak testing (endurance): verificar comportamento estável sob carga normal durante período prolongado (8 a 24 horas) para detectar fugas de memória
- Spike testing: simular aumentos súbitos e abruptos de carga (ex.: flash sales, campanhas virais)
- Scalability testing: verificar se o sistema escala linearmente com adição de recursos
O reporting de capacidade e desempenho garante visibilidade transversal sobre o estado dos serviços, a execução do plano de capacidade e as poupanças FinOps realizadas. Os dashboards devem ser adaptados à audiência: dashboards técnicos (métricas de infraestrutura em tempo real) para a equipa técnica, e dashboards de gestão (tendências, cumprimento de SLAs, custos cloud) para os service owners e a gestão de TI.
Conteúdo dos relatórios
- Utilização actual de capacidade por serviço vs. thresholds (semáforo RAG)
- Tendências de crescimento e previsões actualizadas
- Cumprimento de SLAs de desempenho no período
- Alertas de capacidade activos e respectivas acções em curso
- Custos cloud por serviço e poupanças FinOps do período
- Estado de execução do plano de capacidade
A melhoria contínua do processo de gestão de capacidade e desempenho assegura que os modelos, thresholds, ferramentas e práticas evoluem em linha com as mudanças tecnológicas e de negócio. Deve ser conduzida pelo capacity manager em colaboração com o service owner, com revisão formal trimestral do processo e actualização anual do plano de capacidade.
Passos chave
- Rever a exactidão das previsões face ao real (forecast accuracy)
- Actualizar os modelos de capacidade com novos dados históricos
- Rever e ajustar thresholds de alerta com base em experiência acumulada
- Avaliar novas ferramentas de APM, capacity planning e FinOps
- Documentar lições aprendidas de incidentes de desempenho
- Propor melhorias ao processo e submeter ao service owner para aprovação
Modelo RACI
| Actividade | Capacity manager (CM) |
Eq. técnica (ET) |
Service owner (SO) |
Availability mgr (AM) |
Finanças (FI) |
|---|---|---|---|---|---|
| Análise de requisitos | R | C | A | C | I |
| Monitorização de desempenho | A | R | I | C | - |
| Capacity modelling e previsão | A | R | I | C | - |
| Gestão de procura | A | R | C | - | - |
| Right-sizing e optimização FinOps | A | R | I | - | C |
| Planeamento de capacidade | R | C | A | I | C |
| Performance testing | I | R | A | C | - |
| Reporting | A | R | I | I | I |
| Melhoria contínua | R | C | A | I | I |
Métricas e KPIs
| Métrica | Descrição | Target sugerido |
|---|---|---|
| Utilização de CPU/memória | Percentagem média de utilização de CPU e memória dos servidores e instâncias cloud, medida por componente | 40% a 70% |
| Utilização de armazenamento | Percentagem de capacidade de armazenamento utilizada, com alerta quando supera o threshold definido | < 80% |
| Tempo de resposta por serviço | Percentil 95 do tempo de resposta das transacções end-to-end para cada serviço crítico | Conforme SLA acordado |
| Throughput | Número de transacções ou pedidos processados por segundo, validado face à capacidade declarada do serviço | Dentro da capacidade nominal |
| Custo cloud por serviço | Custo mensal de infraestrutura cloud alocado por serviço, monitorizado face ao orçamento aprovado | Dentro do budget aprovado |
| Poupanças de right-sizing | Valor monetário poupado através de redimensionamento e optimização de recursos cloud no período | > 15% do custo cloud anual |
| Exactidão de previsão | Desvio percentual entre a capacidade prevista nos modelos e o consumo real observado | Desvio < 10% |
| Cumprimento de SLA de desempenho | Percentagem de meses em que todos os serviços cumpriram os SLAs de desempenho acordados | > 99% |
Interfaces com outros processos
SLM (Service Level Management)
Fornece os targets de desempenho acordados (SLAs) que constituem os requisitos base do planeamento de capacidade.
Monitorização e eventos
Fornece os dados de desempenho em tempo real e históricos que alimentam os modelos de capacidade e os alertas de threshold.
Availability management
Recebe dados de dimensionamento e redundância de recursos necessários para garantir os targets de disponibilidade (HA, failover).
Change enablement
Comunica mudanças previstas para avaliação do impacto na capacidade; o processo de capacidade aprova ou condiciona mudanças com impacto significativo nos recursos.
ITAM (IT Asset Management)
As previsões de capacidade geram requisições de aquisição de activos; o ITAM fornece o inventário actual de recursos disponíveis.
Finanças (FinOps)
Recebe relatórios de custos cloud por serviço, poupanças realizadas com right-sizing e previsões de despesa de infraestrutura para o orçamento anual.
Descarregar o pack completo
Inclui o processo documentado, plano de capacidade em Excel, modelo RACI, templates de relatório de desempenho e guia de performance testing.