Processo ITSM Alinhado com ITIL

Gestão de capacidade e desempenho

Planeamento de capacidade, gestão de desempenho, cloud scaling e FinOps: processo end-to-end com actividades, RACI e métricas

Descarregar pack completo

Âmbito e objectivos

Objectivo

Garantir que os serviços atingem o desempenho acordado e satisfazem a procura actual e futura de forma eficiente em custos, conforme a definição ITIL.

Trigger

Degradação de desempenho detectada, aumento de procura previsto ou inesperado, lançamento de novo serviço, previsão de crescimento do negócio ou necessidade de optimização de custos cloud.

Âmbito

Planeamento de capacidade (negócio, serviço e componente), gestão de desempenho, previsão de procura, right-sizing e optimização de recursos de TI e cloud.

Fora do âmbito

Gestão de disponibilidade (availability management) e resolução de incidentes de degradação de desempenho activos, que são tratados pela gestão de incidentes.

Output

Plano de capacidade documentado, relatórios de desempenho por serviço, previsões de crescimento, recomendações de right-sizing e relatórios FinOps com poupanças identificadas.

Três sub-capacidades do processo

O processo de gestão de capacidade e desempenho organiza-se em três sub-capacidades complementares, cada uma com foco distinto mas totalmente interdependentes:

Sub-capacidade	Foco	Perguntas-chave
Business capacity management	Traduzir as necessidades e planos de negócio em requisitos de capacidade de TI futura	Quantos utilizadores teremos em 12 meses? Que volume de transacções o negócio prevê?
Service capacity management	Garantir que os serviços end-to-end atingem o desempenho acordado nos SLAs, incluindo tempo de resposta e throughput	O serviço de CRM está a cumprir o SLA de 2 segundos de tempo de resposta? Qual é o pico de utilização?
Component capacity management	Gerir a capacidade de componentes individuais de infraestrutura: servidores, bases de dados, rede, armazenamento e instâncias cloud	A utilização de CPU do servidor de base de dados está a exceder 80%? As instâncias cloud estão correctamente dimensionadas?

Diagrama do processo

Diagrama BPMN simplificado do processo de gestão de capacidade e desempenho (3 swimlanes: capacity manager, equipa técnica, service owner). Percorra horizontalmente em dispositivos móveis.

Actividades macro

#	Actividade	Responsável	Input	Output
1	Análise de requisitos	Capacity manager	Planos de negócio, SLAs, dados históricos	Requisitos de capacidade documentados
2	Monitorização de desempenho	Equipa técnica	Dados de monitorização APM, métricas de infraestrutura	Relatórios de desempenho, alertas de threshold
3	Capacity modelling e previsão	Equipa técnica / Capacity manager	Dados históricos, requisitos de negócio	Modelos de capacidade, previsões de crescimento
4	Gestão de procura	Equipa técnica	Padrões de procura, previsões	Políticas de demand shaping, auto-scaling configurado
5	Right-sizing e optimização	Equipa técnica	Dados de utilização de recursos cloud, relatórios FinOps	Recomendações de right-sizing, poupanças identificadas
6	Planeamento de capacidade	Capacity manager	Modelos, previsões, requisitos aprovados	Plano de capacidade documentado e aprovado
7	Performance testing	Equipa técnica	Ambientes de teste, cenários de carga	Resultados de testes de carga, stress e soak
8	Reporting	Capacity manager	Dados de desempenho, plano de capacidade	Dashboards, relatórios periódicos para stakeholders
9	Melhoria contínua	Capacity manager / Service owner	Relatórios, resultados de testes, feedback	Acções de melhoria, actualização de processos e thresholds

Descrição detalhada das actividades

1 Análise de requisitos

O processo inicia com a recolha e análise dos requisitos de capacidade provenientes de duas fontes principais: os planos de negócio (business capacity management) e os SLAs de desempenho acordados com os service owners. Esta actividade é o alicerce para todo o planeamento subsequente e deve ser revista pelo menos anualmente, ou sempre que ocorram mudanças significativas no negócio.

Passos chave

Recolher planos estratégicos e projecções de crescimento do negócio
Mapear requisitos de desempenho por serviço (tempo de resposta, throughput, disponibilidade)
Analisar dados históricos de utilização dos últimos 12 a 24 meses
Identificar picos sazonais e eventos previstos (campanhas, lançamentos de produto)
Documentar requisitos de capacidade para novos serviços em pipeline

Critério de saída: documento de requisitos de capacidade aprovado pelos service owners e alinhado com os objectivos de negócio.

2 Monitorização de desempenho

A monitorização contínua de desempenho é executada pela equipa técnica utilizando ferramentas APM (Application Performance Monitoring) como Dynatrace, New Relic, Datadog ou Prometheus. O objectivo é recolher dados em tempo real e históricos sobre utilização de CPU, memória, armazenamento, rede e tempos de resposta das aplicações, alimentando os modelos de capacidade e os alertas de threshold.

Passos chave

Configurar dashboards de desempenho por serviço e por componente
Definir thresholds de alerta (ex.: CPU acima de 80% por mais de 15 minutos)
Monitorizar tempo de resposta end-to-end das transacções críticas
Recolher métricas de utilização de instâncias cloud para análise FinOps
Exportar dados históricos para alimentar os modelos de previsão

Critério de saída: dados de desempenho disponíveis com granularidade adequada (mínimo horária), alertas activos e relatório semanal de utilização gerado automaticamente.

3 Capacity modelling e previsão

O capacity modelling consiste em criar representações matemáticas ou simuladas do comportamento dos serviços e componentes sob diferentes condições de carga. Existem três abordagens complementares: modelos analíticos (baseados em fórmulas matemáticas como teoria de filas), modelos de simulação (que replicam o ambiente em condições controladas) e modelos de trending (que extrapolam tendências históricas para o futuro). Esta actividade é o núcleo técnico do processo e fundamenta todas as decisões de investimento em capacidade.

Técnicas de modelling

Trending: análise de regressão linear ou exponencial sobre dados históricos de utilização
Modelos analíticos: teoria de filas (M/M/1, M/M/c) para sistemas de transacções
Simulação: ambientes de teste representativos para validar previsões
Análise de pico: identificar o percentil 95 de utilização como base de planeamento
Modelação what-if: simular impacto de novos serviços ou campanhas de negócio

Critério de saída: modelos validados com dados históricos, previsões de capacidade para 3, 6 e 12 meses documentadas com intervalos de confiança.

4 Gestão de procura

A gestão de procura (demand management) visa influenciar e regular o padrão de utilização dos serviços para optimizar o uso dos recursos existentes antes de investir em capacidade adicional. Inclui técnicas de demand shaping (incentivar utilizadores a adoptar padrões de utilização mais eficientes), throttling (limitar pedidos excessivos) e a configuração de políticas de auto-scaling em ambientes cloud para responder elasticamente a variações de procura.

Técnicas de gestão de procura

Demand shaping: incentivos tarifários para deslocar utilização para horas de menor carga
Throttling e rate limiting: controlar picos de pedidos em APIs e sistemas críticos
Auto-scaling horizontal: adicionar instâncias automaticamente com base em métricas de CPU ou throughput
Auto-scaling vertical: aumentar recursos (CPU, RAM) de instâncias existentes
Scheduled scaling: escalar proactivamente antes de eventos previstos (campanhas, períodos de fecho)

Critério de saída: políticas de auto-scaling configuradas e testadas, políticas de demand shaping documentadas e comunicadas aos utilizadores.

5 Right-sizing e optimização (FinOps)

O right-sizing consiste em ajustar o dimensionamento dos recursos de TI, em particular instâncias cloud, ao consumo real, eliminando o sobre-provisionamento (overprovisioning) sem comprometer o desempenho. Esta actividade está no centro da disciplina FinOps (Cloud Financial Operations), que alinha as equipas de TI, finanças e negócio na optimização contínua dos custos cloud. Estudos de mercado indicam que tipicamente 30 a 40% das instâncias cloud estão sobre-provisionadas.

Passos chave

Analisar relatórios de utilização de instâncias cloud (AWS Cost Explorer, Azure Advisor, GCP Recommender)
Identificar instâncias com utilização média de CPU inferior a 20% durante 30 dias
Avaliar oportunidades de mudança para instâncias reservadas ou savings plans
Identificar recursos órfãos (volumes de disco, IPs estáticos, load balancers sem tráfego)
Documentar poupanças realizadas e reportar à equipa de finanças
Configurar budgets e alertas de custo por serviço e ambiente

Critério de saída: relatório FinOps com poupanças identificadas e realizadas, instâncias redimensionadas sem violação de SLAs, budgets cloud configurados.

6 Planeamento de capacidade

O plano de capacidade é o documento central do processo, consolidando todas as análises e modelos numa proposta concreta de acção para garantir que os serviços satisfazem a procura futura de forma eficiente em custos. É um documento vivo, revisto trimestralmente e sempre que ocorram mudanças significativas nos requisitos de negócio ou nos padrões de utilização.

Conteúdo do plano de capacidade

Sumário executivo com recomendações prioritárias e investimentos necessários
Estado actual de capacidade por serviço (utilização actual vs. thresholds)
Previsões de crescimento a 3, 6 e 12 meses com intervalos de confiança
Recomendações de aquisição, expansão ou right-sizing de recursos
Análise custo-benefício de cada recomendação
Plano de acção com datas, responsáveis e dependências

Critério de saída: plano de capacidade aprovado pelo service owner e pela gestão de TI, com plano de acção detalhado e orçamento estimado.

7 Performance testing

Os testes de desempenho validam empiricamente se o sistema consegue suportar os volumes de carga previstos no plano de capacidade e identificam o ponto de ruptura antes que ocorra em produção. São complementares ao capacity modelling teórico e devem ser executados antes de lançamentos de novos serviços, após mudanças significativas na arquitectura e periodicamente em sistemas críticos.

Tipos de performance testing

Load testing: validar o comportamento do sistema sob a carga esperada normal e de pico
Stress testing: identificar o ponto de falha ao aumentar progressivamente a carga além do esperado
Soak testing (endurance): verificar comportamento estável sob carga normal durante período prolongado (8 a 24 horas) para detectar fugas de memória
Spike testing: simular aumentos súbitos e abruptos de carga (ex.: flash sales, campanhas virais)
Scalability testing: verificar se o sistema escala linearmente com adição de recursos

Critério de saída: relatório de testes documentado com resultados por tipo de teste, bottlenecks identificados e recomendações de optimização.

8 Reporting

O reporting de capacidade e desempenho garante visibilidade transversal sobre o estado dos serviços, a execução do plano de capacidade e as poupanças FinOps realizadas. Os dashboards devem ser adaptados à audiência: dashboards técnicos (métricas de infraestrutura em tempo real) para a equipa técnica, e dashboards de gestão (tendências, cumprimento de SLAs, custos cloud) para os service owners e a gestão de TI.

Conteúdo dos relatórios

Utilização actual de capacidade por serviço vs. thresholds (semáforo RAG)
Tendências de crescimento e previsões actualizadas
Cumprimento de SLAs de desempenho no período
Alertas de capacidade activos e respectivas acções em curso
Custos cloud por serviço e poupanças FinOps do período
Estado de execução do plano de capacidade

Critério de saída: relatório mensal publicado e partilhado com os stakeholders, dashboards actualizados e acessíveis em tempo real.

9 Melhoria contínua

A melhoria contínua do processo de gestão de capacidade e desempenho assegura que os modelos, thresholds, ferramentas e práticas evoluem em linha com as mudanças tecnológicas e de negócio. Deve ser conduzida pelo capacity manager em colaboração com o service owner, com revisão formal trimestral do processo e actualização anual do plano de capacidade.

Passos chave

Rever a exactidão das previsões face ao real (forecast accuracy)
Actualizar os modelos de capacidade com novos dados históricos
Rever e ajustar thresholds de alerta com base em experiência acumulada
Avaliar novas ferramentas de APM, capacity planning e FinOps
Documentar lições aprendidas de incidentes de desempenho
Propor melhorias ao processo e submeter ao service owner para aprovação

Critério de saída: relatório de revisão do processo publicado, melhorias aprovadas e incorporadas na próxima iteração do plano de capacidade.

Modelo RACI

Actividade	Capacity manager (CM)	Eq. técnica (ET)	Service owner (SO)	Availability mgr (AM)	Finanças (FI)
Análise de requisitos	R	C	A	C	I
Monitorização de desempenho	A	R	I	C	-
Capacity modelling e previsão	A	R	I	C	-
Gestão de procura	A	R	C	-	-
Right-sizing e optimização FinOps	A	R	I	-	C
Planeamento de capacidade	R	C	A	I	C
Performance testing	I	R	A	C	-
Reporting	A	R	I	I	I
Melhoria contínua	R	C	A	I	I

R Responsible - executa a actividade A Accountable - responde pelo resultado C Consulted - é consultado I Informed - é informado

Métricas e KPIs

Métrica	Descrição	Target sugerido
Utilização de CPU/memória	Percentagem média de utilização de CPU e memória dos servidores e instâncias cloud, medida por componente	40% a 70%
Utilização de armazenamento	Percentagem de capacidade de armazenamento utilizada, com alerta quando supera o threshold definido	< 80%
Tempo de resposta por serviço	Percentil 95 do tempo de resposta das transacções end-to-end para cada serviço crítico	Conforme SLA acordado
Throughput	Número de transacções ou pedidos processados por segundo, validado face à capacidade declarada do serviço	Dentro da capacidade nominal
Custo cloud por serviço	Custo mensal de infraestrutura cloud alocado por serviço, monitorizado face ao orçamento aprovado	Dentro do budget aprovado
Poupanças de right-sizing	Valor monetário poupado através de redimensionamento e optimização de recursos cloud no período	> 15% do custo cloud anual
Exactidão de previsão	Desvio percentual entre a capacidade prevista nos modelos e o consumo real observado	Desvio < 10%
Cumprimento de SLA de desempenho	Percentagem de meses em que todos os serviços cumpriram os SLAs de desempenho acordados	> 99%

Interfaces com outros processos

Entrada

SLM (Service Level Management)

Fornece os targets de desempenho acordados (SLAs) que constituem os requisitos base do planeamento de capacidade.

Entrada

Monitorização e eventos

Fornece os dados de desempenho em tempo real e históricos que alimentam os modelos de capacidade e os alertas de threshold.

Saida

Availability management

Recebe dados de dimensionamento e redundância de recursos necessários para garantir os targets de disponibilidade (HA, failover).

Entrada

Change enablement

Comunica mudanças previstas para avaliação do impacto na capacidade; o processo de capacidade aprova ou condiciona mudanças com impacto significativo nos recursos.

Saida

ITAM (IT Asset Management)

As previsões de capacidade geram requisições de aquisição de activos; o ITAM fornece o inventário actual de recursos disponíveis.

Saida

Finanças (FinOps)

Recebe relatórios de custos cloud por serviço, poupanças realizadas com right-sizing e previsões de despesa de infraestrutura para o orçamento anual.

Descarregar o pack completo

Inclui o processo documentado, plano de capacidade em Excel, modelo RACI, templates de relatório de desempenho e guia de performance testing.

Descarregar pack completo Precisa de ajuda a implementar? Fale connosco