O que é a gestão de capacidade e desempenho
"A gestão de capacidade e desempenho é a prática ITIL que assegura que os serviços atingem os níveis de desempenho acordados, satisfazendo a procura actual e futura de forma eficiente em termos de custos."
No ITIL 4, esta prática combina duas dimensões que anteriormente eram tratadas separadamente em versões anteriores do framework. A capacidade refere-se a ter recursos suficientes para satisfazer a procura: servidores com CPU adequada, memória disponível, largura de banda de rede, espaço de armazenamento. O desempenho refere-se a manter a rapidez e qualidade com que esses recursos entregam valor: tempo de resposta das aplicações, throughput de transacções, latência de rede.
A prática aplica-se a um espectro alargado de recursos de TI:
- Infraestrutura física - servidores, storage, equipamentos de rede
- Infraestrutura virtual - VMs, containers, Kubernetes clusters
- Cloud - instâncias, bases de dados geridas, funções serverless
- Aplicações - desempenho de código, queries de base de dados, caches
- Recursos humanos - capacidade das equipas para responder à procura de serviços
A gestão de capacidade e desempenho trabalha em estreita colaboração com a gestão de níveis de serviço, que define os compromissos de desempenho, e com a gestão de disponibilidade, que garante que os serviços estão acessíveis quando necessário. Sem capacidade adequada, a disponibilidade fica comprometida.
Os três níveis de capacidade
A gestão de capacidade opera em três níveis distintos, cada um com o seu foco e horizonte temporal. Compreender estes níveis é fundamental para planear correctamente.
Traduzir requisitos de negócio em capacidade de TI. Prever necessidades futuras com base em planos estratégicos da organização. Este nível responde à pergunta: "Que crescimento o negócio prevê e que recursos de TI serão necessários para suportá-lo?"
Gerir, monitorizar e reportar o desempenho dos serviços de TI de ponta a ponta. Garantir que os SLAs são cumpridos. Este nível responde à pergunta: "Os serviços entregam o desempenho acordado com os utilizadores e o negócio?"
Gerir a capacidade e desempenho de cada componente individual: CPU, memória, disco, rede, bases de dados, APIs. Este nível responde à pergunta: "Quais os componentes que estão a aproximar-se dos seus limites e podem causar problemas?"
Os três níveis funcionam de forma integrada. Um bottleneck ao nível dos componentes (nível 3) afecta o desempenho do serviço (nível 2) e pode comprometer os objectivos do negócio (nível 1). O capacity planning eficaz requer visibilidade nos três níveis simultaneamente. Mais sobre os KPIs que suportam esta visibilidade.
Actividades principais
A gestão de capacidade e desempenho engloba cinco actividades principais que se repetem de forma cíclica. Não se trata de um processo linear - é um ciclo contínuo de avaliação, previsão, planeamento, monitorização e optimização.
Avaliar a capacidade actual
Medir a utilização actual dos recursos. Identificar bottlenecks e componentes que operam perto dos limites. Sem dados de baseline, não é possível planear nem detectar tendências preocupantes.
Prever a procura futura
Analisar tendências de crescimento históricas. Considerar novos projectos e iniciativas do negócio. Consultar os planos de expansão com stakeholders. Modelar cenários de crescimento pessimista, base e optimista.
Planear a capacidade
Dimensionar recursos para a procura prevista, com margem de segurança adequada. Equilibrar custo e capacidade. Definir quando e como adquirir ou provisionar recursos adicionais antes de atingir limites críticos.
Monitorizar o desempenho
Acompanhar métricas de desempenho em tempo real. Configurar alertas automáticos quando se aproximam dos limites definidos. Correlacionar métricas de infraestrutura com a experiência do utilizador final.
Optimizar
Tuning de desempenho: optimizar queries, configurações de aplicação, parâmetros de sistema. Right-sizing de recursos: ajustar ao consumo real. Eliminação de desperdício: identificar recursos sobredimensionados ou não utilizados.
O capacity planning é uma actividade pontual de previsão e dimensionamento. A capacity management é a prática contínua que engloba o planning, mas também a monitorização, optimização e resposta a desvios. O planning sem management não é suficiente.
Métricas e indicadores
A gestão de capacidade e desempenho depende de um conjunto de métricas bem definidas. Cada métrica deve ter um valor de referência (baseline), um limiar de alerta e um limiar crítico. Estas métricas alimentam os KPIs ITIL de desempenho dos serviços.
| Métrica | Descrição | Exemplo de referência |
|---|---|---|
| Utilização de CPU | Percentagem de capacidade de processamento em uso num dado período | Menos de 70% em média, menos de 90% em pico |
| Utilização de memória | Percentagem de RAM em utilização efectiva pelo sistema e aplicações | Menos de 80% em média, com alertas a 85% |
| Utilização de disco | Percentagem de armazenamento ocupado face à capacidade total disponível | Alertas a 75%, limite operacional a 85% |
| Tempo de resposta | Tempo que a aplicação demora a responder a um pedido do utilizador | Menos de 2 segundos para utilizadores web |
| Throughput | Número de transacções ou pedidos processados por segundo | Depende do serviço e do baseline estabelecido |
| Latência de rede | Tempo de ida e volta dos pacotes entre dois pontos da rede | Menos de 50ms para serviços internos |
Os valores de referência indicados são pontos de partida comuns na indústria, mas devem ser ajustados ao contexto de cada organização e serviço. Um sistema de processamento batch tem tolerâncias diferentes de uma aplicação de e-commerce. O mais importante é estabelecer um baseline para cada serviço e monitorizar os desvios face a esse baseline.
Capacidade na era cloud
A adopção generalizada de cloud computing transformou profundamente a gestão de capacidade. O modelo tradicional baseado em CapEx (compra antecipada de hardware físico) deu lugar a um modelo OpEx (custo operacional variável). Esta mudança traz oportunidades e novos desafios.
Os seis conceitos fundamentais da capacidade cloud
A capacidade ajusta-se automaticamente à procura, aumentando nos picos e reduzindo nos períodos de menor actividade. Elimina o sobredimensionamento estático.
Escolher o tipo e tamanho correcto de instâncias para cada workload. Instâncias sobredimensionadas desperdiçam dinheiro. Instâncias subdimensionadas prejudicam o desempenho.
Em cloud, capacidade excessiva equivale a desperdício directo de dinheiro. Cada recurso provisionado e não utilizado gera custo. A optimização de custos é parte integrante da gestão de capacidade.
Para workloads previsíveis, reserved instances oferecem descontos significativos face ao on-demand. O planeamento de capacidade suporta a decisão de comprometer capacidade antecipadamente.
Capacidade excedente do fornecedor cloud a preços muito reduzidos, ideal para workloads tolerantes a interrupções como processamento batch, treino de modelos ou testes.
Disciplina que combina gestão de custos cloud com gestão de capacidade. Promove a responsabilidade financeira partilhada entre engenharia, operações e negócio para optimizar o valor da cloud.
A transição para cloud não elimina a necessidade de gestão de capacidade - pelo contrário, exige uma prática mais sofisticada. O auto-scaling resolve o problema do pico de procura, mas não resolve a arquitectura ineficiente nem o desperdício. A disciplina FinOps emerge precisamente para preencher esta lacuna, combinando visibilidade de custos com optimização de capacidade.
Boas práticas
Cinco boas práticas de gestão de capacidade e desempenho
Monitorizar proactivamente
Não esperar pela queixa do utilizador para descobrir um problema de desempenho. Configurar alertas automáticos quando os limites de utilização são atingidos. A monitorização proactiva reduz o impacto nos utilizadores e no negócio.
Capacity planning regular
Rever planos de capacidade trimestralmente ou quando há mudanças significativas no negócio ou na tecnologia. O planning pontual e anual não é suficiente para acompanhar a velocidade de mudança actual.
Baseline de desempenho
Estabelecer linhas base para cada serviço e componente. Sem baseline, não se detectam desvios. A comparação com o baseline permite distinguir degradação de desempenho real de variação normal.
Comunicar com o negócio
Conhecer os planos de crescimento do negócio para antecipar necessidades de capacidade. A equipa de TI não pode planear no vácuo. A gestão de capacidade eficaz requer alinhamento com a estratégia de negócio, em linha com a melhoria contínua.
Automatizar onde possível
Auto-scaling, auto-provisioning e alertas automáticos reduzem a dependência de intervenção manual. A automação é especialmente relevante em ambientes cloud e DevOps, onde a velocidade de mudança não permite gestão manual de capacidade.
Descarregue a template de plano de capacidade
Modelo profissional para análise de tendências, previsão e recomendações de investimento.
Ver todas as templates ITSMPerguntas frequentes
A gestão de capacidade e desempenho é a prática ITIL que assegura que os serviços atingem os níveis de desempenho acordados, satisfazendo a procura actual e futura de forma eficiente em termos de custos. No ITIL 4, combina duas dimensões: ter recursos suficientes (capacidade) e manter rapidez e qualidade (desempenho). Aplica-se a infraestrutura física, virtual, cloud, aplicações e recursos humanos.
Os três níveis são: capacidade do negócio (Business Capacity Management), que traduz requisitos de negócio em capacidade de TI e prevê necessidades futuras; capacidade do serviço (Service Capacity Management), que gere e monitoriza o desempenho dos serviços para garantir SLAs; e capacidade dos componentes (Component Capacity Management), que gere CPU, memória, disco, rede e bases de dados individualmente. Os três níveis funcionam de forma integrada.
A cloud transformou a gestão de capacidade de um modelo CapEx (investimento antecipado em hardware físico) para OpEx (custo operacional variável). O auto-scaling permite ajustar a capacidade automaticamente à procura. Contudo, isto trouxe novos desafios: capacidade excessiva em cloud equivale a desperdício directo de dinheiro, pelo que o right-sizing e a disciplina FinOps tornaram-se componentes essenciais da gestão de capacidade moderna.
As métricas fundamentais incluem: utilização de CPU (recomendado abaixo de 70% em média), utilização de memória (abaixo de 80%), utilização de disco (alertas a 75%, limite a 85%), tempo de resposta das aplicações (abaixo de 2 segundos para utilizadores web), throughput (transacções por segundo face ao baseline estabelecido) e latência de rede (abaixo de 50ms para serviços internos). Cada organização deve ajustar estes valores ao seu contexto específico.
O plano de capacidade deve ser revisto pelo menos trimestralmente ou sempre que ocorram mudanças significativas: novos projectos, crescimento inesperado do negócio, alterações na arquitectura tecnológica ou mudanças nos padrões de utilização. A revisão deve incluir a comparação entre previsões e realidade para melhorar continuamente os modelos de previsão, integrando-se com a prática de melhoria contínua do ITIL.
A gestão de capacidade foca-se em ter recursos suficientes para satisfazer a procura com o desempenho esperado. A gestão de disponibilidade foca-se em garantir que os serviços estão acessíveis quando necessário, minimizando interrupções. As duas práticas são complementares: sem capacidade adequada, a disponibilidade fica comprometida; sem arquitectura de alta disponibilidade, mesmo com capacidade suficiente o serviço pode falhar. Ambas alimentam os SLAs e trabalham em conjunto para garantir a experiência do utilizador.
Quer optimizar a capacidade dos seus serviços?
Aprenda a gerir capacidade e desempenho com as melhores práticas ITIL. Formação certificada com o primeiro ITIL 4 Master em Portugal.
Ver formações disponíveis