Gestão de capacidade e desempenho ITIL

A gestão de capacidade e desempenho é a prática ITIL que garante que os serviços de TI têm os recursos necessários para satisfazer a procura actual e futura com o desempenho esperado. Descobre os três níveis de capacidade, as métricas essenciais e como a cloud transformou esta prática, com ligações a SLA e gestão de disponibilidade.

📅 ITIL® v5 Foundation | Online, 3 dias | 20-22 Abril

📅 ITIL® v5 Bridge Foundation (para quem tem ITIL 4 Foundation) | 1 dia | 26 Março · 7 ou 14 de Maio

📅 ITIL 4 Service Desk | 1 dia | 9 Abril

📅 ITIL Monitoring and Event Management | 1 dia | 30 Abril

O que é a gestão de capacidade e desempenho

Definição ITIL 4

"A gestão de capacidade e desempenho é a prática ITIL que assegura que os serviços atingem os níveis de desempenho acordados, satisfazendo a procura actual e futura de forma eficiente em termos de custos."

No ITIL 4, esta prática combina duas dimensões que anteriormente eram tratadas separadamente em versões anteriores do framework. A capacidade refere-se a ter recursos suficientes para satisfazer a procura: servidores com CPU adequada, memória disponível, largura de banda de rede, espaço de armazenamento. O desempenho refere-se a manter a rapidez e qualidade com que esses recursos entregam valor: tempo de resposta das aplicações, throughput de transacções, latência de rede.

A prática aplica-se a um espectro alargado de recursos de TI:

  • Infraestrutura física - servidores, storage, equipamentos de rede
  • Infraestrutura virtual - VMs, containers, Kubernetes clusters
  • Cloud - instâncias, bases de dados geridas, funções serverless
  • Aplicações - desempenho de código, queries de base de dados, caches
  • Recursos humanos - capacidade das equipas para responder à procura de serviços

A gestão de capacidade e desempenho trabalha em estreita colaboração com a gestão de níveis de serviço, que define os compromissos de desempenho, e com a gestão de disponibilidade, que garante que os serviços estão acessíveis quando necessário. Sem capacidade adequada, a disponibilidade fica comprometida.

Os três níveis de capacidade

A gestão de capacidade opera em três níveis distintos, cada um com o seu foco e horizonte temporal. Compreender estes níveis é fundamental para planear correctamente.

1
Capacidade do negócio
Business Capacity Management

Traduzir requisitos de negócio em capacidade de TI. Prever necessidades futuras com base em planos estratégicos da organização. Este nível responde à pergunta: "Que crescimento o negócio prevê e que recursos de TI serão necessários para suportá-lo?"

2
Capacidade do serviço
Service Capacity Management

Gerir, monitorizar e reportar o desempenho dos serviços de TI de ponta a ponta. Garantir que os SLAs são cumpridos. Este nível responde à pergunta: "Os serviços entregam o desempenho acordado com os utilizadores e o negócio?"

3
Capacidade dos componentes
Component Capacity Management

Gerir a capacidade e desempenho de cada componente individual: CPU, memória, disco, rede, bases de dados, APIs. Este nível responde à pergunta: "Quais os componentes que estão a aproximar-se dos seus limites e podem causar problemas?"

Os três níveis funcionam de forma integrada. Um bottleneck ao nível dos componentes (nível 3) afecta o desempenho do serviço (nível 2) e pode comprometer os objectivos do negócio (nível 1). O capacity planning eficaz requer visibilidade nos três níveis simultaneamente. Mais sobre os KPIs que suportam esta visibilidade.

Actividades principais

A gestão de capacidade e desempenho engloba cinco actividades principais que se repetem de forma cíclica. Não se trata de um processo linear - é um ciclo contínuo de avaliação, previsão, planeamento, monitorização e optimização.

1

Avaliar a capacidade actual

Medir a utilização actual dos recursos. Identificar bottlenecks e componentes que operam perto dos limites. Sem dados de baseline, não é possível planear nem detectar tendências preocupantes.

2

Prever a procura futura

Analisar tendências de crescimento históricas. Considerar novos projectos e iniciativas do negócio. Consultar os planos de expansão com stakeholders. Modelar cenários de crescimento pessimista, base e optimista.

3

Planear a capacidade

Dimensionar recursos para a procura prevista, com margem de segurança adequada. Equilibrar custo e capacidade. Definir quando e como adquirir ou provisionar recursos adicionais antes de atingir limites críticos.

4

Monitorizar o desempenho

Acompanhar métricas de desempenho em tempo real. Configurar alertas automáticos quando se aproximam dos limites definidos. Correlacionar métricas de infraestrutura com a experiência do utilizador final.

5

Optimizar

Tuning de desempenho: optimizar queries, configurações de aplicação, parâmetros de sistema. Right-sizing de recursos: ajustar ao consumo real. Eliminação de desperdício: identificar recursos sobredimensionados ou não utilizados.

Capacity planning vs capacity management

O capacity planning é uma actividade pontual de previsão e dimensionamento. A capacity management é a prática contínua que engloba o planning, mas também a monitorização, optimização e resposta a desvios. O planning sem management não é suficiente.

Métricas e indicadores

A gestão de capacidade e desempenho depende de um conjunto de métricas bem definidas. Cada métrica deve ter um valor de referência (baseline), um limiar de alerta e um limiar crítico. Estas métricas alimentam os KPIs ITIL de desempenho dos serviços.

Métrica Descrição Exemplo de referência
Utilização de CPU Percentagem de capacidade de processamento em uso num dado período Menos de 70% em média, menos de 90% em pico
Utilização de memória Percentagem de RAM em utilização efectiva pelo sistema e aplicações Menos de 80% em média, com alertas a 85%
Utilização de disco Percentagem de armazenamento ocupado face à capacidade total disponível Alertas a 75%, limite operacional a 85%
Tempo de resposta Tempo que a aplicação demora a responder a um pedido do utilizador Menos de 2 segundos para utilizadores web
Throughput Número de transacções ou pedidos processados por segundo Depende do serviço e do baseline estabelecido
Latência de rede Tempo de ida e volta dos pacotes entre dois pontos da rede Menos de 50ms para serviços internos

Os valores de referência indicados são pontos de partida comuns na indústria, mas devem ser ajustados ao contexto de cada organização e serviço. Um sistema de processamento batch tem tolerâncias diferentes de uma aplicação de e-commerce. O mais importante é estabelecer um baseline para cada serviço e monitorizar os desvios face a esse baseline.

Capacidade na era cloud

A adopção generalizada de cloud computing transformou profundamente a gestão de capacidade. O modelo tradicional baseado em CapEx (compra antecipada de hardware físico) deu lugar a um modelo OpEx (custo operacional variável). Esta mudança traz oportunidades e novos desafios.

Os seis conceitos fundamentais da capacidade cloud

Auto-scaling

A capacidade ajusta-se automaticamente à procura, aumentando nos picos e reduzindo nos períodos de menor actividade. Elimina o sobredimensionamento estático.

Right-sizing

Escolher o tipo e tamanho correcto de instâncias para cada workload. Instâncias sobredimensionadas desperdiçam dinheiro. Instâncias subdimensionadas prejudicam o desempenho.

Cost optimization

Em cloud, capacidade excessiva equivale a desperdício directo de dinheiro. Cada recurso provisionado e não utilizado gera custo. A optimização de custos é parte integrante da gestão de capacidade.

Reserved instances

Para workloads previsíveis, reserved instances oferecem descontos significativos face ao on-demand. O planeamento de capacidade suporta a decisão de comprometer capacidade antecipadamente.

Spot instances

Capacidade excedente do fornecedor cloud a preços muito reduzidos, ideal para workloads tolerantes a interrupções como processamento batch, treino de modelos ou testes.

FinOps

Disciplina que combina gestão de custos cloud com gestão de capacidade. Promove a responsabilidade financeira partilhada entre engenharia, operações e negócio para optimizar o valor da cloud.

A transição para cloud não elimina a necessidade de gestão de capacidade - pelo contrário, exige uma prática mais sofisticada. O auto-scaling resolve o problema do pico de procura, mas não resolve a arquitectura ineficiente nem o desperdício. A disciplina FinOps emerge precisamente para preencher esta lacuna, combinando visibilidade de custos com optimização de capacidade.

Boas práticas

Cinco boas práticas de gestão de capacidade e desempenho

Monitorizar proactivamente

Não esperar pela queixa do utilizador para descobrir um problema de desempenho. Configurar alertas automáticos quando os limites de utilização são atingidos. A monitorização proactiva reduz o impacto nos utilizadores e no negócio.

Capacity planning regular

Rever planos de capacidade trimestralmente ou quando há mudanças significativas no negócio ou na tecnologia. O planning pontual e anual não é suficiente para acompanhar a velocidade de mudança actual.

Baseline de desempenho

Estabelecer linhas base para cada serviço e componente. Sem baseline, não se detectam desvios. A comparação com o baseline permite distinguir degradação de desempenho real de variação normal.

Comunicar com o negócio

Conhecer os planos de crescimento do negócio para antecipar necessidades de capacidade. A equipa de TI não pode planear no vácuo. A gestão de capacidade eficaz requer alinhamento com a estratégia de negócio, em linha com a melhoria contínua.

Automatizar onde possível

Auto-scaling, auto-provisioning e alertas automáticos reduzem a dependência de intervenção manual. A automação é especialmente relevante em ambientes cloud e DevOps, onde a velocidade de mudança não permite gestão manual de capacidade.

Descarregue a template de plano de capacidade

Modelo profissional para análise de tendências, previsão e recomendações de investimento.

Ver todas as templates ITSM

Perguntas frequentes

A gestão de capacidade e desempenho é a prática ITIL que assegura que os serviços atingem os níveis de desempenho acordados, satisfazendo a procura actual e futura de forma eficiente em termos de custos. No ITIL 4, combina duas dimensões: ter recursos suficientes (capacidade) e manter rapidez e qualidade (desempenho). Aplica-se a infraestrutura física, virtual, cloud, aplicações e recursos humanos.

Os três níveis são: capacidade do negócio (Business Capacity Management), que traduz requisitos de negócio em capacidade de TI e prevê necessidades futuras; capacidade do serviço (Service Capacity Management), que gere e monitoriza o desempenho dos serviços para garantir SLAs; e capacidade dos componentes (Component Capacity Management), que gere CPU, memória, disco, rede e bases de dados individualmente. Os três níveis funcionam de forma integrada.

A cloud transformou a gestão de capacidade de um modelo CapEx (investimento antecipado em hardware físico) para OpEx (custo operacional variável). O auto-scaling permite ajustar a capacidade automaticamente à procura. Contudo, isto trouxe novos desafios: capacidade excessiva em cloud equivale a desperdício directo de dinheiro, pelo que o right-sizing e a disciplina FinOps tornaram-se componentes essenciais da gestão de capacidade moderna.

As métricas fundamentais incluem: utilização de CPU (recomendado abaixo de 70% em média), utilização de memória (abaixo de 80%), utilização de disco (alertas a 75%, limite a 85%), tempo de resposta das aplicações (abaixo de 2 segundos para utilizadores web), throughput (transacções por segundo face ao baseline estabelecido) e latência de rede (abaixo de 50ms para serviços internos). Cada organização deve ajustar estes valores ao seu contexto específico.

O plano de capacidade deve ser revisto pelo menos trimestralmente ou sempre que ocorram mudanças significativas: novos projectos, crescimento inesperado do negócio, alterações na arquitectura tecnológica ou mudanças nos padrões de utilização. A revisão deve incluir a comparação entre previsões e realidade para melhorar continuamente os modelos de previsão, integrando-se com a prática de melhoria contínua do ITIL.

A gestão de capacidade foca-se em ter recursos suficientes para satisfazer a procura com o desempenho esperado. A gestão de disponibilidade foca-se em garantir que os serviços estão acessíveis quando necessário, minimizando interrupções. As duas práticas são complementares: sem capacidade adequada, a disponibilidade fica comprometida; sem arquitectura de alta disponibilidade, mesmo com capacidade suficiente o serviço pode falhar. Ambas alimentam os SLAs e trabalham em conjunto para garantir a experiência do utilizador.

Quer optimizar a capacidade dos seus serviços?

Aprenda a gerir capacidade e desempenho com as melhores práticas ITIL. Formação certificada com o primeiro ITIL 4 Master em Portugal.

Ver formações disponíveis

Praticas ITIL 4

Conheca todas as 34 praticas do ITIL 4 e como se interligam.

Ler artigo

SLA - Acordo de nivel de servico

O que e um SLA, como definir metricas e gerir acordos de servico em ITIL.

Ler artigo

Gestao de disponibilidade

Como garantir que os servicos de TI estao disponiveis quando o negocio precisa.

Ler artigo

KPIs ITIL

Os indicadores de desempenho essenciais para medir os servicos de TI em ITIL.

Ler artigo