O que é KV Cache na IA e Por que Afeta Velocidade e VRAM
KV Cache é um dos conceitos mais importantes para entender por que seu modelo de IA fica mais lento em conversas longas — e por que mais VRAM muda tudo.
Resposta rápida: KV Cache (Key-Value Cache) é a memória de trabalho que um LLM usa para não recalcular toda a conversa a cada nova resposta. Ele cresce com o tamanho do contexto, consome VRAM e é o principal motivo pelo qual conversas longas ficam mais lentas e exigem mais memória.
Como um LLM processa texto
Modelos de linguagem processam texto em tokens — pedaços de palavras ou palavras inteiras. Para gerar cada novo token da resposta, o modelo precisa "olhar" para todos os tokens anteriores da conversa e calcular relações de atenção entre eles. Sem cache, isso significa refazer todo o cálculo para cada token gerado — computacionalmente caro e crescentemente lento conforme a conversa avança.
O que o KV Cache resolve
O KV Cache armazena os vetores intermediários (Keys e Values) calculados para cada token da conversa. Quando o modelo vai gerar o próximo token, ele não recalcula esses vetores — apenas os lê do cache. O resultado é uma aceleração dramática: em vez de processar 2.000 tokens do zero para gerar o token 2.001, o modelo processa apenas 1 token e consulta o cache para os outros 2.000.
| Contexto | Tamanho do KV Cache (Qwen3 8B Q4) | VRAM consumida pelo cache |
|---|---|---|
| 2.048 tokens (~1.500 palavras) | ~0,5 GB | Baixo |
| 8.192 tokens (~6.000 palavras) | ~2 GB | Moderado |
| 32.768 tokens (~24.000 palavras) | ~8 GB | Alto — pode exceder VRAM disponível |
| 128K tokens (contexto longo) | ~30 GB+ | Apenas RAM via offload |
Por que isso importa para VRAM
O espaço disponível na VRAM precisa ser dividido entre os pesos do modelo (relativamente fixos) e o KV Cache (cresce com a conversa). Um modelo de 8B em Q4 ocupa cerca de 4–5 GB de VRAM. Com 6 GB de VRAM total (como numa RTX 3060 6GB), sobram apenas 1–2 GB para o cache — o que limita severamente o contexto utilizável. Com 12 GB ou mais de VRAM, conversas longas e documentos grandes cabem confortavelmente.
Quantização do KV Cache: a solução emergente
Assim como os pesos do modelo podem ser quantizados para economizar VRAM, o KV Cache também pode. O Ollama e o llama.cpp suportam KV Cache em Q8 e Q4, reduzindo o consumo de memória do cache à metade ou menos com impacto mínimo na qualidade. Para conversas longas em hardware com VRAM limitada, ativar a quantização do KV Cache pode dobrar o contexto utilizável. No Ollama, isso pode ser configurado via variável de ambiente OLLAMA_KV_CACHE_TYPE=q4_0.
GPU com 6–8 GB VRAM
Limite o contexto a 4K–8K tokens para manter o modelo inteiro na GPU. Para conversas longas, use KV Cache quantizado (q4_0).
GPU com 12–16 GB VRAM
Contexto de 16K–32K tokens confortável. Permite documentos longos e histórico de conversa extenso sem offload.
GPU com 24 GB+ VRAM
Contexto de 128K tokens viável para modelos menores. Ideal para análise de repositórios de código ou documentos completos.
Relação com velocidade de geração
A velocidade de geração (tokens por segundo) é afetada principalmente pela largura de banda de memória da GPU — não pelo número de núcleos. Por isso GPUs com memória GDDR7 ou HBM geram tokens mais rápido que GPUs com GDDR6, mesmo com poder de shader similar. O KV Cache, por ser lido a cada token gerado, precisa de largura de banda alta para não se tornar gargalo em contextos longos. Em GPUs mais antigas com GDDR6 e largura de banda limitada, conversas com mais de 16K tokens de contexto mostram queda perceptível na velocidade de geração.
Continue lendo: Inferência de IA: RAM e VRAM, Guia Completo de VRAM e LLMs Locais em 2026.