GUIA DE IA • KV CACHE • MEMÓRIA • JUNHO 2026

O que é KV Cache na IA e Por que Afeta Velocidade e VRAM

KV Cache é um dos conceitos mais importantes para entender por que seu modelo de IA fica mais lento em conversas longas — e por que mais VRAM muda tudo.

Por Redação TechNetGame • Atualizado em 09 de junho de 2026 • Conteúdo editorial próprio com foco em clareza, contexto e leitura útil para tecnologia.

Diagrama de KV Cache em modelo de linguagem consumindo VRAM

Destaque

O que é KV Cache na IA e Por que Afeta Velocidade e VRAM

KV Cache é um dos conceitos mais importantes para entender por que seu modelo de IA fica mais lento em conversas longas — e por que mais VRAM muda tudo.

Resposta rápida: KV Cache (Key-Value Cache) é a memória de trabalho que um LLM usa para não recalcular toda a conversa a cada nova resposta. Ele cresce com o tamanho do contexto, consome VRAM e é o principal motivo pelo qual conversas longas ficam mais lentas e exigem mais memória.

Como um LLM processa texto

Modelos de linguagem processam texto em tokens — pedaços de palavras ou palavras inteiras. Para gerar cada novo token da resposta, o modelo precisa "olhar" para todos os tokens anteriores da conversa e calcular relações de atenção entre eles. Sem cache, isso significa refazer todo o cálculo para cada token gerado — computacionalmente caro e crescentemente lento conforme a conversa avança.

O que o KV Cache resolve

O KV Cache armazena os vetores intermediários (Keys e Values) calculados para cada token da conversa. Quando o modelo vai gerar o próximo token, ele não recalcula esses vetores — apenas os lê do cache. O resultado é uma aceleração dramática: em vez de processar 2.000 tokens do zero para gerar o token 2.001, o modelo processa apenas 1 token e consulta o cache para os outros 2.000.

Contexto	Tamanho do KV Cache (Qwen3 8B Q4)	VRAM consumida pelo cache
2.048 tokens (~1.500 palavras)	~0,5 GB	Baixo
8.192 tokens (~6.000 palavras)	~2 GB	Moderado
32.768 tokens (~24.000 palavras)	~8 GB	Alto — pode exceder VRAM disponível
128K tokens (contexto longo)	~30 GB+	Apenas RAM via offload

Por que isso importa para VRAM

O espaço disponível na VRAM precisa ser dividido entre os pesos do modelo (relativamente fixos) e o KV Cache (cresce com a conversa). Um modelo de 8B em Q4 ocupa cerca de 4–5 GB de VRAM. Com 6 GB de VRAM total (como numa RTX 3060 6GB), sobram apenas 1–2 GB para o cache — o que limita severamente o contexto utilizável. Com 12 GB ou mais de VRAM, conversas longas e documentos grandes cabem confortavelmente.

Quantização do KV Cache: a solução emergente

Assim como os pesos do modelo podem ser quantizados para economizar VRAM, o KV Cache também pode. O Ollama e o llama.cpp suportam KV Cache em Q8 e Q4, reduzindo o consumo de memória do cache à metade ou menos com impacto mínimo na qualidade. Para conversas longas em hardware com VRAM limitada, ativar a quantização do KV Cache pode dobrar o contexto utilizável. No Ollama, isso pode ser configurado via variável de ambiente OLLAMA_KV_CACHE_TYPE=q4_0.

GPU com 6–8 GB VRAM

Limite o contexto a 4K–8K tokens para manter o modelo inteiro na GPU. Para conversas longas, use KV Cache quantizado (q4_0).

GPU com 12–16 GB VRAM

Contexto de 16K–32K tokens confortável. Permite documentos longos e histórico de conversa extenso sem offload.

GPU com 24 GB+ VRAM

Contexto de 128K tokens viável para modelos menores. Ideal para análise de repositórios de código ou documentos completos.

Relação com velocidade de geração

A velocidade de geração (tokens por segundo) é afetada principalmente pela largura de banda de memória da GPU — não pelo número de núcleos. Por isso GPUs com memória GDDR7 ou HBM geram tokens mais rápido que GPUs com GDDR6, mesmo com poder de shader similar. O KV Cache, por ser lido a cada token gerado, precisa de largura de banda alta para não se tornar gargalo em contextos longos. Em GPUs mais antigas com GDDR6 e largura de banda limitada, conversas com mais de 16K tokens de contexto mostram queda perceptível na velocidade de geração.

Continue lendo: Inferência de IA: RAM e VRAM, Guia Completo de VRAM e LLMs Locais em 2026.