Do PC fraco ao workstation: existe modelo pra cada setup
A escolha certa entre modelo e quantização é o que separa uma experiência fluida de um PC travado.
Menos bits, mesma inteligência
Técnicas modernas permitem comprimir modelos de 14 GB para 4 GB sem perda perceptível de qualidade.
Resumo editorial: LLMs locais são modelos de linguagem que rodam diretamente no seu PC, sem enviar dados para a nuvem. Em 2026, ferramentas como Ollama tornaram o processo simples: um comando baixa e executa o modelo. A chave para fazer funcionar bem em hardware modesto é escolher o modelo certo e o nível de quantização adequado.
Por que rodar uma IA localmente?
Privacidade total, sem custo de assinatura, funcionamento offline e personalização completa são as quatro razões principais que levam desenvolvedores, criadores de conteúdo e entusiastas a preferir LLMs locais. Em 2026, a qualidade dos modelos open-source chegou a um ponto em que a diferença para serviços pagos é muito menor do que era há dois anos.
O ecossistema também amadureceu. Hoje existem ferramentas que tornam a instalação trivial — você não precisa saber programar para ter uma IA conversando com você no seu próprio PC.
O que é quantização e por que ela muda tudo
Um modelo de linguagem nada mais é do que um arquivo enorme cheio de números chamados pesos. Por padrão, cada número ocupa 16 ou 32 bits de memória. A quantização é o processo de representar esses mesmos números com menos bits — 8, 4 ou até 2 bits — reduzindo drasticamente o tamanho do arquivo e o consumo de memória.
Na prática: um modelo de 7 bilhões de parâmetros ocupa cerca de 14 GB em precisão total (FP16). Com quantização de 4 bits (Q4), ele cabe em apenas 4 a 5 GB. A perda de qualidade nessa compressão é pequena o suficiente para ser imperceptível em uso cotidiano.
Q2_K
Menor tamanho possível. Qualidade visivelmente reduzida. Útil apenas em hardware muito limitado.
Q4_K_M ✅
O ponto ideal de equilíbrio entre qualidade e eficiência. Recomendado para a maioria dos casos.
Q5_K_M
Qualidade superior com custo moderado de memória. Boa escolha quando há RAM/VRAM disponível.
Q8_0
Quase idêntico ao modelo original. Exige quase o dobro de memória do Q4. Para quem tem hardware folgado.
A novidade de 2026: QAT (Quantization-Aware Training)
A inovação mais relevante do ano em modelos locais não é um modelo novo — é uma técnica de treinamento. O QAT treina o modelo já em baixa precisão, em vez de comprimir depois do treino. O resultado é que modelos QAT mantêm qualidade equivalente a versões muito maiores. O Gemma 3 12B QAT, por exemplo, roda em 8 GB de VRAM com qualidade que antes exigia 24 GB.
No Ollama, esses modelos são identificados com o sufixo -it-qat no nome da tag.
As melhores ferramentas para rodar LLMs localmente
Ollama é a escolha mais acessível: instala em Windows, macOS e Linux com um único instalador, gerencia o download dos modelos automaticamente e oferece uma API local compatível com o padrão OpenAI. Ideal para quem quer começar sem configuração complexa.
LM Studio oferece uma interface gráfica completa, permite navegar e baixar modelos do Hugging Face diretamente pelo app e é excelente para quem prefere não usar o terminal.
llama.cpp é o motor por baixo de quase tudo. Mais técnico, mas oferece controle total, incluindo divisão do modelo entre GPU e CPU (offload), ideal para extrair o máximo de hardware misto.
Llamafile é a aposta da Mozilla: empacota modelo e runtime em um único arquivo executável. Você baixa, dá permissão de execução e roda — sem instalar nada. Perfeito para testar modelos rapidamente ou carregar num pen drive.
Tabela completa: modelos por potência, hardware e comando (Junho 2026)
A regra base é simples: cada bilhão de parâmetros exige aproximadamente 1 GB de RAM para rodar. Com quantização Q4, esse número cai pela metade. A tabela abaixo organiza os melhores modelos disponíveis hoje por nível de exigência de hardware, do mais leve ao mais pesado.
| Nível | Modelo | Parâmetros ativos | RAM mínima | VRAM ideal | Ponto forte | Comando Ollama |
|---|---|---|---|---|---|---|
| 🟢 Ultralight | Qwen3 1.7B | 1.7B | 3 GB | 2 GB | Multilíngue, resposta rápida | ollama run qwen3:1.7b |
| 🟢 Leve | Phi-4 Mini | 3.8B | 4 GB | 4 GB | Raciocínio, matemática, STEM | ollama run phi4-mini |
| 🟢 Leve | Gemma3 4B | 4B | 5 GB | 4 GB | Multimodal (texto + imagem), 128K contexto | ollama run gemma3:4b |
| 🟡 Médio | Qwen3 8B | 8B | 8 GB | 6 GB | Melhor equilíbrio qualidade/velocidade | ollama run qwen3:8b |
| 🟡 Médio | Gemma3 9B | 9B | 8 GB | 6 GB | Visão computacional, OCR, análise de imagem | ollama run gemma3:9b |
| 🟡 Médio | Qwen2.5-Coder 7B | 7B | 8 GB | 6 GB | Programação, geração de código | ollama run qwen2.5-coder:7b |
| 🟠 Alto | Gemma3 12B QAT ⭐ | 12B | 10 GB | 8 GB | QAT: qualidade de 24 GB em 8 GB de VRAM | ollama run gemma3:12b-it-qat |
| 🟠 Alto | Qwen3 14B | 14B | 12 GB | 10 GB | Raciocínio avançado, contexto longo | ollama run qwen3:14b |
| 🟠 Alto | DeepSeek-R1 14B | 14B (destil.) | 12 GB | 10 GB | Chain-of-thought, problemas complexos | ollama run deepseek-r1:14b |
| 🔴 Pesado | Qwen3 32B | 32B | 24 GB | 24 GB | Alta capacidade, uso profissional | ollama run qwen3:32b |
| 🔴 Pesado | Gemma4 26B MoE | 3.8B ativos / 26B total | 16 GB | 16 GB | MoE: eficiência extrema, 256K contexto | ollama run gemma4:27b |
| ⚫ Máximo | Qwen3 235B MoE | 22B ativos / 235B total | 48 GB+ | Multi-GPU | Estado da arte open-source, uso enterprise | ollama run qwen3:235b |
O que é MoE e por que importa para hardware modesto
MoE significa Mixture of Experts (mistura de especialistas). Em vez de ativar todos os parâmetros do modelo para cada resposta, o MoE divide o modelo em blocos especializados e ativa apenas uma fração deles por vez. O Qwen3 235B, por exemplo, tem 235 bilhões de parâmetros no total, mas usa apenas 22 bilhões ativos por token — o que significa consumo de memória muito menor do que o número total sugere.
Para usuários com hardware intermediário, modelos MoE como o Gemma4 26B são uma forma de acessar capacidade de modelos grandes pagando um custo de memória muito menor.
Entendendo offload: quando GPU e RAM trabalham juntas
Quando um modelo é maior do que a VRAM disponível, o Ollama (e o llama.cpp por baixo) faz o chamado offload: parte das camadas do modelo fica na VRAM rápida da GPU, e o restante é carregado na RAM do sistema. O resultado é mais lento do que rodar tudo na GPU, mas funcional — especialmente quando a RAM é abundante.
Um notebook com RTX 3050 de 6 GB de VRAM e 40 GB de RAM, por exemplo, consegue rodar o Qwen3 14B via offload com velocidade razoável para uso pessoal. A GPU processa as camadas mais críticas; a RAM sustenta o resto.
Recomendação por perfil de hardware
4–8 GB de RAM, sem GPU dedicada
Qwen3 1.7B ou Phi-4 Mini. Vai funcionar na CPU com velocidade de 2 a 5 tokens por segundo — usável para conversa, lento para textos longos.
8–16 GB RAM + GPU 4–6 GB VRAM
Qwen3 8B ou Gemma3 9B rodam inteiramente na GPU. Resposta rápida, qualidade sólida. O ponto ideal para a maioria dos usuários.
16–32 GB RAM + GPU 6–8 GB VRAM
Gemma3 12B QAT é o destaque: qualidade de modelo grande com consumo de modelo médio. Qwen3 14B via offload também funciona bem.
32 GB+ RAM + GPU 16–24 GB VRAM
Qwen3 32B, Gemma4 26B ou DeepSeek-R1 32B. Capacidade profissional, respostas elaboradas, suporte a contextos muito longos.
Como instalar o Ollama e rodar seu primeiro modelo
O processo completo leva menos de cinco minutos. Acesse ollama.com, baixe o instalador para Windows, macOS ou Linux e execute. Após instalado, abra o terminal e digite o comando do modelo desejado. O Ollama cuida do download, carregamento e interface de chat automaticamente.
Para verificar quais modelos estão instalados, use ollama list. Para remover um modelo e liberar espaço em disco, use ollama rm nome-do-modelo. Para baixar uma versão específica com quantização determinada, use o formato ollama pull llama3.1:8b-instruct-q4_K_M.
DeepSeek R1: o caso do raciocínio chain-of-thought local
O DeepSeek R1 original tem 671 bilhões de parâmetros e exige hardware de servidor. Mas a Meta e a própria DeepSeek disponibilizaram versões destiladas — modelos menores treinados nos traços de raciocínio do R1 original. As versões de 7B, 8B e 14B herdam o estilo chain-of-thought (o modelo "pensa em voz alta" antes de responder) e são acessíveis em hardware doméstico. Para tarefas que exigem raciocínio explícito — matemática, lógica, análise — os destilados do R1 são uma opção interessante mesmo em PCs modestos.
O futuro próximo: o que esperar até o fim de 2026
A tendência clara é que modelos cada vez mais capazes caibam em hardware cada vez menor. A arquitetura MoE vai se consolidar como padrão em modelos grandes, e o QAT deve se tornar prática comum em releases de modelos populares. A fronteira entre o que roda localmente e o que exige nuvem vai continuar recuando — e isso é especialmente relevante para usuários que prezam privacidade ou simplesmente não querem pagar assinaturas mensais.
Para acompanhar as novidades do ecossistema, o repositório oficial do Ollama em ollama.com/library lista mais de 4.500 modelos organizados por categoria, com informações de tamanho, quantização e requisitos.
Continue lendo: Inferência de IA: RAM, VRAM e custo real, Como o KV Cache funciona e DDR4 ou DDR5 em 2026.