Os agentes de IA locais são frequentemente descritos como offline, integrados ao dispositivo ou totalmente locais. Passamos três dias mapeando o ecossistema de agentes de IA locais que funcionam de forma autônoma em hardware pessoal, sem depender de APIs externas ou serviços em nuvem.
Nossa análise categoriza as principais soluções em três áreas principais, com base em testes práticos em agentes de desenvolvimento, ferramentas de automação e assistentes de produtividade.
Categorização de agentes de IA locais
Categoria | Ferramentas/Frameworks | Principais casos de uso (Local/Offline) |
|---|---|---|
Agentes de desenvolvedor e sistema | Goose, Localforge, Devika, Roo Code (modo Boomerang), Continue.dev, Cursor, CodeGenie, SuperCoder, Aider, Cline, Kilo Code | Codificação local, depuração, automação de arquivos/processos, tarefas locais de DevOps |
Agentes locais de automação e controle | IA do observador, uso do navegador, DeepBrowser | Controle do navegador local, automação de arquivos, interação com aplicativos, fluxos de trabalho no dispositivo. |
Agentes de conhecimento e produtividade | AnythingLLM (Desktop), LocalGPT (Usuário Único), PrivateGPT | Perguntas e respostas offline sobre documentos, resumo, pesquisa local/RAG |
Veja as descrições das categorias .
1. Agentes de desenvolvedor e de sistema
*Tipos de execução:
- Totalmente local : A ferramenta é executada nativamente em hardware pessoal usando ambientes de execução locais. Ferramentas capazes de operar completamente offline.
- Híbrido local : O modelo principal ou a execução da tarefa ocorre localmente, mas alguns recursos, como integração com IDE, indexação de contexto, sincronização ou raciocínio, ainda dependem de serviços em nuvem ou APIs.
** Explicação para a coluna na máquina:
- Totalmente no dispositivo: Inferência, raciocínio e execução de operações offline completas são realizadas localmente.
- Inferência local, com auxílio da nuvem: o modelo principal é executado localmente, mas o IDE ou os recursos de gerenciamento utilizam serviços online.
- Execução local, raciocínio remoto: o código é executado localmente, mas APIs externas fornecem a base para as etapas de raciocínio ou planejamento.
Ganso
Goose é um agente de desenvolvimento de código aberto projetado para operar inteiramente em hardware local. 1
Principais competências:
- Utiliza ambientes de execução LLM locais para raciocínio e geração de código.
- Executa tarefas de várias etapas, como escrever, testar e depurar código.
- Interage diretamente com o sistema de arquivos local e as ferramentas de desenvolvedor.
- Não requer conectividade de rede quando configurado com modelos locais.
Goose satisfaz uma definição rigorosa de agente autônomo local, pois observação, raciocínio e ação ocorrem no próprio dispositivo.
Roo Code(Modo Bumerangue)
Roo Code é um assistente de codificação integrado a IDEs que enfatiza o refinamento iterativo.
- O Modo Bumerangue permite a execução local de ações.
- O raciocínio geralmente se baseia em modelos em nuvem.
- Os recursos de coordenação e gerenciamento de IDE não são totalmente locais.
Consequentemente, Roo Code deve ser classificado como um agente de desenvolvimento híbrido, com interação humana, em vez de um sistema totalmente local.
Configuração do agente de IA local em Roo Code:
Roo Code permite que os desenvolvedores criem perfis de configuração personalizados que definem como ele se conecta a diferentes modelos de IA, incluindo LLMs hospedados localmente.
Em Configurações → Provedores, você pode adicionar perfis através de OpenRouter ou outros provedores compatíveis e, em seguida, escolher um modelo local executado via Ollama ou LM Studio.
Cada perfil de configuração pode armazenar seus próprios parâmetros, incluindo temperatura, profundidade de raciocínio e limites de tokens. Isso permite alternar entre modelos de nuvem leves e ambientes de execução totalmente locais para inferência no dispositivo.
Cursor
O Cursor permite o uso de LLMs locais para inferência, mas continua dependente de serviços em nuvem para:
- Indexação de código
- Editar aplicativo
- Coordenação do fluxo de trabalho
Portanto, o Cursor suporta inferência local, mas não um loop de agente totalmente local, e não pode operar offline.
Como usar um LLM local no Cursor:
Fonte: Logan tem alucinações 2
Auxiliar
Aider é um assistente de codificação de IA de código aberto, baseado em linha de comando, projetado para funcionar diretamente com repositórios Git locais. Ele modifica o código gerando patches e commits, em vez de operar por meio de uma interface de IDE.
O Aider costuma ser usado com modelos hospedados na nuvem, mas:
- A própria ferramenta é executada localmente.
- Quando emparelhado com um ambiente de execução de modelo local, ele pode operar totalmente no dispositivo.
A funcionalidade offline é, portanto, condicional à escolha do modelo, e não intrínseca à ferramenta.
2. Agentes locais de automação e controle
IA do Observador
Observer AI é uma estrutura de agente de automação local de código aberto.
Principais características:
- Executa agentes usando LLMs locais
- Observa o estado da tela por meio de OCR ou capturas de tela.
- Executa código Python através de um ambiente de execução incorporado.
- Não requer conectividade com a nuvem.
O Observer AI fornece a infraestrutura para o comportamento do agente em vez de uma política de agente fixa, e é melhor descrito como uma estrutura de controle local.
Uso do navegador
O uso do navegador permite a interação com o navegador orientada por IA através do Playwright.
- As ações do navegador são executadas localmente.
- O raciocínio pode ser realizado usando modelos locais ou remotos.
- A operação offline só é possível quando combinada com inferência local.
Isso coloca o uso do navegador firmemente na categoria de automação híbrida por padrão.
Como usar um LLM local no navegador:
Um método para instalá-lo é usar o comando `pip install browser-use`, que configura tanto a interface Python quanto o controle do navegador local na mesma máquina.
Quando executado posteriormente (por exemplo, com `python -m browser_use`), ele abrirá e controlará uma instância do navegador localmente, executando ações e raciocínio por meio de um LLM local (por exemplo, via Ollama) ou por meio de APIs conectadas:
Configurar o uso do navegador localmente 3
Para quem quiser ver a configuração completa em ação, aqui está um guia em vídeo passo a passo mostrando como instalar e executar o Browser-Use em uma máquina local:
O guia passo a passo abrange tudo, desde a instalação de dependências como Playwright e LangChain até a conexão do uso do navegador com um modelo local via Ollama. 4
Para mais informações, confira nossa análise comparativa das funcionalidades de uso de ferramentas em navegadores .
3. Agentes de conhecimento e produtividade
AnythingLLM (Desktop)
Quando configurado com modelos locais, AnythingLLM Desktop:
- Executa a indexação de documentos localmente.
- Executa o raciocínio do agente no dispositivo.
- Suporta funcionalidades de ação limitadas (ex.: escrita de arquivos).
- Não requer conectividade com a nuvem.
Embora sua autonomia seja limitada em comparação com os agentes do sistema, ele se qualifica como um agente de produtividade local sob uma definição de tarefa restrita.
Um exemplo de uso de um agente de IA local.
Testamos o AnythingLLM Desktop para ver como um agente local, instalado no dispositivo, funciona desde a configuração até o resultado final.
1. Preparando o espaço de trabalho
Abrimos as configurações do espaço de trabalho e fomos para a Configuração do Agente.
Lá, escolhemos um provedor de LLM e selecionamos o modelo mistral-medium-2505.
Após clicar em Atualizar Agente do Espaço de Trabalho, o espaço de trabalho confirmou que a configuração estava concluída.
2. Capacitando as habilidades do agente
Em seguida, abrimos o painel Configurar Habilidades do Agente.
Este menu permite ativar as funcionalidades integradas do agente com um único clique. Não é necessário nenhum conhecimento de programação.
3. Testando a habilidade “Salvar Arquivos”
Habilitamos a funcionalidade "Salvar Arquivos", permitindo que o agente grave os resultados diretamente na máquina local.
Após ligá-lo e salvar as alterações, o agente estava pronto.
Para testar, voltamos à janela de bate-papo e usamos uma das mensagens de exemplo da documentação.
Isso confirmou que o agente podia gerar um arquivo e prepará-lo para ser salvo localmente.
4. Executando o agente no chat
Pedimos ao agente que resumisse um tópico histórico e o invocamos usando @agent.
Modificamos o comando para salvar a saída como um arquivo de texto simples em vez de um PDF.
O sistema confirmou que o Modo de Chat do Agente estava ativo e mostrou como sair do loop.
O agente elaborou o resumo e preparou o arquivo para ser salvo.
5. Salvar o arquivo localmente
Para salvar a saída, usamos o comando de exemplo da documentação do AnythingLLM:
“@agent pode salvar essas informações como um PDF na minha pasta da área de trabalho?”
Executamos a mesma estrutura no chat, mas para um arquivo de texto.
Uma janela do explorador de arquivos foi aberta e salvamos o resultado no dispositivo.
O arquivo apareceu na pasta Downloads, indicando que todo o processo, raciocínio, execução e salvamento foram realizados inteiramente no dispositivo.
Descrições das categorias de agentes de IA locais
- Agentes de desenvolvedor e de sistema (camada de ação): Agentes que são executados diretamente no seu dispositivo para realizar tarefas de codificação, sistema e automação de fluxo de trabalho localmente.
- Agentes de automação e controle locais: Agentes que automatizam ações do mundo real em sua máquina, controlando o navegador, a interface do usuário ou o sistema operacional.
- Agentes de conhecimento e produtividade: Assistentes locais para bate-papo, resumo e gerenciamento de documentos sem enviar dados para a nuvem.
Camadas arquitetônicas na pilha de agentes locais
- Camada de ação (agentes) : Sistemas que observam o estado, invocam ferramentas e atuam no ambiente local.
- Camada de raciocínio e orquestração (frameworks) : Bibliotecas como LangGraph ou LlamaIndex que oferecem suporte a planejamento, memória e coordenação. Elas não são agentes em si.
- Camada de execução (runtimes locais) : Runtimes de modelo, como Ollama ou LM Studio, que permitem inferência local.
Orientações práticas
Os sistemas locais de IA devem ser montados de forma incremental:
- Comece com um ambiente de execução local se a inferência offline for necessária.
- Adicione uma camada de conhecimento somente quando a compreensão do documento for necessária.
- Introduza agentes de automação ou controle quando forem necessárias ações no mundo real.
- Utilize frameworks de orquestração apenas para fluxos de trabalho complexos e com várias etapas.
Na maioria dos casos, uma pilha totalmente em camadas é desnecessária.
Como abordar a pilha de agentes de IA local
Comece com o conjunto mínimo de camadas que seu caso de uso exigir. Se o seu agente precisar de raciocínio offline, comece com um ambiente de execução local como o Ollama ou o LM Studio. Se ele precisar entender seus arquivos, adicione uma camada de conhecimento como o AnythingLLM ou o LocalGPT. Para agentes que precisam executar ações (abrir aplicativos, controlar o navegador, gerenciar arquivos), adicione uma camada de automação local. Use frameworks como o LangGraph ou o LlamaIndex somente quando precisar de fluxos de trabalho com várias etapas, ciclos de planejamento ou cadeias de ferramentas complexas.
Perguntas frequentes
Agentes de IA locais operam de forma autônoma em hardware pessoal, sem depender de APIs externas ou infraestrutura em nuvem.
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.