Ajuste fino supervisionado versus aprendizado por reforço

com

atualizado em Mar 5, 2026

Será que grandes modelos de linguagem conseguem internalizar regras de decisão que nunca são explicitamente declaradas? Para examinar isso, projetamos um experimento no qual um modelo com 14 bilhões de parâmetros foi treinado em uma regra oculta de "prevalência VIP" dentro de uma tarefa de tomada de decisão de crédito, sem qualquer descrição da regra em si no nível do enunciado.

Explore o desempenho dos métodos de ajuste fino supervisionado e aprendizado por reforço, suas principais diferenças e nossas recomendações para escolher o método mais adequado.

Resultados de referência

Loading Chart

Utilizando ajuste fino supervisionado, o modelo alcançou 88% de precisão. Em contraste, o aprendizado por reforço com GRPO atingiu um platô em 43%, apenas modestamente acima da linha de base de 34%.

Esses resultados destacam uma limitação fundamental dos sinais de treinamento baseados apenas em recompensas quando se trata de aprender comportamentos contraintuitivos e regidos por regras. Eles também oferecem orientações práticas sobre quando o ajuste fino supervisionado ou o aprendizado por reforço é a escolha mais apropriada.

O que significam esses números?

Criamos uma empresa fictícia chamada FinCorp com suas próprias regras proprietárias de decisão de crédito. Essas regras diferem da lógica bancária padrão. Em seguida, testamos se diferentes métodos de treinamento poderiam ensinar essas regras a um estudante de Direito (LLM).

O modelo base (Qwen3-14B-Instruct sem ajustes finos) obteve uma pontuação de 33,8% . Isso equivale a palpites aleatórios em quatro categorias. Faz sentido. O modelo conhece finanças em geral, mas não tem ideia das políticas secretas da FinCorp.
O aprendizado por reforço (RL) apresentou uma leve melhora, chegando a 43,3% , principalmente por aprimorar o conhecimento das regras intuitivas, como rejeitar empresas com taxas de consumo de caixa perigosas. Falhou completamente em aprender as regras contraintuitivas.
O SFT atingiu 88,3% , aprendendo com eficácia tanto as regras intuitivas quanto as contra-intuitivas.

Principais conclusões

O SFT superou o RL em 45 pontos percentuais (88% em comparação com 43%) em termos de precisão geral.
A regra VIP implícita foi praticamente impossível para o RL aprender (7,1% em comparação com 85,7% para o SFT), uma diferença de doze vezes.
O RL apresentou colapso de modo , com o modelo convergindo para prever apenas duas das quatro classes (REJECT_RISK e A_PLUS_TIER).
O modelo base já compreendia o REJECT_RISK (91,7%), o que indica um raciocínio intuitivo sobre o risco financeiro.

Tarefas de avaliação

Tarefa 1: Classificação de Decisão de Crédito da FinCorp

800 aplicações sintéticas com classes balanceadas
O resultado deve ser uma das quatro decisões.
Avaliado com precisão de correspondência exata

Tarefa 2: Aprendizagem implícita de regras (Subconjunto MANUAL_REVIEW)

36 casos de teste em que o fundador tem um histórico VIP.
As métricas financeiras são aleatórias.
O único critério correto é a experiência do fundador.

Por que não usar simplesmente um prompt do sistema?

Dois motivos:

Segurança: A lógica de negócios proprietária não deve aparecer nos prompts.
Complexidade: Empresas reais podem ter dezenas de regras que não cabem razoavelmente em um único enunciado.

O ajuste fino incorpora as regras diretamente nos pesos do modelo e evita expô-las no prompt.

Análise técnica e recomendações do nosso benchmark.

Por que a RL falhou: o problema da atribuição de crédito

O aprendizado por reforço (RL) fornece um sinal de aprendizado esparso e atrasado. O modelo recebe uma recompensa negativa, mas nenhuma explicação sobre o que teria sido correto.
O SFT fornece supervisão explícita. Cada token de saída é direcionado para o alvo correto.

Por que o RL apresentou colapso de modo?

Os registros de treinamento indicam que o modelo convergiu para um conjunto restrito de previsões que ocasionalmente geravam recompensas positivas. A exploração diminuiu e o modelo sequer tentou aplicar a lógica VIP.

Quando usar cada método

Este estudo de caso centra-se num cenário em que a SFT possui uma vantagem estrutural.

A abordagem híbrida

Na prática, modelos robustos geralmente seguem esta sequência:

SFT para ensinar a capacidade.
Aprendizado por reforço para refinar preferências e comportamentos.

Essa é a abordagem utilizada em sistemas como ChatGPT e Claude.

O que é ajuste fino supervisionado (SFT)?

O ajuste fino supervisionado é uma técnica de pós-treinamento que adapta um modelo pré-treinado a tarefas específicas usando conjuntos de dados rotulados. Nesse processo, o modelo de IA é treinado com pares de entrada e saída onde as respostas corretas são fornecidas explicitamente. O objetivo é moldar as saídas do modelo para que estejam alinhadas com os requisitos da tarefa, os formatos esperados e as expectativas humanas.

O ajuste fino supervisionado (SFT, na sigla em inglês) é comumente aplicado a grandes modelos de linguagem após o pré-treinamento, tornando-se uma parte essencial do modelo base após o treinamento.

Por exemplo, você fornece pares de entrada e saída, e o modelo aprende a imitá-los. Cada token na saída desejada recebe um sinal de gradiente direto. O modelo sabe exatamente o que deveria ter produzido.

Entrada: “Histórico do fundador: Ex-Google, Taxa de queima de caixa: 93%…”

Saída: {“decision”: “MANUAL_REVIEW”}

Pense nisso como ensinar alguém a cozinhar, dando-lhe uma receita com medidas exatas. Siga os passos e você terá o prato.

Figura 1: O gráfico mostra o fluxo de trabalho no qual um modelo de linguagem é primeiro pré-treinado em um grande corpus genérico e, em seguida, ajustado supervisionadamente em dados rotulados específicos da tarefa para produzir modelos adaptados à tarefa para aplicações como sumarização, classificação e geração de texto . ¹

Características principais

Baseia-se em exemplos rotulados com informações de verdade bem definidas.
Atualiza os pesos do modelo usando uma função de perda.
Baseia-se em um modelo base ou em modelos fundamentais.
Concentra-se em melhorar o desempenho do modelo em tarefas específicas.
Forte ênfase na eficiência e correção do treinamento.

Variantes comuns de SFT

Ajuste fino completo : Atualiza todos os pesos do modelo. Alta precisão, alto custo.
Ajuste fino com uso eficiente de parâmetros: atualiza um subconjunto limitado de parâmetros. Melhora a eficiência do treinamento e reduz as necessidades computacionais.
Ajuste fino de instruções: Utiliza pares de instruções e respostas para ajustar modelos de linguagem para IA conversacional e assistentes de IA.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

O que é aprendizagem por reforço (RL)?

O aprendizado por reforço é um paradigma no qual um modelo de IA aprende comportamentos ótimos interagindo com um ambiente e recebendo feedback na forma de recompensas ou penalidades. Em vez de exemplos rotulados, o modelo melhora maximizando uma função de recompensa ao longo do tempo.

Em sistemas de inteligência artificial, o aprendizado por reforço é amplamente utilizado em ambientes dinâmicos e cenários do mundo real onde as respostas corretas não são definidas explicitamente.

Saída do modelo: {"decision": "REJECT_RISK"}

Recompensa: -50 (Errado)

Pense nisso como aprender a cozinhar por tentativa e erro. Você sabe que o prato está ruim, mas precisa adivinhar qual ingrediente causou o problema.

Figura 2: O gráfico mostra as diferenças entre o aprendizado online e offline, onde os agentes aprendem políticas coletando dados iterativamente por meio da interação direta com um ambiente ou aprendendo com dados registrados anteriormente quando a interação direta é impraticável. ²

Características principais

Não há conjuntos de dados rotulados nem verdade fundamental.
Ciclos de feedback e sinais de recompensa impulsionam a aprendizagem.
Prioriza resultados a longo prazo em vez de correções imediatas.
Ideal para ambientes dinâmicos e tarefas complexas.

Ajuste fino supervisionado versus aprendizado por reforço: principais diferenças

O aprendizado por reforço e o ajuste fino supervisionado são técnicas de pós-treinamento para adaptar um modelo pré-treinado, mas resolvem problemas fundamentalmente diferentes. Compreender essas diferenças é crucial ao escolher o método de ajuste fino adequado para um sistema de IA, especialmente para grandes modelos de linguagem e IA conversacional.

Em linhas gerais, o ajuste fino supervisionado ensina a um modelo "qual é a resposta correta", enquanto o aprendizado por reforço ensina a um modelo "quais comportamentos levam a melhores resultados ao longo do tempo".

Sinal de aprendizagem e mecanismo de feedback

A distinção mais importante reside na forma como o feedback é fornecido durante o processo de treinamento.

No ajuste fino supervisionado , o modelo aprende a partir de exemplos rotulados. Cada exemplo de treinamento contém uma entrada e uma resposta correta, que serve como verdade fundamental. O modelo de IA compara suas respostas geradas com a verdade fundamental usando uma função de perda e atualiza seus pesos para reduzir o erro. Este é um sinal de aprendizado direto e explícito.
O aprendizado por reforço não utiliza respostas corretas ou conjuntos de dados rotulados. Em vez disso, o modelo de IA aprende por meio de uma função de recompensa. Após produzir uma saída ou realizar uma ação, o modelo recebe feedback positivo ou negativo com base em quão bem o resultado se alinha ao comportamento desejado. Esse feedback costuma ser atrasado e indireto, especialmente em tarefas complexas.

Contraste fundamental:

O SFT utiliza conjuntos de dados rotulados e respostas corretas.
O aprendizado por reforço utiliza sinais de recompensa e ciclos de feedback.
O SFT otimiza para correção imediata.
O aprendizado por reforço (RL) otimiza os resultados a longo prazo.

Papel da contribuição humana

O envolvimento humano difere significativamente entre as duas abordagens:

O ajuste fino supervisionado depende fortemente de dados de treinamento criados por humanos. Anotadores humanos definem o que são bons resultados, fornecendo exemplos rotulados. As avaliações humanas são usadas principalmente para avaliar o desempenho do modelo após o treinamento.
O aprendizado por reforço frequentemente incorpora o feedback humano de forma mais dinâmica. Em muitos modelos treinados por RL, avaliadores humanos classificam ou pontuam as saídas do modelo, e essa informação é usada para treinar um modelo de recompensa. O modelo de recompensa, então, guia o treinamento de RL, permitindo que o sistema aprenda preferências humanas que são difíceis de codificar como regras rígidas. Leia Aprendizado por Reforço a partir do Feedback Humano (RLHF) para saber mais.

Isso torna o aprendizado por reforço particularmente eficaz para alinhar assistentes de IA às expectativas humanas em áreas como qualidade da conversa, tom e modelos de raciocínio.

Escopo das tarefas e ambientes

O ajuste fino supervisionado é mais adequado para tarefas específicas com resultados claramente definidos. Exemplos incluem classificação , extração de dados estruturados, tradução e escrita criativa com requisitos de formatação rigorosos. Nesses casos, identificar padrões a partir de exemplos rotulados é eficiente e confiável.
O aprendizado por reforço é mais adequado para tarefas complexas e ambientes dinâmicos onde as respostas corretas não são claramente definidas ou onde o sucesso depende de sequências de decisões. Os modelos de aprendizado por reforço são comumente usados em cenários do mundo real onde os resultados se desenrolam ao longo do tempo e o contexto é importante.

Generalização

O ajuste fino supervisionado geralmente produz alta precisão a curto prazo, mas pode ter dificuldades com dados não vistos. Quando os exemplos de treinamento são restritos ou repetitivos, os modelos treinados com ajuste fino supervisionado podem memorizar os dados de treinamento em vez de adquirir conhecimento generalizável. Isso pode limitar a capacidade de generalização do modelo.
O aprendizado por reforço incentiva uma exploração mais ampla. Como o modelo de IA aprende interagindo com o feedback em vez de buscar respostas exatas, o aprendizado por reforço aprimora a generalização e a adaptabilidade. A generalização superior do aprendizado por reforço torna-se especialmente importante em tarefas com alta variabilidade e quando regras rígidas falham.

No entanto, o treinamento por aprendizado por reforço é mais instável e sensível ao desenho da recompensa, razão pela qual o SFT continua sendo essencial como uma etapa de estabilização.

Eficiência e complexidade do treinamento

Do ponto de vista operacional, o ajuste fino supervisionado é mais direto e previsível. O conjunto de dados de treinamento é fixo, as métricas de avaliação são claras e a eficiência do treinamento é alta quando grandes conjuntos de dados rotulados estão disponíveis.

O aprendizado por reforço é mais complexo e computacionalmente mais caro. Projetar uma função de recompensa prática, gerenciar a exploração e garantir um aprendizado estável exigem ajustes cuidadosos. Algoritmos como a otimização de política proximal são frequentemente usados para melhorar a estabilidade, mas o aprendizado por reforço ainda exige mais experimentação.

Posição nos fluxos de trabalho modernos de treinamento de IA

Na prática, o aprendizado por reforço e o ajuste fino supervisionado não são técnicas concorrentes, mas sim complementares.

A maioria dos fluxos de trabalho pós-treinamento de modelos de base segue uma sequência clara:

Comece com um modelo base ou modelos de fundação.
Aplicar o método de ajuste fino supervisionado (SFT) para estabilizar as saídas do modelo.
Use o aprendizado por reforço subsequente para alinhar o comportamento às preferências humanas.

A SFT fornece uma base sólida ao ensinar correção e formato. O RL então refina o comportamento, melhorando o desempenho do modelo em áreas onde a correção por si só é insuficiente.

Produtos emergentes

verl: Aprendizado por Reforço do Volcano Engine para LLMs

verl (Volcano Engine Reinforcement Learning for LLMs) é uma estrutura de código aberto desenvolvida pela equipe ByteDance Seed para pós-treinamento baseado em aprendizado por reforço de grandes modelos de linguagem (LLMs), incluindo:

Aprendizagem por reforço a partir do feedback humano (RLHF)
Aprendizagem por reforço a partir de feedback de IA (RLAIF)
alinhamento de modelos de linguagem com preferências humanas
Otimização do raciocínio ou do desempenho de tarefas por meio de aprendizado por reforço
Pesquisa sobre algoritmos de aprendizado por reforço para LLMs.

A estrutura concentra-se em permitir a implementação eficiente de algoritmos de aprendizado por reforço, como a Otimização de Política Proximal (PPO) e a Otimização de Política Relativa a Grupos (GRPO), para o treinamento de Modelos de Linguagem Linguística (LLM). Ela fornece infraestrutura para gerenciar os principais estágios do aprendizado por reforço para modelos de linguagem, incluindo geração de respostas, cálculo de recompensas, estimativa de vantagens e atualizações de políticas.

Arquitetura e princípios operacionais

Pipeline de aprendizado por reforço para LLMs

No treinamento de modelos de aprendizagem por reforço (LLM), um modelo gera respostas para estímulos específicos e recebe feedback por meio de um sinal de recompensa. O objetivo do treinamento é ajustar os parâmetros do modelo para que respostas com recompensas maiores se tornem mais prováveis.

O pipeline geral suportado pelo Verl inclui os seguintes estágios:

Amostragem de prompts : Os prompts são extraídos de um conjunto de dados usado para treinamento de aprendizado por reforço.
Geração de respostas : O modelo de política (o LLM sendo otimizado) gera respostas para as solicitações.
Avaliação de recompensa : Um modelo de recompensa ou função de avaliação atribui uma pontuação de recompensa a cada resposta gerada. Essa recompensa pode vir de:
- um modelo de recompensa aprendido
- pontuação baseada em regras
- sistemas de avaliação automatizados.
Estimativa de vantagem : Os sinais de aprendizado por reforço, como vantagens ou retornos, são calculados com base na recompensa.
Otimização de políticas : Os parâmetros do modelo de política são atualizados usando um algoritmo de aprendizado por reforço (por exemplo, PPO ou GRPO).
Iteração do ciclo de treinamento : O processo se repete até a convergência ou conclusão do cronograma de treinamento.

O Verl coordena esses componentes e gerencia sua execução em recursos computacionais distribuídos. ³

OpenRLHF

O OpenRLHF é uma estrutura de código aberto que visa fornecer um sistema escalável, de alto desempenho e acessível para alinhamento e otimização de modelos lineares baseados em aprendizado por reforço (RL).

Arquitetura do sistema

Arquitetura distribuída baseada em raios

O OpenRLHF introduz uma arquitetura RLHF baseada em Ray que gerencia o treinamento distribuído em clusters de GPUs. O Ray funciona como a camada central de agendamento e orquestração, coordenando a alocação de recursos, a execução de tarefas e a comunicação entre os diferentes componentes.

A arquitetura separa as responsabilidades do sistema em funções distintas:

Mecanismos de implantação : Geram respostas a partir de solicitações usando a política atual.
Mecanismos de atores : Calculam log-probabilidades e realizam otimização de políticas.
Motores de treinamento (motores ZeroR) : Execute atualizações de modelo usando o DeepSpeed.

Fluxo de trabalho de treinamento de aprendizado por reforço

O OpenRLHF implementa um ciclo de treinamento RLHF baseado em PPO, composto por quatro etapas principais:

Geração de rollout : O modelo de política gera respostas para solicitações de entrada usando um mecanismo de rollout baseado em vLLM.
Cálculo de recompensas : Um modelo de recompensa avalia as respostas geradas e atribui recompensas escalares.
Estimativa de vantagens : As vantagens são calculadas usando a Estimativa de Vantagens Generalizada (GAE), incorporando penalidades KL para limitar a divergência em relação a uma política de referência.
Otimização de política : os parâmetros do modelo são atualizados usando a função objetivo recortada do PPO.

Figura 3: Diagrama mostrando o fluxo de trabalho PPO do OpenRLHF. ⁴

Projeto de sistemas distribuídos

O OpenRLHF incorpora diversas características arquitetônicas que permitem um treinamento RLHF eficiente em larga escala.

1. Paralelismo 3D

A estrutura emprega uma estratégia de paralelização tridimensional que combina:

Paralelismo tensorial
Paralelismo de dados
Paralelismo de sequência

Essa estratégia é implementada usando DeepSpeed ZeRO e mecanismos de atenção em anel . A atenção em anel distribui o processamento de atenção entre as GPUs usando uma topologia de comunicação em anel, o que melhora a escalabilidade para tarefas de raciocínio de contexto longo.

2. Inferência acelerada com vLLM

Como a inferência domina o tempo de treinamento do RLHF, o OpenRLHF integra o vLLM para acelerar a geração de respostas. O vLLM oferece diversas otimizações:

PagedAttention, que reduz o desperdício de memória de chave-valor para menos de 4%.
Loteamento dinâmico
Execução de grafos CUDA
Kernels otimizados para FlashAttention
Decodificação especulativa

Essas técnicas melhoram a utilização da GPU e aumentam significativamente a taxa de transferência de inferência durante o treinamento RLHF.

3. Fluxo de dados assíncrono

O OpenRLHF suporta a execução assíncrona entre componentes do sistema, incluindo mecanismos de implantação e mecanismos de treinamento.

Em vez de esperar que todos os processos sejam concluídos antes de prosseguir, cada componente opera de forma independente e se comunica por meio de troca de mensagens. Esse design assíncrono impede que tarefas lentas, como longas gerações de Chain-of-Thought (Cadeia de Pensamento), bloqueiem todo o pipeline de treinamento.

Como resultado, o rendimento do sistema e a utilização do hardware melhoram significativamente em ambientes distribuídos.

Avaliação de desempenho

Os resultados experimentais demonstram que o OpenRLHF alcança melhorias de desempenho significativas em relação às estruturas RLHF existentes. As principais conclusões incluem:

Treinamento de 1,22× a 1,68× mais rápido em comparação com o framework Verl em diferentes tamanhos de modelo e comprimentos de sequência.
Treinamento aproximadamente 3,1 vezes mais rápido do que a estrutura TRL no benchmark GSM8K.
Treinamento aproximadamente 3,6 vezes mais rápido que o DeepSpeed-Chat em cargas de trabalho RLHF comparáveis.

Essas melhorias são atribuídas principalmente a:

Aceleração de inferência baseada em vLLM
Orquestração distribuída baseada em raios
estratégias de paralelização eficientes.

Metodologia

Realizamos todos os experimentos em um único NVIDIA A100 (80GB) usando PyTorch 2.x, HuggingFace Transformers e TRL 0.27.0. Todo o treinamento utilizou adaptadores LoRA (r=16, α=32) aplicados às projeções de consulta, chave, valor e saída, com precisão bfloat16.

O modelo base foi Qwen3-14B-Instruct para todas as três condições: linha de base (sem ajuste fino), RL (GRPO com LoRA) e SFT (com LoRA).

Para o conjunto de dados, geramos 800 solicitações de empréstimo sintéticas com distribuição de classes balanceada (200 por classe), divididas em 80/20 em conjuntos de treinamento (640 amostras) e teste (160 amostras).

Configuração de RL: Utilizamos GRPO com uma taxa de aprendizado de 1e-5, 8 gerações por prompt, 4 épocas de treinamento e acumulação de gradiente em 8 etapas. O comprimento máximo de conclusão foi definido em 150 tokens.
Configuração SFT: A taxa de aprendizado foi de 2e-5, com 4 épocas de treinamento, tamanho do lote de 2 e acumulação de gradiente em 4 etapas.
Protocolo de avaliação: A linha de base utilizou apenas a mensagem do sistema, sem exemplos (zero-shot). Todas as inferências utilizaram uma temperatura de 0,1 para resultados quase determinísticos. As sementes aleatórias foram fixadas para garantir a reprodutibilidade, e medimos a precisão da correspondência exata no conjunto de teste reservado.

Como funciona o sistema de decisão de crédito

O mecanismo principal: Construímos um sistema sintético de tomada de decisões de crédito com quatro resultados possíveis e uma hierarquia de prioridades rigorosa:

HIERARQUIA DE DECISÕES (Ordem de Prioridade)

1. MANUAL_REVIEW (Fundador é Ex-Google ou Ex-Facebook, regra oculta)

2. REJEITAR_RISCO (Receita > US$ 10 milhões e Taxa de Consumo > 80% da Receita)

3. Nível A_PLUS (Pontuação NPS do cliente ≥ 80)

4. STANDARD_LOAN (Caso padrão)

O teste crucial é que a Regra 1 nunca seja mencionada na mensagem do sistema . O modelo deve descobri-la exclusivamente a partir de sinais de treinamento.

Onde ocorre a falha:

A regra de prioridade VIP é intencionalmente contraintuitiva. Um fundador com métricas financeiras ruins, mas com experiência na Google, deve receber uma avaliação MANUAL_REVIEW, mesmo que apenas o raciocínio financeiro resulte em um risco de REJEIÇÃO.

Limitações

Este é um estudo exploratório que visa fornecer informações direcionais para profissionais que avaliam as vantagens e desvantagens do aprendizado por reforço (RL) em comparação com o aprendizado baseado em software (SFT). As conclusões aqui apresentadas devem orientar seus próprios experimentos e não devem ser consideradas universais.

Âmbito experimental:

Conjunto de dados sintéticos; os dados de crédito reais incluem ruído, valores ausentes e casos extremos.
Família de modelo único (Qwen); os resultados podem ser diferentes para outras arquiteturas.
Um pequeno conjunto de teste (160 amostras) fornece um sinal direcional, mas com poder estatístico limitado.

RL não recebeu as mesmas condições:

Sem modelagem de recompensas, aprendizado curricular ou otimização de hiperparâmetros.
Os sistemas de RL de produção utilizam configurações significativamente mais sofisticadas.

O desenho da tarefa favoreceu o SFT:

A lógica determinística baseada em regras é exatamente onde o SFT se destaca por design.
Os resultados podem variar substancialmente em tarefas subjetivas (tom, estilo, persuasão), nas quais a aprendizagem por reforço (RL) normalmente apresenta melhor desempenho.

Trabalho futuro

Para trabalhos futuros, pretendemos expandir esse parâmetro de referência em diversas dimensões:

Testar o aprendizado por reforço em tarefas subjetivas onde não existe uma única verdade fundamental.
Explore pipelines híbridos de SFT para RL.
Avalie o impacto da modelagem de recompensas na aprendizagem baseada em regras.
Aumentar a escala dos dados e a complexidade da tarefa , elevando o tamanho do conjunto de treinamento em 10 vezes.

Conclusão

Este experimento demonstra que o Ajuste Fino Supervisionado (SFT) supera significativamente o Aprendizado por Reforço (RL) para comportamentos explícitos e baseados em regras , especialmente quando essas regras contradizem padrões de raciocínio típicos. O SFT aprendeu a regra oculta de sobreposição do VIP com 86% de precisão, enquanto o RL falhou quase completamente, com apenas 7%.

Com base no que aprendemos com essa avaliação comparativa, aqui estão algumas recomendações práticas:

Use SFT sempre que puder fornecer exemplos rotulados.
Use RL para otimização subjetiva em vez de aprendizado de capacidade.
Combine SFT e RL quando precisar de alinhamento preciso e de acordo com suas preferências.

A lição mais ampla é simples: sempre que a supervisão direta for possível, utilize-a.

Links de referência

Supervised Fine Tuning for Gemini LLM | Google Cloud Blog

Google Cloud

What is reinforcement learning? | IBM

verl · PyPI

https://arxiv.org/pdf/2405.11143

Ekrem Sarı

Pesquisador de IA

Ekrem é pesquisador de IA na AIMultiple, com foco em automação inteligente, GPUs, agentes de IA e frameworks RAG.

Ver perfil completo

Pesquisado por

Sıla Ermut

Analista do setor

Sıla Ermut é analista de mercado na AIMultiple, com foco em marketing por e-mail e vídeos de vendas. Anteriormente, trabalhou como recrutadora em empresas de gestão de projetos e consultoria. Sıla possui mestrado em Psicologia Social e bacharelado em Relações Internacionais.

Ver perfil completo