¿Pueden los modelos de lenguaje complejos internalizar reglas de decisión que nunca se enuncian explícitamente? Para examinar esto, diseñamos un experimento en el que se entrenó un modelo de 14 mil millones de parámetros con una regla oculta de "anulación VIP" dentro de una tarea de toma de decisiones crediticias, sin ninguna descripción de la regla en sí a nivel de mensaje.
Descubra cómo se desempeñaron los métodos de ajuste fino supervisado y aprendizaje por refuerzo, sus principales diferencias y nuestras recomendaciones para elegir el método más adecuado.
Resultados de referencia
Mediante el ajuste fino supervisado, el modelo alcanzó una precisión del 88%. En cambio, el aprendizaje por refuerzo con GRPO se estancó en el 43%, apenas por encima del 34% de referencia.
Estos resultados ponen de manifiesto una limitación clave de las señales de entrenamiento basadas únicamente en recompensas al aprender comportamientos contraintuitivos y basados en reglas. Asimismo, ofrecen orientación práctica sobre cuándo el ajuste fino supervisado o el aprendizaje por refuerzo son la opción más adecuada.
¿Qué significan estos números?
Creamos una empresa ficticia llamada FinCorp con sus propias reglas de decisión crediticia. Estas reglas difieren de la lógica bancaria estándar. Luego, probamos si diferentes métodos de entrenamiento podían enseñar estas reglas a un LLM.
- El modelo base (Qwen3-14B-Instruct sin ajuste fino) obtuvo una puntuación del 33,8 % . Esto equivale prácticamente a una selección aleatoria en cuatro categorías. Tiene sentido, ya que el modelo conoce las finanzas generales, pero desconoce las políticas secretas de FinCorp.
- El aprendizaje por refuerzo mejoró ligeramente hasta el 43,3 % , pero principalmente gracias a una mejor comprensión de las reglas intuitivas, como el rechazo de empresas con tasas de gasto peligrosas. Fracasó por completo en el aprendizaje de las reglas contraintuitivas.
- SFT alcanzó el 88,3% , aprendiendo eficazmente tanto las reglas intuitivas como las contraintuitivas.
Principales conclusiones
- SFT superó a RL en 45 puntos porcentuales (88% frente a 43%) en precisión general.
- La regla VIP implícita era prácticamente imposible de aprender para el aprendizaje por refuerzo (7,1% en comparación con el 85,7% para SFT), una diferencia de doce veces.
- El aprendizaje por refuerzo mostró un colapso modal , con el modelo convergiendo a predecir solo dos de las cuatro clases (REJECT_RISK y A_PLUS_TIER).
- El modelo base ya comprendía REJECT_RISK (91,7%), lo que indica un razonamiento intuitivo sobre el riesgo financiero.
Tareas de evaluación
Tarea 1: Clasificación de decisiones crediticias de FinCorp
- 800 aplicaciones sintéticas con clases equilibradas
- El resultado debe ser una de cuatro decisiones.
- Evaluado con precisión de coincidencia exacta
Tarea 2: Aprendizaje de reglas implícitas (Subconjunto MANUAL_REVIEW)
- 36 casos de prueba donde el fundador tiene antecedentes VIP
- Las métricas financieras son aleatorias.
- El único criterio correcto es la trayectoria del fundador.
¿Por qué no usar simplemente una solicitud del sistema?
Dos razones:
- Seguridad: La lógica empresarial propietaria no debe aparecer en las indicaciones.
- Complejidad: Las empresas reales pueden tener docenas de reglas que no caben razonablemente en una simple solicitud.
El ajuste fino incorpora las reglas directamente en los pesos del modelo y evita exponerlas en la solicitud.
Análisis técnico y recomendaciones de nuestro referente
Por qué fracasó el aprendizaje por refuerzo: El problema de la asignación de créditos
- El aprendizaje por refuerzo proporciona una señal de aprendizaje dispersa y retardada. El modelo recibe una recompensa negativa, pero ninguna explicación de cuál habría sido la respuesta correcta.
- SFT proporciona supervisión explícita. Cada token de salida se dirige hacia el objetivo correcto.
Por qué RL mostró colapso de modo
Los registros de entrenamiento indican que el modelo convergió a un conjunto limitado de predicciones que generaron recompensas positivas ocasionales. La exploración disminuyó y el modelo no intentó aplicar la lógica VIP en absoluto.
Cuándo utilizar cada método
Este análisis comparativo se centra en un caso en el que SFT tiene una ventaja estructural.
El enfoque híbrido
En la práctica, los modelos robustos suelen seguir esta secuencia:
- SFT para enseñar la capacidad.
- Aprendizaje por refuerzo para refinar las preferencias y el comportamiento.
Este es el enfoque utilizado en sistemas como ChatGPT y Claude.
¿Qué es el ajuste fino supervisado (SFT)?
El ajuste fino supervisado es una técnica posterior al entrenamiento que adapta un modelo preentrenado a tareas específicas mediante conjuntos de datos etiquetados. En este proceso, el modelo de IA se entrena con pares de entrada-salida donde se proporcionan explícitamente las respuestas correctas. El objetivo es moldear las salidas del modelo para que se ajusten a los requisitos de la tarea, los formatos esperados y las expectativas humanas.
El ajuste fino supervisado (SFT, por sus siglas en inglés) se aplica comúnmente a modelos de lenguaje grandes después del preentrenamiento, lo que lo convierte en una parte fundamental del modelo base después del entrenamiento.
Por ejemplo, se proporcionan pares de entrada-salida y el modelo aprende a imitarlos. Cada token en la salida objetivo recibe una señal de gradiente directa. El modelo sabe con precisión qué debería haber producido.
Entrada: “Antecedentes del fundador: Ex-Google, Tasa de consumo: 93%…”
Salida: {“decisión”: “REVISIÓN_MANUAL”}
Imagínalo como enseñarle a alguien a cocinar dándole una receta con medidas exactas. Sigue los pasos y obtendrás el plato.
Figura 1: El gráfico muestra el proceso en el que un modelo de lenguaje se preentrena primero en un gran corpus genérico y luego se ajusta de forma supervisada en datos etiquetados específicos de la tarea para producir modelos adaptados a la tarea para aplicaciones como resumen, clasificación y generación de texto . 1
Características principales
- Se basa en ejemplos etiquetados con información veraz y precisa.
- Actualiza los pesos del modelo utilizando una función de pérdida.
- Se basa en un modelo base o en modelos fundamentales.
- Se centra en mejorar el rendimiento del modelo en tareas específicas.
- Se hace especial hincapié en la eficacia y la corrección de la formación.
Variantes comunes de SFT
- Ajuste fino completo : Actualiza todos los pesos del modelo. Alta precisión, alto costo.
- Ajuste fino con parámetros eficientes: Actualiza un subconjunto limitado de parámetros. Mejora la eficiencia del entrenamiento a la vez que reduce las necesidades de cómputo.
- Ajuste fino de instrucciones: Utiliza pares de instrucciones y respuestas para ajustar con precisión los modelos de lenguaje para la IA conversacional y los asistentes de IA.
¿Qué es el aprendizaje por refuerzo (RL)?
El aprendizaje por refuerzo es un paradigma en el que un modelo de IA aprende comportamientos óptimos interactuando con un entorno y recibiendo retroalimentación en forma de recompensas o penalizaciones. En lugar de ejemplos etiquetados, el modelo mejora maximizando una función de recompensa a lo largo del tiempo.
En los sistemas de inteligencia artificial, el aprendizaje por refuerzo se utiliza ampliamente en entornos dinámicos y escenarios del mundo real donde las respuestas correctas no están definidas explícitamente.
Salida del modelo: {“decisión”: “RECHAZAR_RIESGO”}
Recompensa: -50 (Incorrecto)
Piensa en esto como aprender a cocinar por ensayo y error. Sabes que el plato sabe mal, pero tienes que adivinar qué ingrediente causó el problema.
Figura 2: El gráfico muestra las diferencias entre el aprendizaje en línea y fuera de línea, donde los agentes aprenden políticas recopilando datos de forma iterativa mediante la interacción directa con un entorno o aprendiendo de datos registrados previamente cuando la interacción directa no es práctica. 2
Características principales
- No se dispone de conjuntos de datos etiquetados ni de datos de referencia.
- Los ciclos de retroalimentación y las señales de recompensa impulsan el aprendizaje.
- Se centra en los resultados a largo plazo en lugar de en la corrección inmediata.
- Muy adecuado para entornos dinámicos y tareas complejas.
Ajuste fino supervisado frente a aprendizaje por refuerzo: diferencias clave
El aprendizaje por refuerzo y el ajuste fino supervisado son técnicas posteriores al entrenamiento para adaptar un modelo preentrenado, pero resuelven problemas fundamentalmente diferentes. Comprender estas diferencias es crucial al elegir el método de ajuste fino adecuado para un sistema de IA, especialmente para modelos de lenguaje complejos e IA conversacional.
En términos generales, el ajuste fino supervisado enseña a un modelo "cuál es la respuesta correcta", mientras que el aprendizaje por refuerzo le enseña "qué comportamientos conducen a mejores resultados con el tiempo".
Señal de aprendizaje y mecanismo de retroalimentación
La distinción más importante radica en cómo se proporciona la retroalimentación durante el proceso de capacitación.
- En el ajuste fino supervisado , el modelo aprende a partir de ejemplos etiquetados. Cada ejemplo de entrenamiento contiene una entrada y una respuesta correcta, que actúa como referencia. El modelo de IA compara las respuestas generadas con la referencia mediante una función de pérdida y actualiza sus pesos para reducir el error. Esta es una señal de aprendizaje directa y explícita.
- El aprendizaje por refuerzo no utiliza respuestas correctas ni conjuntos de datos etiquetados. En cambio, el modelo de IA aprende mediante una función de recompensa. Tras generar un resultado o realizar una acción, el modelo recibe retroalimentación positiva o negativa según la medida en que el resultado se ajuste al comportamiento deseado. Esta retroalimentación suele ser tardía e indirecta, especialmente en tareas complejas.
Contraste clave:
- SFT utiliza conjuntos de datos etiquetados y respuestas correctas.
- El aprendizaje por refuerzo utiliza señales de recompensa y bucles de retroalimentación.
- SFT optimiza la precisión inmediata.
- El aprendizaje por refuerzo optimiza los resultados a largo plazo.
Papel de la aportación humana
La participación humana difiere significativamente entre ambos enfoques:
- El ajuste fino supervisado depende en gran medida de los datos de entrenamiento creados por humanos. Los anotadores humanos definen cómo son los buenos resultados proporcionando ejemplos etiquetados. Las evaluaciones humanas se utilizan principalmente para valorar el rendimiento del modelo después del entrenamiento.
- El aprendizaje por refuerzo suele incorporar la retroalimentación humana de forma más dinámica. En muchos modelos entrenados mediante aprendizaje por refuerzo, los evaluadores humanos clasifican o puntúan las salidas del modelo, y esta información se utiliza para entrenar un modelo de recompensa. Este modelo guía el entrenamiento, permitiendo que el sistema aprenda las preferencias humanas, que son difíciles de codificar como reglas estrictas. Para obtener más información, consulte «Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF)» .
Esto hace que el aprendizaje por refuerzo sea particularmente eficaz para alinear los asistentes de IA con las expectativas humanas en áreas como la calidad de la conversación, el tono y los modelos de razonamiento.
Alcance de las tareas y entornos
- El ajuste fino supervisado es ideal para tareas específicas con resultados claramente definidos. Algunos ejemplos son la clasificación , la extracción de datos estructurados, la traducción y la redacción creativa con requisitos de formato estrictos. En estos casos, identificar patrones a partir de ejemplos etiquetados resulta eficiente y fiable.
- El aprendizaje por refuerzo es más adecuado para tareas complejas y entornos dinámicos donde las respuestas correctas no están claramente definidas o donde el éxito depende de secuencias de decisiones. Los modelos de aprendizaje por refuerzo se utilizan comúnmente en escenarios del mundo real donde los resultados se desarrollan con el tiempo y el contexto es importante.
Generalización
- El ajuste fino supervisado suele ofrecer una gran precisión a corto plazo, pero puede tener dificultades con datos desconocidos. Cuando los ejemplos de entrenamiento son limitados o repetitivos, los modelos entrenados con SFT pueden memorizar los datos de entrenamiento en lugar de adquirir conocimiento generalizable. Esto puede limitar la capacidad de generalización del modelo.
- El aprendizaje por refuerzo fomenta una exploración más amplia. Dado que el modelo de IA aprende interactuando con la retroalimentación en lugar de buscar respuestas exactas, el aprendizaje por refuerzo mejora la generalización y la adaptabilidad. Su superior capacidad de generalización cobra especial importancia en tareas con alta variabilidad y cuando las reglas rígidas resultan insuficientes.
Sin embargo, el entrenamiento por refuerzo es más inestable y sensible al diseño de las recompensas, razón por la cual el entrenamiento basado en la simulación sigue siendo esencial como paso estabilizador.
Eficiencia y complejidad de la formación
Desde una perspectiva operativa, el ajuste fino supervisado es más sencillo y predecible. El conjunto de datos de entrenamiento es fijo, las métricas de evaluación son claras y la eficiencia del entrenamiento es alta cuando se dispone de grandes conjuntos de datos etiquetados.
El aprendizaje por refuerzo es más complejo y computacionalmente costoso. Diseñar una función de recompensa práctica, gestionar la exploración y garantizar un aprendizaje estable requiere un ajuste preciso. A menudo se utilizan algoritmos como la optimización de políticas proximales para mejorar la estabilidad, pero el aprendizaje por refuerzo aún exige más experimentación.
Posición en los sistemas modernos de entrenamiento de IA
En la práctica, el aprendizaje por refuerzo y el ajuste fino supervisado no son técnicas competidoras, sino complementarias.
La mayoría de los procesos posteriores al entrenamiento de los modelos base siguen una secuencia clara:
- Comience con un modelo base o modelos fundamentales.
- Aplicar el ajuste fino supervisado (SFT) para estabilizar los resultados del modelo.
- Utilice el aprendizaje por refuerzo posterior para alinear el comportamiento con las preferencias humanas.
SFT proporciona una base sólida al enseñar la corrección y el formato. El aprendizaje por refuerzo (RL) luego refina el comportamiento, mejorando el rendimiento del modelo en áreas donde la corrección por sí sola es insuficiente.
Productos emergentes
verl: Aprendizaje por refuerzo del motor Volcano para LLM
verl (Volcano Engine Reinforcement Learning for LLMs) es un marco de código abierto desarrollado por el equipo ByteDance Seed para el post-entrenamiento basado en aprendizaje por refuerzo de grandes modelos de lenguaje (LLMs), que incluye:
- Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF)
- Aprendizaje por refuerzo a partir de la retroalimentación de la IA (RLAIF)
- alineación de los modelos de lenguaje con las preferencias humanas
- Optimización del razonamiento o del rendimiento en tareas mediante RL
- Investigación sobre algoritmos de aprendizaje por refuerzo para modelos de aprendizaje por refuerzo.
Este marco se centra en facilitar la implementación eficiente de algoritmos de aprendizaje por refuerzo, como la Optimización de Políticas Proximales (PPO) y la Optimización de Políticas Relativas de Grupo (GRPO), para el entrenamiento de modelos de lenguaje. Proporciona la infraestructura necesaria para gestionar las etapas clave del aprendizaje por refuerzo para modelos de lenguaje, incluyendo la generación de respuestas, el cálculo de recompensas, la estimación de ventajas y las actualizaciones de políticas.
Arquitectura y principios operativos
Canalización de aprendizaje por refuerzo para LLM
En el entrenamiento de modelos de lógica difusa (LLM) basado en aprendizaje por refuerzo, un modelo genera respuestas a partir de indicaciones dadas y recibe retroalimentación mediante una señal de recompensa. El objetivo del entrenamiento es ajustar los parámetros del modelo para que las respuestas con mayores recompensas sean más probables.
El proceso general compatible con verl incluye las siguientes etapas:
- Muestreo de indicaciones : Las indicaciones se extraen de un conjunto de datos utilizado para el entrenamiento en aprendizaje por refuerzo.
- Generación de respuestas : El modelo de política (el LLM que se está optimizando) genera respuestas para las indicaciones.
- Evaluación de la recompensa : Un modelo de recompensa o función de evaluación asigna una puntuación de recompensa a cada respuesta generada. Esta recompensa puede provenir de:
- un modelo de recompensa aprendido
- puntuación basada en reglas
- sistemas de evaluación automatizados.
- Estimación de ventajas : Las señales de aprendizaje por refuerzo, como las ventajas o las recompensas, se calculan en función de la recompensa.
- Optimización de políticas : Los parámetros del modelo de política se actualizan utilizando un algoritmo de aprendizaje por refuerzo (por ejemplo, PPO o GRPO).
- Iteración del ciclo de entrenamiento : El proceso se repite hasta la convergencia o la finalización del programa de entrenamiento.
Verl coordina estos componentes y gestiona su ejecución en recursos informáticos distribuidos. 3
OpenRLHF
OpenRLHF es un marco de código abierto que tiene como objetivo proporcionar un sistema escalable, de alto rendimiento y accesible para la alineación y optimización de modelos LLM basados en aprendizaje por refuerzo.
Arquitectura del sistema
Arquitectura distribuida basada en rayos
OpenRLHF introduce una arquitectura RLHF basada en Ray que gestiona el entrenamiento distribuido en clústeres de GPU. Ray funciona como la capa central de planificación y orquestación, coordinando la asignación de recursos, la ejecución de tareas y la comunicación entre los diferentes componentes.
La arquitectura separa las responsabilidades del sistema en roles distintos:
- Motores de despliegue : Generan respuestas a partir de las solicitudes utilizando la política actual.
- Motores de actores : Calculan probabilidades logarítmicas y realizan la optimización de políticas.
- Motores de entrenamiento (motores Zero) : Ejecutan actualizaciones de modelos utilizando DeepSpeed.
Flujo de trabajo del entrenamiento de aprendizaje por refuerzo
OpenRLHF implementa un ciclo de entrenamiento RLHF basado en PPO que consta de cuatro etapas principales:
- Generación de despliegue : El modelo de políticas genera respuestas a las solicitudes de entrada mediante un motor de despliegue impulsado por vLLM.
- Cálculo de recompensas : Un modelo de recompensas evalúa las respuestas generadas y asigna recompensas escalares.
- Estimación de ventajas : Las ventajas se calculan utilizando la Estimación de Ventajas Generalizada (GAE), que incorpora penalizaciones KL para limitar la divergencia con respecto a una política de referencia.
- Optimización de políticas : Los parámetros del modelo se actualizan utilizando la función objetivo recortada de PPO.
Figura 3: Diagrama que muestra el flujo de trabajo PPO de OpenRLHF. 4
Diseño de sistemas distribuidos
OpenRLHF incorpora varias características arquitectónicas que permiten un entrenamiento RLHF eficiente a gran escala.
1. Paralelismo 3D
El marco emplea una estrategia de paralelización tridimensional que combina:
- paralelismo tensorial
- paralelismo de datos
- Paralelismo de secuencias
Esta estrategia se implementa utilizando DeepSpeed ZeRO y mecanismos de atención en anillo . La atención en anillo distribuye el cálculo de la atención entre las GPU mediante una topología de comunicación en anillo, lo que mejora la escalabilidad para tareas de razonamiento de contexto extenso.
2. Inferencia acelerada con vLLM
Dado que la inferencia domina el tiempo de entrenamiento de RLHF, OpenRLHF integra vLLM para acelerar la generación de respuestas. vLLM proporciona varias optimizaciones:
- PagedAttention, que reduce el desperdicio de memoria clave-valor a menos del 4%.
- Agrupación dinámica
- Ejecución de gráficos CUDA
- Núcleos optimizados para FlashAttention
- Decodificación especulativa
Estas técnicas mejoran la utilización de la GPU y aumentan significativamente el rendimiento de la inferencia durante el entrenamiento RLHF.
3. Flujo de datos asíncrono
OpenRLHF admite la ejecución asíncrona entre los componentes del sistema, incluidos los motores de despliegue y los motores de entrenamiento.
En lugar de esperar a que todos los procesos finalicen antes de continuar, cada componente opera de forma independiente y se comunica mediante el paso de mensajes. Este diseño asíncrono evita que tareas lentas, como la generación de largas cadenas de pensamiento, bloqueen todo el proceso de entrenamiento.
Como resultado, el rendimiento del sistema y la utilización del hardware mejoran significativamente en entornos distribuidos.
Evaluación del desempeño
Los resultados experimentales demuestran que OpenRLHF logra mejoras de rendimiento significativas con respecto a los marcos RLHF existentes. Los hallazgos clave incluyen:
- Entrenamiento entre 1,22 y 1,68 veces más rápido en comparación con el marco de trabajo verl en diferentes tamaños de modelo y longitudes de secuencia.
- El entrenamiento es aproximadamente 3,1 veces más rápido que con el marco TRL en el benchmark GSM8K.
- Entrenamiento aproximadamente 3,6 veces más rápido que DeepSpeed-Chat bajo cargas de trabajo RLHF comparables.
Estas mejoras se atribuyen principalmente a:
- Aceleración de inferencia basada en vLLM
- Orquestación distribuida basada en rayos
- estrategias de paralelización eficientes.
Metodología
Realizamos todos los experimentos en un único NVIDIA A100 (80 GB) utilizando PyTorch 2.x, HuggingFace Transformers y TRL 0.27.0. Todo el entrenamiento utilizó adaptadores LoRA (r=16, α=32) aplicados a la consulta, clave, valor y proyecciones de salida, con precisión bfloat16.
El modelo base fue Qwen3-14B-Instruct para las tres condiciones: línea base (sin ajuste fino), RL (GRPO con LoRA) y SFT (con LoRA).
Para el conjunto de datos, generamos 800 solicitudes de préstamo sintéticas con una distribución de clases equilibrada (200 por clase), dividiendo el 80/20 en conjuntos de entrenamiento (640 muestras) y de prueba (160 muestras).
- Configuración de RL: Utilizamos GRPO con una tasa de aprendizaje de 1e-5, 8 generaciones por solicitud, 4 épocas de entrenamiento y acumulación de gradiente en 8 pasos. La longitud máxima de finalización se estableció en 150 tokens.
- Configuración de SFT: La tasa de aprendizaje fue de 2e-5, con 4 épocas de entrenamiento, un tamaño de lote de 2 y acumulación de gradiente en 4 pasos.
- Protocolo de evaluación: La línea base utilizó únicamente la indicación del sistema sin ejemplos (entrenamiento de cero disparos). Todas las inferencias utilizaron una temperatura de 0,1 para obtener resultados casi deterministas. Las semillas aleatorias se mantuvieron fijas para garantizar la reproducibilidad, y medimos la precisión de coincidencia exacta en el conjunto de prueba reservado.
Cómo funciona el sistema de decisión crediticia
El mecanismo central: Hemos construido un sistema sintético de toma de decisiones crediticias con cuatro resultados posibles y una estricta jerarquía de prioridades:
JERARQUÍA DE DECISIONES (Orden de prioridad)
1. REVISIÓN_MANUAL (El fundador es Ex-Google o Ex-Facebook, regla oculta)
2. RECHAZAR_RIESGO (Ingresos > $10 millones y Tasa de gasto > 80% de los ingresos)
3. NIVEL A_PLUS (Puntuación NPS del cliente ≥ 80)
4. PRÉSTAMO ESTÁNDAR (Caso predeterminado)
La prueba crucial consiste en que la Regla 1 nunca se mencione en el mensaje del sistema . El modelo debe descubrirla únicamente a partir de las señales de entrenamiento.
Dónde se descompone:
La regla de anulación VIP es intencionadamente contraintuitiva. Un fundador con métricas financieras deficientes pero con experiencia en Google debería recibir una REVISIÓN MANUAL, aunque el razonamiento financiero por sí solo produciría un RIESGO DE RECHAZO.
Limitaciones
Este es un estudio exploratorio cuyo objetivo es brindar orientación a los profesionales que evalúan las ventajas y desventajas de la terapia centrada en el usuario (SFT, por sus siglas en inglés) frente a la terapia basada en el aprendizaje (RL, por sus siglas en inglés). Estos hallazgos deben servir de base para sus propios experimentos, no como conclusiones universales.
Alcance experimental:
- Conjunto de datos sintéticos; los datos crediticios reales incluyen ruido, valores faltantes y casos extremos.
- Familia de modelos únicos (Qwen); los resultados pueden variar para otras arquitecturas.
- Un conjunto de prueba pequeño (160 muestras) proporciona una señal direccional pero una potencia estadística limitada.
A RL no se le dieron las mismas condiciones:
- Sin modelado de recompensas, aprendizaje curricular ni optimización de hiperparámetros.
- Los sistemas de aprendizaje por refuerzo de producción utilizan configuraciones significativamente más sofisticadas.
El diseño de la tarea favoreció la SFT:
- La lógica determinista y basada en reglas es precisamente donde SFT sobresale por diseño.
- Los resultados pueden diferir sustancialmente en tareas subjetivas (tono, estilo, capacidad de persuasión), donde el aprendizaje por refuerzo suele superar a la competencia.
Trabajo futuro
Para trabajos futuros, nuestro objetivo es ampliar este punto de referencia en varias dimensiones:
- Prueba el aprendizaje por refuerzo en tareas subjetivas donde no existe una única verdad fundamental.
- Explorar pipelines híbridos de SFT a RL.
- Evaluar el impacto de la configuración de recompensas en el aprendizaje basado en reglas.
- Aumentar la escala de los datos y la complejidad de las tareas , incrementando el tamaño del conjunto de entrenamiento en 10 veces.
Conclusión
Este experimento demuestra que el ajuste fino supervisado supera significativamente al aprendizaje por refuerzo en comportamientos explícitos y basados en reglas , especialmente cuando dichas reglas contradicen los patrones de razonamiento típicos. El ajuste fino supervisado aprendió la regla oculta de anulación de VIP con un 86 % de precisión, mientras que el aprendizaje por refuerzo la ignoró casi por completo, con un 7 % de precisión.
A partir de lo que hemos aprendido de esta evaluación comparativa, aquí les presentamos algunas recomendaciones prácticas:
- Utilice SFT siempre que pueda proporcionar ejemplos etiquetados.
- Utilice el aprendizaje por refuerzo para la optimización subjetiva en lugar del aprendizaje de capacidades.
- Combine SFT y RL cuando necesite precisión y alineación de preferencias.
La lección principal es sencilla: siempre que sea posible la supervisión directa, utilícela.
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.