AI Modelos de IA Másteres en Derecho (LLM)

Parámetros LLM: GPT-5 Alto, Medio, Bajo y Mínimo

Sıla Ermut

con

Şevval Alper

actualizado el Ene 22, 2026

Vea nuestra normas éticas

Los nuevos LLM, como la familia OpenAI, vienen en diferentes versiones (por ejemplo, GPT-5, GPT-5-mini y GPT-5-nano) y con varias configuraciones de parámetros, incluyendo alto, medio, bajo y mínimo.

A continuación, analizamos las diferencias entre estas versiones del modelo recopilando su rendimiento en las pruebas de referencia y los costes de ejecución de dichas pruebas.

Precio vs. éxito: Conclusiones clave

En nuestro análisis utilizamos la familia GPT-5. Empleamos seis pruebas de referencia en diversas áreas, como razonamiento, codificación, seguimiento de instrucciones y matemáticas.

Loading Chart

Nuestro análisis reveló:

En promedio, en todos los puntos de referencia, GPT-5 (alto) y GPT-5 (medio) ofrecen tasas de éxito casi idénticas (65% frente a 64%), pero GPT-5 (alto) cuesta casi el doble ($511 frente a $280). Les siguen GPT-5-mini (alto) , GPT-5 (bajo) y GPT-5-mini (medio), con tasas de éxito del 62%, 61% y 60%, respectivamente, a precios mucho más bajos de $105, $90 y $28. Esto demuestra que, al aceptar solo una caída de aproximadamente el 5 % en la tasa de éxito, las tareas se pueden completar a un costo hasta 18 veces menor al cambiar de GPT-5 (alto) a GPT-5-mini (medio).
GPT-5-mini (alta) supera a GPT-5 (baja) en casi todas las pruebas de rendimiento, y lo hace al mismo costo o incluso más bajo. En IFBench, las tasas de éxito son del 75 % frente al 67 %; en AIME 2025, del 97 % frente al 83 %; en Humanity's Last Exam, del 20 % frente al 18 %; y en GPQA Diamond, del 83 % frente al 81 %. En SciCode, empatan con un 39 %, pero GPT-5-mini (alta) sigue teniendo un costo menor.
El modelo más caro, GPT-5 (alto), supera al segundo mejor en solo tres pruebas comparativas, e incluso en esos casos, el margen no supera el 3%. En todas las demás pruebas comparativas, las alternativas más económicas lo superan.

Configuración de parámetros: alta, media, baja y mínima

Si bien los parámetros de los modelos lineales generalizados (MLG) suelen describirse mediante ajustes numéricos, también pueden expresarse como rangos cualitativos, como alto, medio y bajo. Estos rangos no son estándares fijos, sino categorías conceptuales que describen la influencia de un parámetro en el resultado del modelo.

El uso de estos tres niveles facilita la selección rápida de la configuración para diferentes tareas, según el nivel de creatividad, determinismo o duración deseado. Estos niveles resultan útiles al ajustar los parámetros de top-P, tokens máximos y penalización.

El parámetro medio se refiere a la versión regular (no parametrizada) de un modelo.

Configuración mínima :

Top-p / Top-k: Muy bajo (top-p ≈ 0,1–0,2, top-k = 1–5)
Tokens máximos: Límite corto
Penalizaciones: Muy bajas o ninguna
Efectos:
- Resultados altamente deterministas, prácticamente idénticos en cada ocasión.
- Muy conciso, objetivo y rígido.
- Ideal para código, matemáticas, consultas a bases de datos o respuestas que requieren un cumplimiento estricto.
- Muy restringido, con baja aleatoriedad, lo que favorece la predictibilidad y la precisión.

Ajuste bajo:

Top-p / Top-k: Bajo (top-p ≈ 0,3–0,5, top-k = 5–10)
Máximo de tokens: Corto a mediano
Penalizaciones: De bajas a moderadas
Efectos:
- En su mayoría determinista, pero permite pequeñas variaciones.
- Reduce la repetición robótica en comparación con la mínima.
- Adecuado para resúmenes, explicaciones estructuradas o redacción profesional con un estilo uniforme.

Configuración media :

Top-p / Top-k: Moderado (top-p ≈ 0,7–0,9, top-k = 20–50)
Máximo de tokens: Longitud media
Penalizaciones: Moderadas, para evitar la repetición pero permitir cierta creatividad.
Efectos:
- Equilibrio entre precisión y creatividad.
- Produce respuestas naturales que varían ligeramente entre las distintas ejecuciones.
- Adecuado para preguntas y respuestas generales, redacción y lluvia de ideas.

Ajuste alto :

Top-p / Top-k: Alto (top-p ≈ 0,95–1,0, top-k = 50–100)
Tokens máximos: Límite elevado para resultados más largos.
Penalizaciones: De nivel medio a alto, fomentando la variedad y la novedad.
Efectos:
- Resultados sumamente creativos y diversos.
- Menos predecible, con mayor riesgo de alucinaciones .
- Ideal para contar historias, generar ideas, jugar a roles y escribir de forma creativa.

Para decidir qué nivel utilizar, tenga en cuenta lo siguiente:

Tipo/propósito de la tarea : Si necesita precisión ( legal , médica , de código , fáctica ), elija mínimo o medio. Si necesita creatividad, originalidad o un toque personal, un nivel alto podría ser mejor.
Tolerancia a los errores : ¿Qué tan graves son los fallos o errores ocasionales? Si es baja, evite la aleatoriedad excesiva.
Restricciones computacionales : Las longitudes de salida elevadas y la alta aleatoriedad suelen requerir más capacidad de procesamiento y memoria.
Tamaño del modelo : Los modelos más grandes tienden a manejar mejor la aleatoriedad alta, mientras que los modelos más pequeños pueden degradarse significativamente en configuraciones de alta aleatoriedad.
Longitud de salida deseada : Un texto generado más largo puede variar, por lo que una alta aleatoriedad sumada a una longitud mayor supone un mayor riesgo.

GPT-5

GPT-5 equilibra una mayor capacidad de razonamiento con una velocidad media, lo que lo hace adecuado para tareas complejas de varios pasos donde la precisión y la adaptabilidad son cruciales.

Ventana de contexto : 400.000
Tokens de salida máximos : 128.000
Fecha límite para la presentación de conocimientos : 30 de septiembre de 2024
Razonamiento : Superior, con soporte para tokens de razonamiento

Precios (por 1 millón de tokens)

Entrada: $1.25
Entrada almacenada en caché: $0.125
Salida: $10.00

Modalidades

Texto: entrada y salida
Imagen: solo entrada
Audio: no compatible

GPT-5 mini

El GPT-5 mini es una versión más pequeña, rápida y asequible del GPT-5. Conserva una gran capacidad de razonamiento, a la vez que resulta más adecuada para tareas bien definidas.

Ventana de contexto : 400.000
Tokens de salida máximos : 128.000
Fecha límite para la presentación de conocimientos : 31 de mayo de 2024
Características : Admite búsqueda web, búsqueda de archivos e intérprete de código.

Precio por millón de tokens :

Entrada: $0.25
Entrada almacenada en caché: $0.025
Salida: $2.00

GPT-5 nano

GPT-5 nano es la opción más rápida y económica, diseñada para tareas ligeras como la clasificación y el resumen.

Ventana de contexto : 400.000
Tokens de salida máximos : 128.000
Fecha límite para la presentación de conocimientos : 31 de mayo de 2024
Características : Admite búsqueda de archivos, generación de imágenes e intérprete de código (pero no búsqueda web).

Precio por millón de tokens :

Entrada: $0.05
Entrada almacenada en caché: $0.005
Salida: $0.40

Características de la serie GPT-5

La serie GPT-5 introduce varias funciones que mejoran el control, el formato y la eficiencia. Estas funciones se aplican a los modelos GPT-5, GPT-5 Mini y GPT-5 Nano.

Parámetro de verbosidad

El parámetro verbosity permite a los desarrolladores influir en el nivel de detalle de los resultados del modelo sin modificar el mensaje.
Acepta tres valores:

Bajo: resultados breves y concisos
Medio: resultados equilibrados (predeterminado)
Alto: resultados detallados adecuados para explicación, documentación o revisión.

Una mayor verbosidad conlleva respuestas más largas y un mayor uso de tokens de salida.

Llamada a funciones de forma libre

La serie GPT-5 admite llamadas a herramientas personalizadas que aceptan salida de texto sin formato en lugar de JSON estructurado. Esto permite generar código, consultas SQL o texto de configuración que se pasa directamente a entornos de ejecución externos, como:

entornos de pruebas de código
Motores SQL
Entornos Shell
Sistemas de configuración

El tipo de herramienta personalizada no admite llamadas a herramientas en paralelo. Está pensada para situaciones en las que se prefiere el texto natural a un esquema JSON estricto.

Compatibilidad con gramáticas libres de contexto (GLC)

Los modelos pueden producir texto sujeto a una gramática definida con Lark o sintaxis de expresiones regulares. Esto garantiza que el texto generado siga reglas estructurales estrictas. Algunos casos de uso comunes incluyen:

Imponer dialectos SQL específicos
Restricción de marcas de tiempo o identificadores
Validación de formatos de configuración

Al utilizar gramáticas libres de contexto (GLC), los desarrolladores definen terminales y reglas que describen el conjunto de cadenas aceptables. El modelo produce únicamente salidas que coinciden con estas reglas.

Modo de razonamiento mínimo

El modo de razonamiento mínimo reduce o elimina los tokens de razonamiento. Esto reduce la latencia y mejora el tiempo hasta la primera aparición del token.
Es adecuado para tareas como:

Clasificación
Reescrituras breves
Extracción estructurada
Operaciones básicas de formato

Cuando no se proporciona ninguna configuración de razonamiento, el nivel de esfuerzo predeterminado es medio.

Diferencias clave

Los tres modelos se diferencian principalmente en la profundidad del razonamiento, la velocidad y el coste. Las nuevas funciones se pueden utilizar en todos los modelos, pero su impacto varía según el modelo.

Razonamiento

GPT-5 ofrece la mayor capacidad de razonamiento. Es apropiado para problemas complejos de varios pasos en codificación, análisis científico o apoyo a la toma de decisiones.
GPT-5 mini ofrece un razonamiento sólido para indicaciones estructuradas con límites de tareas predecibles.
GPT-5 nano tiene un rendimiento de razonamiento moderado y funciona mejor en tareas que no requieren un análisis profundo.
El modo de razonamiento mínimo se puede utilizar con todos los modelos y proporciona el beneficio más significativo para GPT-5 nano y GPT-5 mini, dada su ventaja de velocidad.

Velocidad

GPT-5 nano es la opción más rápida y es eficaz para cargas de trabajo en tiempo real o a gran escala.
GPT-5 mini equilibra la velocidad con el razonamiento, lo que lo hace adecuado para cargas de trabajo de producción regulares.
GPT-5 es más lento porque realiza más razonamiento interno, pero esto da como resultado una salida más precisa.
El modo de razonamiento mínimo puede reducir aún más la latencia, especialmente para nano.

Costo

GPT-5 nano tiene el menor costo por token. Es la opción preferida para tareas de alto volumen, como la clasificación o el resumen por lotes.
El modelo GPT-5 mini se sitúa en la gama media, ofreciendo un equilibrio entre capacidad y precio.
El modelo GPT-5 es el más caro y se suele utilizar cuando la precisión y la consistencia son prioritarias.
La configuración de verbosidad influye en el coste, ya que una mayor verbosidad produce más tokens de salida.

¿Qué son los parámetros LLM?

Los parámetros LLM son configuraciones que influyen en cómo los modelos de lenguaje grandes (LLM) generan texto durante la inferencia. Estos parámetros no modifican los pesos aprendidos de un modelo preentrenado. En cambio, determinan cómo el modelo de lenguaje muestrea a partir de una distribución de probabilidad sobre tokens probables al generar respuestas.

Los modelos de lenguaje complejos son sistemas de redes neuronales, generalmente basados en la arquitectura del modelo Transformer. Durante el entrenamiento, el modelo aprende valores numéricos denominados pesos y sesgos. Los pesos representan la importancia asignada a las diferentes entradas, lo que permite al modelo capturar relaciones entre palabras, conceptos y contexto. Los sesgos son valores constantes que se añaden dentro de las capas y que ayudan a activar las neuronas bajo ciertas condiciones. En conjunto, estos valores definen la capacidad del modelo para reconocer patrones complejos en el lenguaje.

Por el contrario, los parámetros de inferencia operan después del entrenamiento. Definen cómo se utiliza el conocimiento aprendido por el modelo, sin modificar los pesos subyacentes. Ajustar los parámetros del modelo de lenguaje natural (LLM) permite a los usuarios influir en la diversidad, la predictibilidad, la repetición y la longitud de la salida, lo cual es fundamental para optimizar el rendimiento del modelo en tareas específicas como la escritura creativa, la generación estructurada o las explicaciones técnicas.

Los parámetros clave incluyen el muestreo de los p núcleos principales, el número máximo de tokens, la penalización por frecuencia, la penalización por presencia y las secuencias de parada. En conjunto, estos parámetros de muestreo controlan la salida generada, equilibrando la calidad de la salida, el coste computacional y la eficiencia de la inferencia.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Tamaño del modelo, parámetros y fundamentos del entrenamiento

Los modelos de lenguaje de gran tamaño pueden tener miles de millones de parámetros. Por lo general, estos modelos tienen mayor capacidad para manejar lenguajes con matices, dependencias a largo plazo y razonamientos complejos. Sin embargo, este mejor rendimiento conlleva mayores requisitos de potencia computacional tanto durante el entrenamiento como durante la inferencia.

Los modelos más pequeños requieren menos recursos computacionales y ofrecen mayor eficiencia, pero pueden tener dificultades con patrones más complejos o ventanas de contexto más largas. La elección entre modelos grandes y pequeños depende de la tarea, la latencia aceptable y la infraestructura disponible. Consulte las leyes de escalado de LLM para comprender cómo los investigadores de IA evalúan el efecto del tamaño del modelo, la calidad de los datos y la estrategia de entrenamiento.

Varios parámetros de entrenamiento determinan cómo aprende un modelo antes de la inferencia:

El tamaño del lote se refiere a la cantidad de muestras de entrenamiento que se procesan antes de que el modelo actualice sus pesos. Un tamaño de lote mayor mejora la eficiencia del entrenamiento, pero aumenta el uso de memoria.
La tasa de aprendizaje controla la rapidez con la que el modelo ajusta sus pesos y sesgos. Los valores más altos aceleran el aprendizaje, pero conllevan el riesgo de inestabilidad, mientras que los valores más bajos favorecen una convergencia constante.
Los hiperparámetros definen configuraciones externas como el tamaño del modelo, el tamaño del lote y la tasa de aprendizaje, lo que da forma al proceso de entrenamiento general.

Tras el preentrenamiento, el ajuste fino y la alineación son esenciales. El ajuste fino adapta un modelo preentrenado a datos o tareas específicas del dominio, mientras que la alineación garantiza que el texto generado refleje la intención humana.

El ajuste fino con eficiencia de parámetros (PEFT, por sus siglas en inglés) mejora la eficiencia computacional al congelar la mayoría de los parámetros y actualizar solo un pequeño subconjunto de parámetros relevantes para la tarea.

Muestreo Topp

El muestreo Top-p, también conocido como muestreo de núcleo, limita la selección de tokens al grupo más pequeño cuya probabilidad acumulada supera un umbral p determinado. En lugar de seleccionar entre un número fijo de tokens, el modelo elige dinámicamente entre tokens probables que, en conjunto, representan la masa de probabilidad especificada.

Los valores más bajos (por ejemplo, p = 0,5) restringen el muestreo a un conjunto reducido de los tokens de mayor probabilidad, lo que da como resultado un texto coherente pero menos variado.
Valores más altos (por ejemplo, p = 0,9) permiten muestrear a partir de un conjunto más amplio, lo que aumenta la diversidad de resultados, pero también el riesgo de desviarse del tema.

Muestreo de los k mejores

El muestreo de los k elementos principales restringe la elección del modelo a los k tokens con mayor probabilidad para el siguiente paso en la generación de texto. Al reducir el conjunto de candidatos, este parámetro afecta directamente la predictibilidad y la variedad.

Los valores más bajos de top-k limitan la selección a un pequeño conjunto de tokens altamente probables, lo que produce resultados más predecibles y específicos.
Los valores más altos amplían el grupo de candidatos, aumentando la variabilidad y favoreciendo una mayor diversidad lingüística.

Mientras que el muestreo top-p se adapta dinámicamente en función de la masa de probabilidad, el muestreo top-k utiliza un umbral fijo. Ambos métodos se comparan con frecuencia durante la evaluación de modelos para determinar la configuración óptima para tareas específicas.

Máximo de tokens (Número de tokens)

El parámetro max_tokens define el número máximo de tokens que el modelo puede generar en una sola respuesta. Determina directamente la longitud de la salida e influye en el coste computacional.

Los valores máximos más bajos obligan a dar respuestas concisas, pero pueden omitir detalles importantes.
Los valores más altos permiten explicaciones más detalladas, pero requieren más recursos computacionales y aumentan el tiempo de inferencia.

El número máximo de tokens está limitado por la ventana de contexto, que incluye tanto los datos de entrada como la salida generada. Si el número total de tokens supera el límite del modelo, la generación se detendrá independientemente del valor configurado para el número máximo de tokens.

parámetro de penalización de frecuencia

La penalización por frecuencia ajusta la probabilidad de los tokens en función de la frecuencia con la que ya han aparecido en el texto generado.

Los valores positivos reducen la repetición, mejorando la calidad de las respuestas más largas.
Los valores negativos fomentan la reutilización, lo que puede resultar útil para documentos que requieren una terminología coherente.

Las penalizaciones excesivamente altas pueden perjudicar la coherencia, ya que la repetición natural suele ser necesaria para un texto similar al escrito por humanos. Este parámetro resulta más eficaz al optimizar el rendimiento del modelo para la generación de textos extensos.

penalización por presencia

La penalización por presencia reduce la probabilidad de que aparezcan tokens que ya han aparecido al menos una vez, independientemente de su frecuencia. Esto incentiva al modelo a introducir nuevas ideas.

Los valores positivos fomentan la novedad y la exploración, lo cual resulta útil para la lluvia de ideas y la escritura creativa.
Los valores negativos refuerzan los términos existentes, lo que puede ser útil para obtener resultados estructurados o restringidos.

La penalización por presencia es un control valioso para guiar la diversidad de ideas, pero debe aplicarse con cuidado para evitar la evitación antinatural de términos clave.

Secuencias de parada

Las secuencias de parada definen tokens o cadenas específicas que indican al modelo que detenga la generación. Se utilizan habitualmente en aplicaciones estructuradas.

Útil para aplicar plantillas en sistemas de diálogo o generación de código.
Ayuda a controlar la longitud de la salida y a evitar continuaciones irrelevantes.

Las secuencias de parada mejoran la predictibilidad de los textos generados sin depender únicamente de los límites de tokens.

Semilla y determinismo

Algunos sistemas permiten a los usuarios especificar una semilla aleatoria, lo que garantiza que los mismos datos de entrada y la misma configuración de parámetros produzcan la misma salida generada.

Útil para la evaluación y prueba de modelos.
Ayuda a comparar diferentes configuraciones de parámetros sin que la variación aleatoria afecte a los resultados.

La generación determinista favorece la reproducibilidad, aunque los resultados exactos pueden variar entre diferentes modelos de IA o entornos de implementación.

Diferencias entre parámetros clave

Comprender cómo difieren los parámetros clave ayuda a ajustar los parámetros de LLM para obtener resultados óptimos.

Penalización por frecuencia frente a penalización por presencia : La penalización por frecuencia se ajusta a la frecuencia con la que aparece una ficha, mientras que la penalización por presencia se aplica una sola vez después de que la ficha aparezca por primera vez.
Muestreo de los k mejores frente a los p mejores : El muestreo de los k mejores limita la selección a un número fijo de tokens, mientras que el muestreo de los p mejores selecciona dinámicamente los tokens en función de la probabilidad acumulada.
Máximo de tokens frente a ventana de contexto : El máximo de tokens limita la longitud de la salida, mientras que la ventana de contexto es un límite superior fijo que abarca tanto los tokens de entrada como los de salida.

El ajuste preciso de estos parámetros permite a los profesionales equilibrar la calidad de la salida, la eficiencia computacional y el rendimiento de LLM en aplicaciones como la generación aumentada de recuperación, las tareas analíticas y la generación de texto abierto.

Sıla Ermut

Analista de la industria

Sıla Ermut es analista de la industria en AIMultiple, especializada en marketing por correo electrónico y vídeos de ventas. Anteriormente trabajó como reclutadora en empresas de gestión de proyectos y consultoría. Sıla es licenciada en Psicología Social y en Relaciones Internacionales.

Ver perfil completo

Investigado por