Los datos sintéticos están ganando popularidad y aplicabilidad en diversos sectores, como el aprendizaje automático, el aprendizaje profundo y la IA generativa (GenAI) . Ofrecen soluciones a desafíos como la privacidad de los datos y el tamaño limitado de los conjuntos de datos. Se estima que, para 2030, los datos sintéticos serán la opción preferida frente a los datos reales en los modelos de IA. 1
Enumeramos las capacidades y los casos de uso más comunes de los datos sintéticos en diferentes industrias y departamentos/unidades de negocio.
Casos de uso aplicables a cualquier sector
Compartir datos con terceros
Las alianzas con organizaciones externas, como empresas de tecnología financiera, empresas de tecnología médica o proveedores de la cadena de suministro, a menudo requieren acceso a información confidencial.
Los datos sintéticos permiten a las empresas evaluar el rendimiento de los proveedores y colaborar sin exponer datos regulados o confidenciales. Esto posibilita las pruebas, el entrenamiento de modelos y el desarrollo conjunto, manteniendo el cumplimiento de las leyes de protección de datos.
Intercambio interno de datos
En las grandes organizaciones, las normativas de privacidad y las restricciones de acceso pueden retrasar el intercambio interno de datos durante semanas. Los conjuntos de datos sintéticos pueden compartirse libremente entre departamentos como marketing, desarrollo de productos y operaciones sin riesgo de filtraciones ni violaciones de la privacidad. Esto acelera la innovación y facilita la experimentación frecuente.
migración a la nube
Los servicios en la nube ofrecen una amplia gama de productos innovadores para muchos sectores. Sin embargo, trasladar datos privados a infraestructuras en la nube conlleva riesgos de seguridad y cumplimiento normativo.
En algunos casos, trasladar versiones sintéticas de datos confidenciales a la nube permite a las organizaciones aprovechar las ventajas de los servicios en la nube. Sin embargo, esto no es posible en todos los casos.
Por ejemplo, en los sistemas de aprendizaje automático en la nube, se podrían usar datos sintéticos en lugar de datos reales. Sin embargo, no sería útil para el equipo de ventas tener datos sintéticos en su CRM ; deberían ver la información correcta del cliente, no información modificada.
Cumplimiento de la retención de datos
Las leyes de protección de datos limitan el tiempo que se puede almacenar la información personal. Los datos sintéticos permiten a las empresas mantener los patrones estadísticos de conjuntos de datos históricos para análisis de tendencias, estudios estacionales o detección de anomalías, sin conservar los registros originales que permiten identificar a los usuarios.
Para obtener una descripción general de las herramientas que ofrecemos, puede consultar nuestro artículo sobre herramientas de gobernanza de datos .
Finanzas
Identificación de fraude
Los casos de fraude son poco frecuentes, lo que dificulta su modelización. Los conjuntos de datos sintéticos pueden simular una amplia variedad de patrones fraudulentos, lo que permite entrenar y probar algoritmos de detección de fraude de forma más eficaz.
Para obtener más información sobre las tecnologías de detección de fraude, lea el artículo «Tecnologías que mejoran la detección del fraude en los seguros» .
Inteligencia del cliente
Los registros de transacciones sintéticas conservan las características estadísticas del comportamiento real del cliente, lo que permite a las instituciones financieras crear modelos de segmentación, evaluar el valor del cliente a lo largo de su vida útil o pronosticar la deserción, al tiempo que cumplen con normativas como el RGPD y la PCI DSS.
Consulte nuestro artículo para obtener más información sobre los casos de uso de datos sintéticos en finanzas .
Fabricación
Seguro de calidad
Los datos reales sobre defectos suelen ser limitados. Los conjuntos de datos de anomalías sintéticas permiten a los ingenieros probar los sistemas de inspección frente a una amplia gama de tipos de defectos, mejorando las tasas de detección y reduciendo los falsos negativos. Esto se aplica a la inspección visual, las lecturas de sensores y los flujos de datos de IoT.
Mantenimiento predictivo
Los datos sintéticos de los sensores pueden simular patrones de degradación de los equipos o señales de fallo. Esto ayuda a entrenar modelos de mantenimiento predictivo antes de que exista un historial de fallos real suficiente, lo que permite una implementación más temprana de los sistemas de monitorización.
Optimización de la cadena de suministro
Los conjuntos de datos sintéticos de demanda y logística pueden utilizarse para probar modelos de planificación de la cadena de suministro en diferentes escenarios de mercado, cambios estacionales o eventos disruptivos, sin exponer datos operativos reales.
Cuidado de la salud
Análisis de datos en el sector sanitario
Los datos sintéticos permiten a los profesionales de datos sanitarios autorizar el uso interno y externo de los registros médicos, manteniendo la confidencialidad del paciente. Esto es similar al caso de uso de "intercambio interno de datos", pero se aplica de forma más generalizada en el sector sanitario, donde la mayoría de los datos de los pacientes son privados. Esto también se conoce como analítica sanitaria.
Ensayos clínicos
Al iniciar un nuevo ensayo clínico, los investigadores suelen carecer de datos históricos suficientes para realizar simulaciones y análisis de referencia. Los conjuntos de datos sintéticos pueden ayudar a predecir resultados, planificar el reclutamiento de pacientes e identificar posibles patrones de eventos adversos antes de que comience la recopilación de datos reales.
Automoción y robótica
Los sistemas autónomos (AuT, por sus siglas en inglés) abarcan tecnologías como robots, drones y simulaciones de vehículos autónomos, que fueron pioneras en el uso de datos sintéticos. Esto se debe a que las pruebas reales de sistemas robóticos son costosas y lentas. Los datos sintéticos permiten a las empresas probar sus soluciones robóticas en miles de simulaciones, mejorando sus robots y complementando las costosas pruebas reales.
Pruebas de sistemas autónomos
Los entornos sintéticos simulan miles de escenarios de conducción u operación para vehículos autónomos, drones de reparto y robots de fabricación. Esto reduce los costos y acelera la validación de la seguridad antes de su implementación en campo.
Ejemplo adicional : Prueba de algoritmos de frenado de emergencia utilizando peligros viales poco frecuentes simulados (por ejemplo, animales cruzando la carretera, movimiento repentino de peatones).
Seguridad
Los datos sintéticos pueden utilizarse para proteger las propiedades online y offline de las organizaciones. Se suelen utilizar dos métodos:
Datos de entrenamiento para videovigilancia
Para aprovechar el reconocimiento de imágenes , las organizaciones necesitan crear y entrenar modelos de redes neuronales, pero esto presenta dos limitaciones: la adquisición de grandes volúmenes de datos y el etiquetado manual de los objetos. Los datos sintéticos pueden ayudar a entrenar modelos a un menor costo en comparación con la adquisición y anotación de datos de entrenamiento.
falsificaciones profundas
Los deepfakes, que se están convirtiendo en un tema cada vez más importante en la ciberseguridad de la IA , pueden utilizarse para probar los sistemas de reconocimiento facial.
Redes sociales
Las redes sociales están utilizando datos sintéticos para mejorar sus diversos productos:
Pruebas de sistemas de filtrado de contenido
Las redes sociales combaten las noticias falsas, el acoso en línea y la propaganda política de gobiernos extranjeros. Las pruebas con datos sintéticos garantizan que los filtros de contenido sean flexibles y puedan hacer frente a nuevos ataques.
Evaluación de la imparcialidad del algoritmo
Los perfiles de usuario sintéticos y los datos de interacción pueden ayudar a las plataformas a evaluar si los algoritmos de recomendación o moderación muestran sesgos hacia ciertos grupos demográficos, idiomas o puntos de vista sin procesar datos personales reales.
Pruebas de funcionalidades e interfaz de usuario
Los conjuntos de datos de comportamiento sintéticos permiten a las plataformas sociales probar nuevas funciones (por ejemplo, la clasificación de las publicaciones, la ordenación de comentarios) bajo cargas de tráfico, patrones de clics y distribuciones de participación realistas, sin necesidad de realizar experimentos arriesgados en tiempo real con usuarios reales.
Simulación de segmentación de anuncios
Los datos sintéticos de audiencia pueden replicar patrones demográficos y de comportamiento, lo que permite a los anunciantes y operadores de plataformas probar modelos de segmentación, algoritmos de asignación de presupuesto y estrategias de optimización de campañas, al tiempo que cumplen con las leyes de privacidad como el RGPD y la CCPA.
Desarrollo ágil y DevOps
Generación de datos de prueba
Para las pruebas de software y el control de calidad , los datos generados artificialmente suelen ser la mejor opción, ya que eliminan la necesidad de esperar a obtener datos "reales". En estas circunstancias, se les suele denominar "datos de prueba". Esto puede, en última instancia, reducir el tiempo de prueba y aumentar la flexibilidad y la agilidad durante el desarrollo.
HORA
Simulación de datos de empleados
Las bases de datos de empleados de las empresas contienen información confidencial y suelen estar protegidas por normativas de privacidad de datos. Si bien los equipos de datos internos y las entidades externas pueden no tener acceso a estas bases de datos, pueden utilizar datos sintéticos de empleados para realizar análisis. Esto puede ayudar a las empresas a optimizar sus procesos de recursos humanos.
Marketing
simulación del comportamiento del cliente
Los datos sintéticos permiten a los departamentos de marketing realizar simulaciones detalladas a nivel individual para optimizar su inversión en marketing. Estas simulaciones no estarían permitidas sin el consentimiento del usuario, de acuerdo con el RGPD. Sin embargo, los datos sintéticos, que reproducen las propiedades de los datos reales, pueden utilizarse de forma fiable en simulaciones.
IA conversacional
Los datos sintéticos generados con IA generativa pueden servir de apoyo al entrenamiento de sistemas de IA conversacional mediante la creación de ejemplos de diálogo realistas que reflejan el lenguaje específico del dominio, las diferentes intenciones del usuario y los casos excepcionales. Este enfoque ayuda a paliar la limitada disponibilidad de transcripciones de conversaciones reales, evitando al mismo tiempo problemas de privacidad.
Al ampliar los conjuntos de datos de entrenamiento con escenarios de diálogo personalizados, los datos sintéticos pueden mejorar la capacidad de un modelo para comprender diversas solicitudes, responder con precisión y gestionar interacciones complejas de múltiples turnos.
Aprendizaje automático
Aumento de datos de entrenamiento
Los datos sintéticos amplían el conjunto de datos disponible al crear muestras realistas y estadísticamente precisas que reflejan la distribución de los datos del mundo real. Esto resulta especialmente valioso al entrenar modelos de IA que presentan desequilibrio de clases o cuando la recopilación de datos reales es demasiado costosa, requiere mucho tiempo o está sujeta a restricciones legales.
Al incluir variaciones adicionales en el conjunto de datos, como cambios de iluminación en la visión artificial o variaciones de ruido en el audio, los modelos se vuelven más resistentes a los cambios ambientales y a las entradas inesperadas.
Simulación de eventos raros
Muchos modelos de IA tienen un rendimiento inferior al predecir eventos poco frecuentes, ya que estos eventos están mal representados en los conjuntos de datos reales. Los datos sintéticos solucionan este problema generando numerosos ejemplos realistas de dichos eventos raros, conservando sus propiedades estadísticas y contextuales.
Este enfoque permite que los modelos "experimenten" y aprendan de escenarios que quizás nunca encontrarían durante el entrenamiento tradicional, lo que conlleva una mayor capacidad de recordar y una mejor preparación para situaciones críticas como la detección de fraudes, la predicción de fallos en los equipos o la planificación de la respuesta ante emergencias.
Etiquetado automático de datos
El etiquetado manual de datos suele ser una de las etapas más costosas y que más tiempo consume en el desarrollo de la IA, especialmente para tareas como la detección de objetos o el reconocimiento de voz. La generación de datos sintéticos puede incluir la asignación automática de etiquetas durante el proceso de creación.
Esto elimina los errores de anotación humana, acelera el desarrollo de modelos y permite a los equipos crear conjuntos de datos grandes y etiquetados con precisión, adaptados a necesidades empresariales específicas, ya sea para detectar anomalías en la fabricación, reconocer entidades en documentos legales o identificar objetos en imágenes aéreas.
El futuro de los datos sintéticos
Los datos sintéticos están adquiriendo cada vez más importancia en muchos sectores. Se trata de datos artificiales generados por ordenador que se asemejan a datos reales, pero que no incluyen información personal. Esta característica los hace útiles en situaciones donde la privacidad, el coste o el acceso a datos reales representan un desafío.
Actualmente, muchas empresas utilizan datos sintéticos para entrenar modelos de aprendizaje automático. Por ejemplo, sectores como la sanidad, las finanzas, la conducción autónoma y el comercio minorista los emplean para probar nuevos sistemas sin exponer datos personales ni incurrir en limitaciones legales.
Figura 1: Popularidad de los datos sintéticos
Entre las razones por las que los datos sintéticos muestran una tendencia se incluyen:
- Riesgos legales y de privacidad asociados a los datos reales: Las nuevas normativas dificultan el intercambio de datos reales. Los datos sintéticos evitan estas limitaciones de privacidad, ya que no contienen información personal real.
- Escasez y coste de los datos: Los conjuntos de datos reales pueden ser pequeños, incompletos o costosos de recopilar y etiquetar. Los datos sintéticos se pueden crear bajo demanda, lo que permite cubrir las carencias y reducir los costes.
- Apoyo a la innovación en IA: Los grandes sistemas de IA necesitan conjuntos de datos amplios y variados. Los analistas predicen un gran aumento en el uso de datos sintéticos, y se espera que muchas empresas los adopten para 2026.
Para 2026, muchas organizaciones generarán datos sintéticos de clientes o de entrenamiento para la IA. Un informe del sector estima que hasta el 75 % de las empresas utilizarán herramientas de IA generativa para producir datos sintéticos. 2
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.