What is synthetic data?

Synthetic data is artificial data created by using different algorithms that mirror the statistical properties of the original data but do not reveal any information regarding real-world events or people.For example, data produced by computer simulations would qualify as synthetic data. This includes applications like music synthesizers, medical imaging, economic models, and flight simulators, where the outputs mimic real-world phenomena but are entirely generated through algorithms.

In what fields is synthetic data commonly used?

Synthetic data is widely used in healthcare, finance, autonomous vehicles, gaming, cybersecurity, and any field where data privacy is crucial or real data is scarce or biased.

What are the limitations of synthetic data?

Limitations include potential inaccuracies if the synthetic data doesn't accurately reflect real-world complexities, the risk of introducing bias, and the need for sophisticated algorithms and expertise to generate high-quality synthetic data.

How does synthetic data relate to data privacy regulations like GDPR?

Synthetic data can help comply with data privacy regulations like GDPR by ensuring that the data used for analysis or AI training doesn't contain personally identifiable information. However, compliance also depends on the methodology used to generate the synthetic data.

Can synthetic data replace real data?

While synthetic data can supplement real data in many scenarios, especially where privacy or data scarcity is a concern, it's not always a complete replacement. The decision to use synthetic versus real data depends on the specific use case, the quality of the synthetic data, and the criticality of accuracy.

Datos Datos sintéticos

Prueba de rendimiento para la generación de datos sintéticos

Cem Dilmegani

actualizado el Feb 5, 2026

Vea nuestra normas éticas

Realizamos una prueba comparativa con 7 generadores de datos sintéticos disponibles públicamente, procedentes de 4 proveedores distintos, utilizando un conjunto de datos de validación que comprende 70.000 muestras, con 4 características numéricas y 7 categóricas, para evaluar su rendimiento a la hora de replicar las características de los datos del mundo real.

A continuación, puede ver los resultados de la prueba comparativa, donde comparamos estadísticamente los generadores de datos sintéticos.

Loading Chart

El gráfico anterior evalúa el rendimiento de varios sintetizadores de datos sintéticos utilizando diversas métricas clave. En todas las métricas, un valor menor indica un mejor rendimiento, lo que significa que los datos sintéticos son más similares a los datos reales.

Para cada métrica, el gráfico muestra dos barras distintas:

Promedio: Representa el error promedio o la puntuación de distancia promedio en todas las columnas para esa métrica. Proporciona una buena visión general del rendimiento general.
Máximo: Representa el peor caso de error o distancia encontrado en cualquier columna individual para esa métrica. Este valor es crucial para identificar los puntos más débiles o las mayores imprecisiones en el conjunto de datos sintéticos.

Puedes encontrar información más detallada sobre las métricas en la metodología . Descubre para qué son más útiles:

¿Por qué son importantes los datos sintéticos para las empresas?

Los datos sintéticos son importantes para las empresas por tres razones:

privacidad,
pruebas de productos,
y el entrenamiento de algoritmos de aprendizaje automático.

Los líderes de la industria también comenzaron a debatir la importancia de los enfoques centrados en los datos para el desarrollo de modelos de IA/ML, a los que los datos sintéticos pueden aportar un valor significativo.

La generación de datos sintéticos es fundamental para garantizar la calidad de los datos , especialmente para preservar la privacidad. Por diseño, los datos sintéticos imitan las propiedades estadísticas de los datos reales sin exponer información sensible. Sin embargo, si es posible reconstruir el conjunto de datos original mediante ingeniería inversa, se socava su propósito fundamental de proteger la privacidad.

Los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) se encuentran entre los mayores productores de datos sintéticos. Numerosos sistemas de evaluación comparativa para los LLM de última generación (SOTA, por sus siglas en inglés) se basan en estos modelos para generar casos de prueba que permitan evaluar otros LLM. Además, los propios LLM suelen entrenarse con datos sintéticos, aprovechando la diversidad y la escala de los conjuntos de datos artificiales para mejorar su rendimiento.

Como en la mayoría de los temas relacionados con la IA, el aprendizaje profundo es fundamental para la generación de datos sintéticos. Los datos sintéticos creados mediante algoritmos de aprendizaje profundo también se utilizan para mejorar otros algoritmos de aprendizaje profundo.

¿Cuándo se utilizan datos sintéticos?

Las empresas se enfrentan a un dilema entre la privacidad y la utilidad de los datos al seleccionar una tecnología que mejore la privacidad. Por lo tanto, deben determinar las prioridades de su caso de uso antes de invertir. Los datos sintéticos no contienen información personal; son datos de muestra con una distribución similar a la de los datos originales.

Si bien los datos sintéticos pueden ser menos útiles que los datos reales en algunos casos, también pueden ser casi tan valiosos. Por ejemplo, un equipo de Deloitte Consulting generó el 80 % de los datos de entrenamiento para un modelo de aprendizaje automático mediante síntesis de datos. La precisión del modelo resultante fue similar a la de un modelo entrenado con datos reales.

La generación de datos sintéticos puede ayudar a construir modelos de aprendizaje automático precisos, especialmente cuando las empresas necesitan datos para entrenar algoritmos de aprendizaje automático y sus datos de entrenamiento están muy desequilibrados (por ejemplo, más del 99 % de las instancias pertenecen a una sola clase).

Consulte la lista de casos de uso de datos sintéticos .

¿Cómo generan las empresas datos sintéticos?

Figura 1. Diagrama de flujo que ilustra el proceso de generación de datos sintéticos, incluyendo la evaluación de la utilidad y la garantía de privacidad.

Fuente: Hasbrown ¹

Las empresas pueden preferir diferentes métodos, como los árboles de decisión , ² técnicas de aprendizaje profundo y ajuste proporcional iterativo ³ para ejecutar el proceso de síntesis de datos. Deben elegir el método de acuerdo con los requisitos de los datos sintéticos y el nivel de utilidad de los datos que se desea para el propósito específico de la generación de datos.

Tras la síntesis de datos, deben evaluar la utilidad de los datos sintéticos comparándolos con datos reales. El proceso de evaluación de la utilidad consta de dos etapas:

Comparaciones de propósito general : Comparar parámetros como distribuciones y coeficientes de correlación medidos a partir de los dos conjuntos de datos.
Evaluación de utilidades teniendo en cuenta la carga de trabajo : comparación de la precisión de los resultados para el caso de uso específico mediante el análisis de datos sintéticos.

¿Cuáles son las técnicas de generación de datos sintéticos?

Generando según la distribución

En los casos en que no se dispone de datos reales, pero el analista de datos comprende a fondo cómo sería la distribución del conjunto de datos, puede generar una muestra aleatoria de cualquier distribución, como la normal, exponencial, chi-cuadrado, t, lognormal o uniforme. En esta técnica, la utilidad de los datos sintéticos varía según el grado de conocimiento del analista sobre el entorno de datos específico.

Ajuste de datos reales a una distribución conocida

Si se dispone de datos reales, las empresas pueden generar datos sintéticos determinando las distribuciones que mejor se ajustan a dichos datos. Si desean ajustar datos reales a una distribución conocida y conocen sus parámetros, pueden utilizar el método de Monte Carlo para generar datos sintéticos. Este método es una técnica computacional que emplea muestreo aleatorio y modelado estadístico para resolver problemas que, si bien pueden ser deterministas en principio, resultan demasiado complejos para soluciones analíticas directas. Los pasos son:

Definir el problema : Especifique el problema que se va a resolver, que a menudo implica parámetros con distribuciones conocidas o supuestas.
Generar entradas aleatorias : Utilice la generación de números aleatorios para crear entradas, a menudo basadas en una distribución de probabilidad.
Ejecutar el modelo : Realizar simulaciones utilizando estos datos de entrada para evaluar el resultado del sistema o proceso.
Resultados agregados : Recopile los resultados de todas las simulaciones y calcule medidas estadísticas como promedios, varianzas o probabilidades.

El método de Monte Carlo ayuda a encontrar el mejor ajuste para datos sintéticos, pero no siempre satisface las necesidades del negocio. Los modelos de aprendizaje automático, como los árboles de decisión, pueden modelar distribuciones complejas y no clásicas en estos casos. Esto permite que la generación de datos sintéticos tenga una alta correlación con los datos originales. Sin embargo, los modelos de aprendizaje automático corren el riesgo de sobreajustarse, lo que puede reducir su capacidad de generalización y de predecir observaciones futuras de forma fiable.

Las empresas pueden utilizar la generación híbrida de datos sintéticos en los casos en que solo existe una parte de los datos reales. En este caso, los analistas generan una parte del conjunto de datos a partir de distribuciones teóricas y generan las demás partes basándose en datos reales.

Utilizando el aprendizaje profundo

Los modelos generativos profundos, como el autoencoder variacional (VAE) y la red generativa antagónica (GAN), pueden generar datos sintéticos.

Autoencoder variacional

VAE es un método no supervisado en el que el codificador comprime el conjunto de datos original en una estructura más compacta y transmite los datos al decodificador. A continuación, el decodificador genera una salida que representa el conjunto de datos original. El sistema se entrena optimizando la correlación entre los datos de entrada y salida.

Figura 2. Estructura codificador-decodificador para el aprendizaje del espacio latente y la generación de contenido.

Fuente: Explicación detallada de las tecnologías centrales de la IA generativa: de las GAN a los Transformers ⁴

Red generativa antagónica

En el modelo GAN, dos redes, un generador y un discriminador, entrenan el modelo de forma iterativa. El generador toma datos de muestra aleatorios y crea un conjunto de datos sintéticos. El discriminador compara los datos sintéticos con un conjunto de datos reales según condiciones predefinidas.

Figura 3. Proceso de entrenamiento de la GAN: generador, discriminador y ajuste fino.

Fuente: Red generativa antagónica ⁵

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

¿Cómo se generan datos sintéticos en Python?

En Python existen varias formas de generar datos sintéticos para tareas sencillas, y con un poco de esfuerzo, estos métodos también pueden adaptarse para tareas complejas.

1. Generación básica de datos aleatorios usando NumPy

2. Generación de datos con distribuciones específicas mediante NumPy

3. Generación de datos realistas utilizando la biblioteca faker

4. Generación de datos para clasificación y regresión utilizando scikit-learn

¿Cuáles son las mejores prácticas para la generación de datos sintéticos?

Figura 4. Mejores prácticas para la generación de datos sintéticos.

1-Asegúrese de que los datos sintéticos reflejen los datos reales de la aplicación.

La utilidad de los datos sintéticos varía según la técnica empleada para generarlos. Es necesario analizar su caso de uso y determinar si los datos sintéticos generados se ajustan a dicho caso específico.

Ejemplo de la vida real:
JP Morgan ha aplicado datos sintéticos en finanzas para generar modelos financieros precisos, protegiendo al mismo tiempo la privacidad de sus clientes. Su enfoque incluye probar los datos sintéticos para garantizar que reflejen las características reales de sus conjuntos de datos financieros. Esto es especialmente importante al usar datos sintéticos para entrenar algoritmos de detección de fraude, donde estos deben comportarse como transacciones reales para identificar patrones fraudulentos. ⁶

2-Trabajar con datos limpios

La limpieza de datos es un requisito esencial para la generación de datos sintéticos. Si no se limpian y preparan los datos antes de la síntesis, se puede producir un resultado erróneo. Durante el proceso de preparación de datos, asegúrese de aplicar los siguientes principios:

Limpieza de datos : Eliminar datos inexactos, con formato incorrecto, redundantes o incompletos de un conjunto de datos.
Armonización de datos: Sintetizar datos de diversas fuentes y proporcionar a los clientes una comprensión comparable de la información procedente de distintas investigaciones.

Ejemplo de la vida real:

El Instituto de Informática, Ciencia de Datos y Bioestadística (I2DB) de la Universidad de Washington en San Luis adoptó la plataforma MDClone en 2018. Mediante un estudio pionero, confirmaron que los datos sintéticos pueden generar los mismos resultados analíticos que los datos reales, preservando además la privacidad. Esta iniciativa forma parte de la estrategia general de la universidad para potenciar la investigación basada en datos, proporcionando recursos seguros e innovadores a la comunidad académica. ⁷

Antes de crear datos sintéticos, se limpian los historiales clínicos de los pacientes, lo que implica eliminar errores y duplicados y garantizar la coherencia de los datos. Al limpiar y armonizar los historiales clínicos electrónicos (HCE) de diferentes departamentos, MDClone garantiza que las versiones sintéticas de estos historiales conserven la utilidad de los datos reales para la investigación médica, al tiempo que protegen la privacidad del paciente.

3- Recurrir a los proveedores si es necesario

Identifique las capacidades de su organización en materia de datos sintéticos y externalice el servicio según las deficiencias detectadas. Los dos pasos clave son la preparación y la síntesis de datos. Los proveedores pueden automatizar ambos procesos.

4. Asegurarse de que los datos sintéticos cumplan con las normas de privacidad.

Al generar datos sintéticos, es fundamental garantizar la privacidad de las personas cuyos datos se utilizan para crear el conjunto de datos sintéticos. El cumplimiento de las normativas de protección de datos, como el RGPD (Reglamento General de Protección de Datos), la Ley de IA de la UE y la HIPAA, es obligatorio. Los datos sintéticos deben estar completamente desvinculados de cualquier persona real y no debe existir forma de rastrearlos hasta los registros originales.

Los conjuntos de datos reales suelen contener información sensible, especialmente en los sectores de la salud, las finanzas y las telecomunicaciones. Si se generan datos sintéticos sin medidas de privacidad rigurosas, esto podría acarrear consecuencias legales y problemas de confianza para los clientes. Los datos sintéticos ya no son un tema ambiguo y deben etiquetarse y documentarse conforme a la Ley de IA de la UE (en vigor desde agosto de 2026). ⁸

Estudio de caso:

Algunas herramientas de generación de datos sintéticos, como Synthesized, facilitan el cumplimiento normativo en tiempo real. Utilizan un enfoque de "datos como código", que permite a las empresas incorporar reglas de cumplimiento complejas directamente en el proceso de generación de datos. Esto garantiza automáticamente que los datos de prueba estén actualizados y cumplan con todos los requisitos legales. ⁹

5-Mitigación de sesgos

La generación de datos sintéticos debe procurar evitar la introducción o la perpetuación de sesgos presentes en los conjuntos de datos reales. Esto implica monitorear posibles sesgos en atributos como la raza, el género o el estatus socioeconómico, que podrían generar resultados discriminatorios si no se controlan. La mitigación de sesgos es fundamental para garantizar modelos justos y equitativos.

Los datos sesgados dan lugar a modelos sesgados, lo que a su vez puede perpetuar las desigualdades sociales. Por ejemplo, una herramienta de contratación basada en IA entrenada con datos sesgados podría rechazar desproporcionadamente a candidatos de ciertos grupos demográficos. Garantizar que los datos sintéticos sean equilibrados e imparciales contribuye al desarrollo de modelos de IA más justos.

Metodología de referencia para la generación de datos sintéticos

Realizamos una prueba comparativa para evaluar el rendimiento de 7 generadores de datos sintéticos disponibles públicamente utilizando un conjunto de datos de validación. Este conjunto de datos consta de 70 000 muestras e incluye 4 características numéricas y 7 categóricas.

Preparación de datos

El conjunto de datos se homogeneizó primero, lo que significa que las distribuciones de las características fueron consistentes en todo el conjunto de datos, eliminando la necesidad de un preprocesamiento adicional, como la normalización o el manejo de valores faltantes. Para preparar los datos para el entrenamiento y la evaluación, realizamos los siguientes pasos:

Barajado : El conjunto de datos se barajó aleatoriamente para garantizar que los puntos de datos estuvieran distribuidos uniformemente y para evitar cualquier sesgo de ordenación.

División : El conjunto de datos aleatorizado se dividió aproximadamente en dos mitades iguales:
- Datos de entrenamiento: Se utilizaron 35.000 muestras para entrenar a los generadores de datos sintéticos.
- Datos de reserva: 35.000 muestras reservadas para su evaluación, con el fin de valorar la calidad de los datos sintéticos generados comparándolos con datos reales no vistos previamente.

Dado que el conjunto de datos estaba homogeneizado, las distribuciones de características en los conjuntos de entrenamiento y de validación eran similares, lo que garantizaba una comparación justa.

Entrenamiento de generadores de datos sintéticos

Seleccionamos 7 generadores de datos sintéticos para esta prueba comparativa: YData, Mostly AI, Gretel y 4 generadores de Synthetic Data Vault. El proceso de entrenamiento para cada generador fue el siguiente:

SDV y YData : Utilizamos los SDK y los modelos proporcionados por SDV y YData, configurados con sus ajustes predeterminados para garantizar la coherencia y la reproducibilidad.
Principalmente IA y Gretel : Estos generadores fueron entrenados utilizando sus plataformas, con la configuración recomendada por los proveedores.

Cada generador fue entrenado exclusivamente con los datos de entrenamiento (35.000 muestras) para generar conjuntos de datos sintéticos que imitan las características de los datos reales.

Evaluación

Tras el entrenamiento, cada generador de datos sintéticos produjo un conjunto de datos sintéticos. Evaluamos la calidad de estos conjuntos de datos sintéticos comparándolos con los datos de entrenamiento (para evaluar qué tan bien los generadores capturaron la distribución de entrenamiento) y con los datos de validación (para evaluar la generalización a datos no vistos).

Evaluamos la calidad de los datos sintéticos utilizando tres métricas:

Distancia de correlación (Δ)

Mide la diferencia absoluta entre las matrices de correlación de características numéricas en conjuntos de datos reales y sintéticos, evaluando qué tan bien se conservan las relaciones (por ejemplo, entre el tamaño de la vivienda y el consumo de energía).

Escala: de 0 (perfecto) a 1 (peor).
Propósito: Garantiza que se mantengan las relaciones estructurales, algo vital para tareas como la regresión.

Distancia Kolmogorov-Smirnov (K)

Mide la diferencia máxima entre las funciones de distribución acumulativa (FDA) de características numéricas, evaluando qué tan bien se capturan sus distribuciones marginales (por ejemplo, la distribución de las edades de los clientes).

Rango: 0 (idéntico) a 1 (completamente diferente).
Objetivo: Garantizar distribuciones numéricas realistas, que son cruciales para simulaciones o análisis estadísticos.

Distancia de variación total (TVD)

Mide la diferencia entre las distribuciones de probabilidad de las características categóricas, calculada como la mitad de la suma de las diferencias absolutas (por ejemplo, la distribución de las regiones de clientes).

Rango: 0 (idéntico) a 1 (completamente diferente).
Objetivo: Evalúa la eficacia con la que se capturan las distribuciones categóricas, algo importante para tareas como la clasificación.

Evaluación basada en modelos

Las métricas estadísticas ofrecen una primera aproximación útil a la calidad de los datos sintéticos. Sin embargo, no son suficientes por sí solas. La evaluación más significativa se basa en modelos y se centra en el rendimiento de los datos sintéticos en escenarios de entrenamiento reales. En otras palabras, la pregunta clave es si los datos sintéticos mejoran el rendimiento del modelo.

Configuración de evaluación

Evaluamos datos sintéticos generados con la configuración predeterminada de cada sintetizador. Nuestro análisis se centró en dos aspectos:

Sobreajuste , para comprobar si los datos sintéticos eran demasiado similares a los datos de entrenamiento originales.
Utilidad práctica , medida a través del rendimiento del modelo durante el entrenamiento.

Resultados del aumento de datos

Comprobamos si añadir datos sintéticos al conjunto de entrenamiento podía mejorar la precisión. Los datos sintéticos se añadieron de forma incremental, desde el 10 % hasta el 100 % del tamaño original del conjunto de entrenamiento.

En todos los casos, la precisión del modelo disminuyó. Incluso la adición más pequeña (10 %) provocó una caída en el rendimiento. A medida que se añadían más datos sintéticos, la disminución se hacía más pronunciada. Este patrón indica que los datos sintéticos introdujeron ruido adicional en el proceso de entrenamiento.

Impacto de la calidad de los datos

La magnitud de la caída del rendimiento dependió de la calidad de los datos sintéticos. Los sintetizadores con tasas de error de referencia más bajas introdujeron menos ruido y provocaron reducciones menores en la precisión. Esto sugiere que los datos sintéticos de mayor calidad pueden mitigar, pero no eliminar por completo, los efectos negativos observados en nuestras pruebas.

Limitaciones y consideraciones prácticas

No presentamos resultados de rendimiento para los modelos entrenados con conjuntos de datos aumentados. Estos modelos se entrenaron con configuraciones predeterminadas, sin ajuste de hiperparámetros. Dado que la implementación en entornos reales requiere una optimización cuidadosa del modelo, incluir dichos resultados no proporcionaría una comparación justa ni realista.

Conclusiones clave

En las evaluaciones basadas en modelos, especialmente al combinar datos reales y sintéticos, el volumen de datos sintéticos es crucial. Un exceso de datos sintéticos puede enmascarar la señal de los datos reales y reducir la eficacia del aprendizaje. Sin una optimización y personalización cuidadosas, esto puede llevar a conclusiones erróneas sobre el verdadero valor de los datos sintéticos.

Posibles razones detrás de las diferencias de rendimiento

Enfoque estadístico: YData se centra en maximizar la fidelidad estadística, lo que explica su mayor precisión general. Los modelos SDV varían según la técnica (cópula frente a GAN), lo que genera mayores diferencias de rendimiento y errores máximos más elevados.
Facilidad de uso frente a control: MOSTLY AI prioriza la usabilidad y la automatización, sacrificando cierto control estadístico preciso a cambio de una configuración más rápida. Gretel, en cambio, se centra en la personalización, que puede mejorar los resultados al ajustarla, pero su rendimiento es inferior con la configuración predeterminada.
Arquitectura: Los modelos basados en cópulas preservan mejor las distribuciones y correlaciones para datos tabulares, mientras que los modelos basados en GAN (CTGAN, CopulaGAN) introducen más varianza, lo que aumenta el error en algunas características.
Configuraciones predeterminadas: Todas las herramientas se probaron con la configuración predeterminada. Los generadores diseñados para la personalización se benefician más de la optimización, lo que explica en parte sus resultados de referencia menos favorables sin ajustes adicionales.

Preguntas frecuentes

Los datos sintéticos son datos artificiales creados mediante el uso de diferentes algoritmos que imitan las propiedades estadísticas de los datos originales, pero que no revelan ninguna información sobre eventos o personas del mundo real.
Por ejemplo, los datos generados por simulaciones informáticas se considerarían datos sintéticos. Esto incluye aplicaciones como sintetizadores musicales, imágenes médicas, modelos económicos y simuladores de vuelo, donde los resultados imitan fenómenos del mundo real, pero se generan completamente mediante algoritmos.

Los datos sintéticos se utilizan ampliamente en la atención médica, las finanzas, los vehículos autónomos, los videojuegos, la ciberseguridad y cualquier campo donde la privacidad de los datos sea crucial o donde los datos reales sean escasos o estén sesgados.

Entre las limitaciones se incluyen las posibles imprecisiones si los datos sintéticos no reflejan con precisión las complejidades del mundo real, el riesgo de introducir sesgos y la necesidad de algoritmos sofisticados y conocimientos especializados para generar datos sintéticos de alta calidad.

Los datos sintéticos pueden ayudar a cumplir con las normativas de privacidad de datos, como el RGPD, al garantizar que los datos utilizados para el análisis o el entrenamiento de la IA no contengan información que permita identificar personalmente a los usuarios. Sin embargo, el cumplimiento también depende de la metodología utilizada para generar los datos sintéticos.

Si bien los datos sintéticos pueden complementar los datos reales en muchos casos, especialmente cuando la privacidad o la escasez de datos son un factor importante, no siempre los reemplazan por completo. La decisión de usar datos sintéticos o reales depende del caso de uso específico, la calidad de los datos sintéticos y la importancia de la precisión.

Enlaces de referencia

Data Anonymization | The Hashbrown Blog

https://en.wikipedia.org/wiki/Decision_tree_learning

https://en.wikipedia.org/wiki/Iterative_proportional_fitting

生成式AI核心技术详解：从GANs到Transformers-腾讯云开发者社区-腾讯云

Generative Adversarial Network. Basics of GAN | by DARSHAN DILIPBHAI PATEL | Medium

Medium

Generating synthetic data in finance: opportunities, challenges and pitfalls

MDClone 101 | Informatics, Data Science & Biostatistics | Washington University in St. Louis

Production-like test data - Synthesized

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo

Comentarios 2

Comparte tus ideas

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

Jaiber

Dec 15, 2020 at 15:50

It is SimPy not SymPy - the two are very different..

Cem Dilmegani

Dec 19, 2020 at 06:44

Hi Jaiber, thank you for your comment, we also notice a lot of typos on the web. However, we had mentioned above that SymPy can help generate synthetic data with symbolic expressions, I clarified the wording a bit more. That seems correct to me. I believe you mean that SimPy discrete event simulation can be used to create synthetic data, too, right? If you have an example, happy to add, too.

Shams

Oct 06, 2020 at 19:09

How I can generate synthetic data given that I want the data on the tail to follow a specific distribution and data on the head of follows a different distribution?

Cem Dilmegani

Oct 07, 2020 at 05:31

You could combine distributions to create a single distribution which you can use for data generation.