Os dados sintéticos estão ganhando popularidade e aplicabilidade em diversos setores, incluindo aprendizado de máquina, aprendizado profundo e IA generativa (GenAI) . Eles oferecem soluções para desafios como preocupações com a privacidade dos dados e tamanhos limitados de conjuntos de dados. Estima-se que, até 2030, os dados sintéticos serão preferidos aos dados reais em modelos de IA. 1
Listamos as funcionalidades e os casos de uso mais comuns de dados sintéticos em diferentes setores e departamentos/unidades de negócios.
casos de uso independentes do setor
Compartilhamento de dados com terceiros
Parcerias com organizações terceirizadas, como fintechs, empresas de tecnologia médica ou fornecedores da cadeia de suprimentos, frequentemente exigem acesso a informações confidenciais.
Os dados sintéticos permitem que as empresas avaliem o desempenho de fornecedores e colaborem sem expor dados regulamentados ou confidenciais. Isso possibilita testes, treinamento de modelos e desenvolvimento conjunto, mantendo a conformidade com as leis de proteção de dados.
Compartilhamento interno de dados
Em grandes organizações, as normas de privacidade e as restrições de acesso podem atrasar o compartilhamento interno de dados por semanas. Conjuntos de dados sintéticos podem ser compartilhados livremente entre departamentos como marketing, desenvolvimento de produtos e operações, sem risco de vazamentos ou violações de privacidade. Isso acelera a inovação e facilita a experimentação com mais frequência.
Migração para a nuvem
Os serviços em nuvem oferecem uma gama de produtos inovadores para diversos setores. No entanto, a migração de dados privados para infraestruturas em nuvem envolve riscos de segurança e conformidade.
Em alguns casos, migrar versões sintéticas de dados sensíveis para a nuvem pode permitir que as organizações aproveitem os benefícios dos serviços em nuvem. Isso não é possível para todos os casos de uso.
Por exemplo, em pipelines de aprendizado de máquina na nuvem, dados sintéticos poderiam ser usados em vez de dados reais. No entanto, não seria útil para a equipe de vendas ter dados sintéticos em seu CRM ; eles deveriam ver as informações corretas do cliente, não informações modificadas.
Conformidade com a retenção de dados
As leis de proteção de dados limitam o tempo de armazenamento de informações pessoais. Os dados sintéticos permitem que as empresas mantenham os padrões estatísticos de conjuntos de dados históricos para análise de tendências, estudos sazonais ou detecção de anomalias, sem conservar os registros originais que permitem a identificação do indivíduo.
Você pode consultar nosso artigo sobre ferramentas de governança de dados para obter uma visão geral das ferramentas oferecidas.
Financiar
Identificação de fraudes
Os casos de fraude são raros, o que dificulta sua modelagem. Conjuntos de dados sintéticos podem simular uma ampla variedade de padrões fraudulentos, permitindo que algoritmos de detecção de fraudes sejam treinados e testados com mais eficácia.
Para obter mais informações sobre tecnologias de detecção de fraudes, leia Tecnologias que aprimoram a detecção de fraudes em seguros .
Inteligência do cliente
Os registros de transações sintéticas preservam as características estatísticas do comportamento real do cliente, permitindo que as instituições financeiras criem modelos de segmentação, avaliem o valor do ciclo de vida do cliente ou prevejam a rotatividade de clientes, mantendo-se em conformidade com regulamentações como GDPR e PCI DSS.
Consulte nosso artigo para obter mais informações sobre os casos de uso de dados sintéticos em finanças .
Fabricação
Garantia de qualidade
Os dados reais sobre defeitos são frequentemente limitados. Conjuntos de dados sintéticos de anomalias permitem que os engenheiros testem sistemas de inspeção contra uma ampla gama de tipos de defeitos, melhorando as taxas de detecção e reduzindo os falsos negativos. Isso se aplica à inspeção visual, leituras de sensores e fluxos de dados da IoT.
Manutenção preditiva
Dados sintéticos de sensores podem simular padrões de degradação de equipamentos ou sinais de falha. Isso ajuda a treinar modelos preditivos de manutenção antes que haja um histórico suficiente de falhas reais, permitindo a implantação mais rápida de sistemas de monitoramento.
Otimização da cadeia de suprimentos
Conjuntos de dados sintéticos de demanda e logística podem ser usados para testar modelos de planejamento da cadeia de suprimentos em diferentes cenários de mercado, variações sazonais ou eventos de interrupção, sem expor dados operacionais reais.
Assistência médica
Análises de dados na área da saúde
Os dados sintéticos permitem que os profissionais de dados da área da saúde autorizem o uso interno e externo de registros médicos, mantendo a confidencialidade do paciente. Isso é semelhante ao caso de uso de "compartilhamento interno de dados", porém é aplicável de forma mais ampla na área da saúde, onde a maioria dos dados do cliente é privada. Isso também é conhecido como análise de dados em saúde.
Ensaios clínicos
Ao iniciar um novo ensaio clínico, os pesquisadores frequentemente não dispõem de dados históricos suficientes para simulação e análise de linha de base. Conjuntos de dados sintéticos podem auxiliar na previsão de resultados, no planejamento do recrutamento de pacientes e na identificação de potenciais padrões de eventos adversos antes do início da coleta de dados no mundo real.
Automotivo e robótica
O conceito de "Coisas Autônomas" (AuT, na sigla em inglês), que engloba tecnologias como robôs, drones e simulações de carros autônomos, foi pioneiro no uso de dados sintéticos. Isso se deve ao fato de que os testes de sistemas robóticos em situações reais são caros e demorados. Os dados sintéticos permitem que as empresas testem suas soluções robóticas em milhares de simulações, aprimorando seus robôs e complementando os dispendiosos testes em situações reais.
Testes de sistemas autônomos
Ambientes sintéticos simulam milhares de cenários de condução ou operação para carros autônomos, drones de entrega e robôs de manufatura. Isso reduz custos e acelera a validação de segurança antes da implantação em campo.
Exemplo adicional : Testar algoritmos de frenagem de emergência usando simulações de perigos raros na estrada (por exemplo, animais atravessando, movimento repentino de pedestres).
Segurança
Dados sintéticos podem ser usados para proteger os ativos online e offline das organizações. Dois métodos são comumente utilizados:
Dados de treinamento para videovigilância
Para tirar proveito do reconhecimento de imagem , as organizações precisam criar e treinar modelos de redes neurais, mas isso apresenta duas limitações: a aquisição de grandes volumes de dados e a etiquetagem manual dos objetos. Dados sintéticos podem ajudar a treinar modelos a um custo menor em comparação com a aquisição e anotação de dados de treinamento.
Deep fakes
Os deepfakes, que estão se tornando um tópico cada vez mais importante na cibersegurança da IA , podem ser usados para testar sistemas de reconhecimento facial.
Mídias sociais
As redes sociais estão utilizando dados sintéticos para aprimorar seus diversos produtos:
Testando sistemas de filtragem de conteúdo
As redes sociais estão combatendo notícias falsas, assédio online e propaganda política de governos estrangeiros. Testes com dados sintéticos garantem que os filtros de conteúdo sejam flexíveis e capazes de lidar com novos ataques.
Avaliação da imparcialidade do algoritmo
Perfis de usuários sintéticos e dados de interação podem ajudar as plataformas a avaliar se os algoritmos de recomendação ou moderação apresentam viés em relação a determinados grupos demográficos, idiomas ou pontos de vista, sem processar dados pessoais reais.
Testes de funcionalidades e de interface do usuário
Os conjuntos de dados comportamentais sintéticos permitem que as plataformas sociais testem novos recursos (por exemplo, classificação de feeds, ordenação de comentários) sob cargas de tráfego, padrões de cliques e distribuições de engajamento realistas, sem a necessidade de executar experimentos arriscados com usuários reais.
Simulação de segmentação de anúncios
Os dados sintéticos de público-alvo podem replicar padrões demográficos e comportamentais, permitindo que anunciantes e operadores de plataformas testem modelos de segmentação, algoritmos de alocação de orçamento e estratégias de otimização de campanhas, mantendo a conformidade com leis de privacidade como o GDPR e o CCPA.
Desenvolvimento ágil e DevOps
Geração de dados de teste
Para testes de software e garantia de qualidade , dados gerados artificialmente costumam ser a melhor opção, pois eliminam a necessidade de esperar por dados "reais". Frequentemente chamados de "dados de teste" nesse contexto, esses dados podem levar à redução do tempo de teste e ao aumento da flexibilidade e agilidade durante o desenvolvimento.
RH
Simulação de dados de funcionários
Os bancos de dados de funcionários das empresas contêm informações sensíveis e geralmente são protegidos por regulamentações de privacidade de dados. Equipes internas de dados e terceiros podem não ter acesso a esses bancos de dados, mas podem utilizar dados sintéticos de funcionários para realizar análises. Isso pode ajudar as empresas a otimizar seus processos de RH.
Marketing
Simulação do comportamento do cliente
Os dados sintéticos permitem que as unidades de marketing executem simulações detalhadas em nível individual para otimizar seus investimentos em marketing. Essas simulações não seriam permitidas sem o consentimento do usuário, de acordo com o GDPR. No entanto, os dados sintéticos, que seguem as propriedades dos dados reais, podem ser usados de forma confiável em simulações.
IA Conversacional
Dados sintéticos gerados com IA generativa podem auxiliar no treinamento de sistemas de IA conversacional, criando exemplos de diálogos realistas que refletem linguagem específica do domínio, diferentes intenções do usuário e casos extremos raros. Essa abordagem ajuda a lidar com a disponibilidade limitada de transcrições de conversas reais, evitando preocupações com a privacidade.
Ao expandir os conjuntos de dados de treinamento com cenários de diálogo personalizados, os dados sintéticos podem melhorar a capacidade de um modelo de entender solicitações variadas, responder com precisão e gerenciar interações complexas e com múltiplas etapas.
Aprendizado de máquina
Aumento dos dados de treinamento
Os dados sintéticos ampliam o conjunto de dados disponível, criando amostras realistas e estatisticamente precisas que espelham a distribuição de dados do mundo real. Isso é especialmente valioso ao treinar modelos de IA que sofrem com desequilíbrio de classes ou quando a coleta de dados reais é muito cara, demorada ou legalmente restrita.
Ao incluir variações adicionais no conjunto de dados, como mudanças de iluminação em visão computacional ou variações de ruído em áudio, os modelos tornam-se mais resilientes a mudanças ambientais e entradas inesperadas.
Simulação de evento raro
Muitos modelos de IA têm desempenho inferior na previsão de eventos que ocorrem com pouca frequência, porque esses eventos são mal representados em conjuntos de dados reais. Os dados sintéticos resolvem esse problema gerando inúmeros exemplos realistas desses eventos raros, preservando suas propriedades estatísticas e contextuais.
Essa abordagem permite que os modelos "vivenciem" e aprendam com cenários que talvez nunca encontrassem durante o treinamento tradicional, resultando em maior capacidade de memorização e melhor preparo para situações críticas, como detecção de fraudes, previsão de falhas de equipamentos ou planejamento de resposta a emergências.
Rotulagem automática de dados
A rotulagem manual de dados costuma ser uma das etapas mais caras e demoradas do desenvolvimento de IA, principalmente para tarefas como detecção de objetos ou reconhecimento de fala. A geração de dados sintéticos pode incluir a atribuição automática de rótulos durante o processo de criação.
Isso elimina erros de anotação humana, acelera o desenvolvimento de modelos e permite que as equipes criem conjuntos de dados grandes e precisamente rotulados, adaptados a necessidades específicas de negócios, seja para detectar anomalias na fabricação, reconhecer entidades em documentos legais ou identificar objetos em imagens aéreas.
O futuro dos dados sintéticos
Os dados sintéticos estão se tornando cada vez mais importantes em diversos setores. Trata-se de dados artificiais criados por computadores que se assemelham a dados reais, mas não incluem informações de pessoas reais. Essa característica os torna úteis em situações onde a privacidade, o custo ou o acesso a dados reais representam um desafio.
Muitas empresas agora utilizam dados sintéticos para treinar modelos de aprendizado de máquina. Por exemplo, setores como saúde, finanças, direção autônoma e varejo dependem deles para testar novos sistemas sem expor dados pessoais ou enfrentar limitações legais.
Figura 1: Popularidade dos dados sintéticos
Algumas das razões pelas quais os dados sintéticos estão em tendência incluem:
- Riscos legais e de privacidade com dados reais: Novas regulamentações dificultam o compartilhamento de dados reais. Dados sintéticos contornam essas limitações de privacidade porque não contêm registros pessoais reais.
- Escassez e custo dos dados: Os conjuntos de dados reais podem ser pequenos, incompletos ou caros para coletar e rotular. Os dados sintéticos podem ser criados sob demanda, preenchendo lacunas e reduzindo custos.
- Apoio à inovação em IA: Grandes sistemas de IA necessitam de conjuntos de dados amplos e variados. Analistas preveem um grande aumento no uso de dados sintéticos, com muitas empresas devendo adotá-los até 2026.
Até 2026, muitas organizações gerarão dados sintéticos de clientes ou dados de treinamento para IA. Um relatório do setor estima que até 75% das empresas usarão ferramentas de IA generativa para produzir dados sintéticos. 2
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.