A pesquisa avançada com IA é um recurso presente em algumas plataformas de aprendizagem de línguas (LLMs) que oferece aos usuários uma gama mais ampla de resultados de pesquisa do que os mecanismos de busca tradicionais com IA . Para avaliar o desempenho de diferentes ferramentas de pesquisa avançada com IA, estamos introduzindo três novos benchmarks:
O DR-50 (Deep Research 50) Bench , que avalia ferramentas em 50 questões abrangendo seis tipos de perguntas, o DR-2T (Deep Research 2 Task) Bench , que avalia ferramentas por meio de duas tarefas de pesquisa do mundo real focadas na qualidade da geração de relatórios, cobertura de fontes e apresentação estruturada de dados, e o Agent vs Deep Research Models , demonstram que os agentes são mais baratos do que os modelos de pesquisa profunda, ao mesmo tempo que fornecem níveis comparáveis de precisão.
Resultados de bancada do DR-50
Comparação de precisão e latência
Testamos ferramentas de pesquisa avançada com IA em 50 perguntas, distribuídas em 6 tipos distintos. Consulte nossa metodologia de avaliação comparativa.
Perplexity Sonar A pesquisa profunda apresenta a maior precisão, com 34%, e latência moderada. As pesquisas profundas Parallel Ultra e o4 mini demonstram níveis de precisão semelhantes, em torno de 22-24%, embora a Parallel Ultra exija significativamente mais tempo. A pesquisa profunda o3 apresenta a menor precisão, com latência prolongada.
Custo e latência da única tarefa bem-sucedida
Medimos o custo e a latência em uma única questão na qual todas as ferramentas foram bem-sucedidas. O4 mini deep research e Perplexity Ultra ocupam a região eficiente, com custos baixos e tempos de conclusão mais rápidos. O3 deep research opera com custo mais alto e maior latência. O Parallel apresenta a maior latência, apesar do custo moderado.
Citações
A quantidade de citações varia independentemente do custo e da latência. A pesquisa profunda mini o4 fornece significativamente mais citações, mantendo a eficiência, o que sugere abordagens diferentes para a obtenção e referência de informações. As citações mínimas na pesquisa profunda o3, apesar do seu custo elevado, indicam que a contagem de citações não está atrelada ao consumo de recursos.
Resultados de bancada do DR-2T
Realizamos também um segundo teste comparativo com as 7 principais ferramentas de pesquisa avançada em IA, aplicando duas tarefas e avaliando-as em cinco dimensões.
Avaliamos as soluções com base na precisão e no número de fontes. Confira a metodologia para ver como avaliamos essas soluções.
A Gemini se destaca na precisão dos dados fornecidos:
Claude lidera com base no número de fontes indexadas:
Tarefa 1:
Solicitamos que criassem tabelas sobre software de gerenciamento de senhas corporativas, conforme nossas instruções. Veja as instruções completas.
Quase todas as ferramentas forneceram tabelas detalhadas contendo as informações solicitadas, embora suas abordagens para a apresentação dos dados variassem significativamente.
Para geração de relatórios completos:
- Gemini e Claude emergiram como as principais soluções, fornecendo relatórios analíticos abrangentes com insights sintetizados e análises contextuais.
- Em contraste, o Deep Lookup* Bright Data focou-se principalmente na extração de dados, fornecendo tabelas estruturadas com conteúdo narrativo limitado.
Os pesquisadores devem selecionar as ferramentas com base em suas necessidades específicas de pesquisa. Aqueles que necessitam de análises abrangentes e soluções focadas em relatórios acharão o Gemini e o Claude mais adequados, pois essas ferramentas são mais voltadas para a síntese de informações em relatórios detalhados.
Por outro lado, os pesquisadores que priorizam a coleta de dados brutos e que necessitam de buscas na web em larga escala se beneficiarão mais de Bright Data , que fornece ampla cobertura de dados da web com níveis de confiança e explicações detalhadas sobre a relevância e confiabilidade da fonte.
Essa abordagem centrada em dados torna o Bright Data valioso para revisões sistemáticas que exigem verificação de fontes em grande volume.
Kimi utiliza uma metodologia diferenciada para a geração de relatórios, produzindo um relatório interativo que incorpora resumos executivos, seções específicas com as melhores práticas e recomendações estratégicas.
O relatório apresenta visualizações de dados integradas e atribuição de fontes, resultando em um produto completo, adequado para implementação imediata sem necessidade de modificações adicionais.
Observação: Perplexity forneceu um relatório detalhado, mas não criou uma tabela com as informações coletadas. Como o enunciado solicitava especificamente a apresentação de tabelas, a tarefa recebeu zero pontos.
*Atualizaremos o Deep Lookup Bright Data quando o produto sair da fase beta.
Tarefa 2:
O objetivo desta tarefa é avaliar a velocidade e a abrangência da RPA (Automação Robótica de Processos) em pesquisas. Solicitamos um relatório detalhado sobre a adoção da RPA para determinar o número de páginas indexadas e o tempo necessário para gerar um relatório.
É claro que o número de fontes não precisa estar correlacionado com a qualidade da pesquisa. No entanto, como essas ferramentas são projetadas para acelerar a pesquisa, consideramos esse um indicador importante.
Também devemos observar que os tempos de busca variam significativamente entre essas ferramentas. O Grok Deep Search é aproximadamente 10 vezes mais rápido que o ChatGPT Deep Search e pesquisa cerca de 3 vezes mais páginas da web.
O Claude Deep Search também é altamente responsivo, tendo pesquisado 261 fontes em mais de 6 minutos. No entanto, o Gemini pode não ser a escolha ideal para quem busca uma solução rápida e responsiva, pois pesquisou 62 fontes em mais de 15 minutos.
Análise comparativa entre agentes e modelos de pesquisa profunda.
Agentes de IA como Claude Code e Codex podem pesquisar na web, obter páginas específicas e extrair dados por meio de chamadas de ferramentas direcionadas. Testamos se essa abordagem de agentes corresponde ao desempenho de modelos de pesquisa profunda desenvolvidos especificamente para tarefas de pesquisa factual. Seis ferramentas foram avaliadas em 5 tarefas com 33 pontos de verificação de dados reais, abrangendo eventos corporativos, fusões e aquisições, documentação de software e pesquisa em IA. Veja nossa metodologia .
Parallel Ultra e Claude Code empataram no topo com 97% de precisão. Codex ficou em segundo lugar com 93,9%. Perplexity Sonar obteve 87,9%. Os modelos de pesquisa profunda OpenAI (o3 e o4-mini) obtiveram pontuações entre 75,8% e 81,8%, apesar de executarem de 27 a 125 pesquisas na web por tarefa e custarem de 2 a 6 vezes mais do que Sonar.
Os melhores desempenhos compartilham um padrão: eles acessam as fontes primárias e as leem atentamente. O Codex consultou o formulário 8-K da SEC para a Tarefa 2 e a declaração de procuração da SEC para a Tarefa 3. O Claude Code obteve as páginas de documentação da Unity diretamente na Tarefa 1. O Parallel encontrou o valor específico do pagamento a Zaslav (US$ 886,8 milhões) que outras três ferramentas não detectaram. O o3 e o o4-mini realizaram buscas amplas, mas extraíram informações menos precisas das páginas encontradas.
Claude Code e Codex ocupam o canto superior direito: alta precisão a baixo custo (US$ 1,54 e US$ 1,30, respectivamente). O Parallel atinge a mesma precisão por US$ 2,10. O o3 custa US$ 10,92 e oferece 75,8% de precisão. Na aba de latência, o Claude Code é o mais rápido, com uma média de 1,7 minutos por tarefa. O Parallel é o mais lento, com 16,7 minutos, mas iguala a precisão máxima. O Sonar ocupa uma posição intermediária sólida, com 2,3 minutos e 87,9%.
Sonar produz, em média, 5.253 palavras por tarefa. Os agentes produzem entre 398 e 483 palavras. Sonar escreveu 4.509 palavras sobre a struct EntityId do Unity, mas só conseguiu nomear um de seus cinco métodos públicos. O Codex escreveu 248 palavras e nomeou todos os cinco. O Parallel escreveu 1.037 palavras e acertou todas. Mais palavras e mais citações não previram maior precisão.
Análise detalhada: Migração do Unity 2022.3 para o Unity 6 (Tarefa 5)
A Tarefa 5 é a mais complexa do teste de desempenho. Ela solicita que cada ferramenta crie um guia de transição do Unity 2022.3 LTS para o Unity 6.3 LTS. O enunciado especificava os números de versão exatos: 2022.3.62f3, 2022.3.74f1 e 6000.3.12f1. Uma resposta correta exige a leitura da página de requisitos de sistema do Unity 6.3, da página de ciclo de vida de suporte e de quatro guias de atualização distintos (6.0, 6.1, 6.2 e 6.3).
Três das seis ferramentas retornaram requisitos de sistema para o Unity 6.0 em vez do Unity 6.3.
o3, o4-mini e Claude Code fizeram referência à página de documentação do Unity 6.0 em vez da página da versão 6.3, apesar do prompt especificar “Unity 6.3” e o número da versão “6000.3.12f1”.
Uma equipe seguindo o guia do o3 teria como alvo a API 23 do Android (Android 6.0). O Unity 6.3 requer a API 25 (Android 7.1). A compilação falharia ou seria lançada para uma plataforma não suportada. O guia em si parece profissional: tabelas claras, estrutura lógica e tom adequado. Os números estão errados.
Tanto a Codex quanto a Parallel acertaram todos os números. A Codex acessou diretamente a página de requisitos de sistema da versão 6.3 e a comparou linha por linha com a página da versão 2022.3. Ela identificou inclusive que o requisito mínimo do iOS passou de 12 para 13 na versão 2022.3, na build 2022.3.72f1, antes de subir para 15 na versão 6.3. A Parallel produziu um guia completo com os números corretos e 35 fontes citadas.
Como cada ferramenta abordou o problema:
Claude Code gerou 4 subagentes paralelos, cada um lidando com uma parte diferente da questão: datas de suporte, caminho de atualização, alterações incompatíveis e requisitos do sistema. Rápido (3 minutos e 59 segundos), mas o subagente de requisitos do sistema buscou a página de documentação errada.
O Codex realizou 90 buscas sequenciais na web ao longo de 6 minutos e 17 segundos. Ele buscou individualmente o guia de atualização para a versão 6.3, a página de requisitos de sistema da versão 6.3 e a página de requisitos de sistema da versão 2022.3. Mais lento, porém metódico. Todos os números estavam corretos.
o3 gastou 8 minutos e fez 32 pesquisas na web. O resultado foi um texto de 2.132 palavras com conselhos gerais sobre migração, mas os prazos de suporte e os requisitos de sistema foram extraídos da documentação da versão 6.0. Não foram mencionadas quaisquer alterações significativas específicas da versão 6.3 (remoção do Modo de Compatibilidade URP, descontinuação do Netcode 1.x, descontinuação do Relay/Lobby).
Nenhuma ferramenta leu os quatro guias de atualização (6.0, 6.1, 6.2, 6.3) em sequência. A documentação da Unity afirma que os desenvolvedores devem segui-los na ordem, pois cada um contém alterações significativas exclusivas. Todas as ferramentas encontraram a página mais relevante e extraíram informações dela. Essa é uma limitação estrutural para qualquer tarefa de pesquisa que exija a análise de uma série de documentos relacionados, em vez de encontrar uma única resposta.
Desenvolvimentos em ferramentas de pesquisa avançada de IA
Kimi K2.5
O Kimi K2.5 consegue processar texto, imagens e vídeo, gerar código pronto para produção e executar fluxos de trabalho complexos usando uma arquitetura de enxame de agentes.
O Agent Swarm é o mecanismo do Kimi K2.5 para lidar com tarefas complexas, transformando um único modelo em uma equipe coordenada de agentes de IA. Em vez de executar uma tarefa sequencialmente, o Kimi cria múltiplos subagentes especializados, cada um com uma função específica, como pesquisa, análise, codificação, verificação ou estruturação de conteúdo. Esses agentes operam em paralelo, usam ferramentas de forma independente e compartilham resultados intermediários, o que reduz significativamente o tempo de execução para fluxos de trabalho de longo prazo.
O modelo de enxame decompõe um objetivo de alto nível em subtarefas, atribui-as a agentes, monitora o progresso e integra os resultados em um produto final coerente. Essa abordagem é especialmente útil para pesquisas aprofundadas, criação de documentos em larga escala, processamento em lote e resolução de problemas complexos, em que diferentes partes do trabalho podem ser executadas simultaneamente.
Kimi K2.5 Pesquisa Profunda
O Kimi K2.5 Deep Research oferece suporte à pesquisa completa e à geração de relatórios para questões complexas. Ele coleta informações de múltiplas fontes, analisa tópicos sob diversas perspectivas e sintetiza os resultados em relatórios visuais.
A pesquisa aprofundada destina-se principalmente à análise de investimentos, pesquisa setorial, trabalhos acadêmicos e planejamento estratégico, onde é necessária uma análise orientada para a tomada de decisões.
Figura 1: Exemplo de pesquisa da Kimi K2.5 Deep Research sobre métricas ESG e retornos de investimento. 1
Claude para ciências da vida
O Claude para Ciências da Vida foi projetado para dar suporte ao trabalho científico em todo o ciclo de desenvolvimento de medicamentos e dispositivos para organizações de biotecnologia, farmacêuticas e de pesquisa. Atualizações recentes expandem seu escopo além da pesquisa pré-clínica, abrangendo operações de ensaios clínicos e fluxos de trabalho regulatórios, adicionando novos conectores de dados e funcionalidades de agentes adaptadas a casos de uso reais em ciências da vida.
Principais características e funcionalidades:
- Conectores científicos expandidos: Acesso a plataformas como Medidata, ClinicalTrials.gov, bioRxiv/medRxiv, Open Targets, ChEMBL, ToolUniverse e Owkin, além das integrações já existentes com Benchling, PubMed, 10x Genomics, BioRender, Synapse.org e Wiley.
- Inteligência em ensaios clínicos: Utilize com segurança dados históricos de recrutamento e desempenho dos centros de pesquisa para apoiar análises de viabilidade, planejamento de recrutamento de pacientes e monitoramento de ensaios clínicos.
- Apoio à descoberta inicial: Ferramentas para auxiliar na identificação de alvos, análise de compostos e teste de hipóteses, utilizando bases de dados científicas selecionadas e ferramentas computacionais.
- Fluxos de trabalho em bioinformática: Habilidades de agentes e pacotes de ferramentas que dão suporte a pipelines de processamento e análise de dados, incluindo implementações do scVI-tools e do Nextflow.
- Elaboração e planejamento de protocolos: Uma habilidade de redação de protocolos de ensaios clínicos que incorpora vias regulatórias, contexto competitivo, recomendações de desfechos e orientações relevantes da FDA.
- Preparação regulatória: Auxílio na identificação de lacunas em documentos regulatórios, elaboração de respostas a questionamentos de agências reguladoras e compreensão das diretrizes aplicáveis. 2
Integração do Gemini Deep Research com Gmail, Docs, Drive e Chat.
A Google lançou uma atualização significativa para o Gemini Deep Research, expandindo sua capacidade de acessar dados de todo o ecossistema Google. A ferramenta agora pode se conectar ao Gmail, Google Drive (incluindo Documentos, Apresentações, Planilhas e PDFs) e Google Chat, permitindo que os usuários incluam fontes privadas e compartilhadas diretamente em seu processo de pesquisa.
Com esta atualização, os usuários podem:
- Crie relatórios abrangentes combinando dados de e-mails, documentos e chats com informações da web.
- Realize uma análise competitiva que integre planos de projeto, planilhas comparativas e discussões em equipe.
- Elabore um plano de pesquisa multifásico para um novo produto, analisando os materiais iniciais de brainstorming e os respectivos canais de comunicação.
Este recurso permite que o Gemini Deep Research dê suporte tanto a revisões de literatura acadêmica quanto a pesquisas de mercado. Ao combinar múltiplas fontes de dados, os usuários podem gerar análises mais detalhadas e descobrir insights importantes com maior eficiência. 3
Gemini no Chrome: Navegação automática
Google está atualizando o Gemini no Chrome para macOS, Windows e Chromebook Plus com o Gemini 3, adicionando um painel lateral, suporte mais integrado para aplicativos Google e recursos de agente, como a navegação automática:
- Navegação e ações automatizadas em várias etapas: o novo recurso Navegação Automática do Chrome usa o Gemini 3 para atuar como um agente da web que pode executar de forma autônoma tarefas complexas em várias etapas, como pesquisar opções de viagem, preencher formulários, comparar produtos e navegar entre sites, interpretando instruções e interagindo com as páginas em nome do usuário.
- Disponibilidade: A Navegação Automática está sendo implementada gradualmente em versão prévia para assinantes dos planos AI Pro e AI Ultra nos Estados Unidos e requer o Chrome em plataformas como Windows, macOS ou Chromebook Plus.
- Cobertura de aplicativos conectados: O Gemini atualizado no Chrome oferece suporte a integrações de aplicativos conectados com serviços como Gmail, Agenda, YouTube, Mapas, Compras e Voos.
- Para ações que envolvem etapas sensíveis ou de alto risco, como concluir uma compra ou publicar em redes sociais, o sistema pausa e solicita a confirmação explícita do usuário antes de prosseguir. 4
Microsoft apresenta a Pesquisa Aprofundada no Serviço de Agentes do Azure AI Foundry
A Azure AI Foundry lançou a versão prévia pública do Deep Research no Azure AI Foundry Agent Service, oferecendo a tecnologia de pesquisa baseada em agentes da Azure por meio da plataforma empresarial do Azure. O serviço permite a automação de tarefas de pesquisa complexas, a integração entre sistemas de negócios e a criação de resultados de pesquisa transparentes e auditáveis. 5
As principais características são:
- Pesquisa automatizada em várias etapas: Utiliza o modelo o3-deep-research para planejar, analisar e sintetizar dados da web e de sistemas corporativos.
- Verificação na web com a Busca do Bing: Garante que as informações sejam baseadas em fontes verificadas e atuais.
- Resultados transparentes: Cada relatório inclui fontes citadas, etapas de raciocínio e esclarecimentos.
- Integração com ferramentas do Azure: Funciona com o Logic Apps, o Azure Functions e outros conectores para geração de relatórios e automação de fluxos de trabalho.
- Flexibilidade programática: Disponível via API e SDK, permitindo que os desenvolvedores incorporem ferramentas de pesquisa avançada de IA em aplicativos e fluxos de trabalho.
Como funciona
- Esclarecendo a intenção da pesquisa: O sistema usa GPT-4o e GPT-4.1 para definir a questão da pesquisa.
- Coleta de dados: A Busca do Bing reúne dados confiáveis da web para fundamentação.
- Análise de resultados: O modelo de pesquisa aprofundada realiza raciocínio e síntese para produzir relatórios abrangentes com insights essenciais.
- Garantindo a conformidade: Cada resultado é rastreável e auditável para uso corporativo.
Benefícios das ferramentas de pesquisa avançada de IA
Maior eficiência e produtividade
- Revisões de literatura: as ferramentas de pesquisa com IA atuam como assistentes de pesquisa, realizando buscas bibliográficas aprofundadas em vastas bases de dados de artigos científicos. Elas identificam artigos relevantes e podem sintetizar informações para gerar resumos concisos, reduzindo significativamente o tempo e o esforço necessários para uma revisão de literatura manual.
- Coleta e análise de dados: Um assistente de pesquisa com IA pode automatizar a coleta de dados por meio da mineração de grandes bancos de dados e páginas da web. Essas ferramentas possuem recursos avançados de pesquisa que permitem processar e analisar conjuntos de dados massivos muito mais rapidamente do que os métodos tradicionais. Elas podem identificar padrões e tendências que poderiam passar despercebidos em uma análise manual, o que é crucial para tarefas de pesquisa complexas, como análise de mercado ou a elaboração de um relatório de pesquisa aprofundado.
- Automação de tarefas repetitivas: A IA pode lidar com tarefas repetitivas, como entrada de dados e formatação de citações de fontes. Ao automatizar esses processos demorados, os pesquisadores podem se concentrar em tópicos mais complexos e nos aspectos criativos de seu trabalho.
Análises e descobertas mais aprofundadas
- Identificação de lacunas na pesquisa: Ao analisar a literatura acadêmica existente, as ferramentas de IA podem ajudar os pesquisadores a identificar lacunas no conhecimento atual. Este é um passo crucial para formular uma nova questão de pesquisa ou desenvolver um plano de pesquisa em várias etapas. Essas ferramentas fornecem informações de fácil leitura em um formato estruturado e organizado.
- Sintetizando informações: assistentes de pesquisa com IA podem sintetizar informações de múltiplas fontes, gerando um relatório abrangente e destacando as principais descobertas. Isso proporciona aos pesquisadores uma visão geral ampla sem a necessidade de ler todos os artigos na íntegra, o que economiza tempo e, ao mesmo tempo, oferece insights completos.
- Por exemplo, a ferramenta de pesquisa avançada de Claude gerou um relatório detalhado. O relatório pode ser publicado como um artefato, que fica acessível online e visível em mecanismos de busca.
- Explorando conexões: Ferramentas que visualizam redes de citações podem ajudar pesquisadores a entender como diferentes artigos científicos estão interconectados. Isso pode levar a descobertas e a uma compreensão mais abrangente de uma área de pesquisa.
Por exemplo, o Grok indexou mais de 100 páginas diferentes em nossa segunda tarefa. Normalmente, um humano levaria horas para ler e coletar informações de todas essas páginas, mas o Grok levou cerca de 2 minutos.
Portanto, essas ferramentas podem acelerar o processo de pesquisa. No entanto, os usuários devem sempre lembrar que essas ferramentas podem gerar informações enganosas e incorretas, portanto, tenham cautela ao usar informações extraídas diretamente de um LLM .
Desafios e limitações das ferramentas de pesquisa profunda em IA
Precisão e confiabilidade
A maioria das pessoas desconfia da precisão das informações geradas por LLMs (Low-Level Methods - Métodos de Aprendizagem Baseados em Alucinações) e as verifica por conta própria, pois sabem que esses métodos podem apresentar alucinações. O problema com pesquisas aprofundadas é que, por serem mais abrangentes do que as realizadas em chats comuns e por fornecerem fontes, os usuários podem presumir erroneamente que sempre fornecem informações precisas. No entanto, mesmo com pesquisas aprofundadas, os LLMs ainda tendem a apresentar alucinações, o que pode resultar em sérios mal-entendidos.
- Falta de contexto e nuances: Um assistente de pesquisa com IA pode ter dificuldades para compreender o contexto completo de uma tarefa de pesquisa, podendo resumir informações sem entender seu significado mais profundo. Isso pode levar a conclusões incompletas ou incorretas.
- Informações desatualizadas: Os dados de treinamento de alguns modelos de IA podem não estar atualizados, fazendo com que eles não considerem desenvolvimentos recentes em artigos científicos ou outras publicações acadêmicas.
- Credibilidade da fonte: as ferramentas de IA frequentemente têm dificuldade em diferenciar entre fontes confiáveis e não confiáveis, tratando todas as informações da internet aberta como igualmente válidas. O julgamento humano é essencial para avaliar a credibilidade das fontes em um relatório de pesquisa aprofundado.
Preconceito e questões éticas
- Viés algorítmico: Se os conjuntos de dados usados para treinar modelos de IA contiverem vieses sociais, a IA os aprenderá e perpetuará. Isso pode resultar em produtos tendenciosos contra grupos demográficos específicos, afetando a integridade de pesquisas aprofundadas.
- Privacidade de dados: O uso de ferramentas de IA envolve o processamento de grandes quantidades de dados, o que levanta preocupações significativas em relação à privacidade e segurança. Dados proprietários ou confidenciais inseridos por um pesquisador podem ser usados para treinar modelos futuros, levando a um risco de vazamento de dados.
- Propriedade e direitos autorais: Quando uma ferramenta de IA sintetiza informações de múltiplas fontes, surgem questões relativas à propriedade intelectual e à atribuição correta. Muitas vezes, é um desafio determinar a propriedade do resultado final e garantir que todas as citações das fontes estejam corretas.
Habilidade humana e dependência excessiva
- A ilusão da especialização: ferramentas de IA podem produzir relatórios refinados e estruturados, criando a falsa impressão de uma análise abrangente e especializada. A ferramenta é uma assistente de pesquisa, não uma substituta para o julgamento, a especialização e o rigor que um pesquisador humano oferece em tarefas de pesquisa complexas. Isso é especialmente relevante para tomadores de decisão que enfrentam decisões de alto risco.
- Erosão do pensamento crítico: A dependência excessiva de ferramentas de pesquisa com IA pode diminuir o pensamento crítico e as habilidades analíticas do pesquisador. Fornecer todas as respostas pode reduzir o envolvimento do usuário nos complexos processos de pesquisa essenciais para artigos acadêmicos de alta qualidade.
- Curva de aprendizado acentuada: Apesar do design intuitivo, muitas ferramentas de pesquisa apresentam uma curva de aprendizado um pouco íngreme, principalmente para seus recursos avançados. Os pesquisadores podem precisar investir tempo para aproveitar ao máximo as capacidades de pesquisa da ferramenta.
Gary Marcus também alertou que isso pode causar uma queda na qualidade dos artigos científicos. 6
Metodologia
Em nosso teste comparativo DR-50, avaliamos ferramentas de pesquisa de IA usando 50 perguntas em seis tipos diferentes:
1. Consulta factual simples
Questões de "single-hop" requerem a recuperação direta de dados a partir de uma única fonte.
Exemplo: “Qual é o preço de entrada de 1M token para o modelo llama-3-70b de DeepInfra?”
2. Análise Comparativa
A avaliação comparativa entre diferentes fontes exige a coleta de dados de vários fornecedores para comparar produtos ou serviços.
Exemplo: “Qual fornecedor oferece llama-3.2-1b ao preço combinado mais barato?”
3. Raciocínio de Múltiplos Saltos
Cadeias de raciocínio sequencial requerem múltiplas etapas interdependentes de recuperação de informações.
Exemplo: “Qual é o preço de entrada por 1 milhão de tokens em OpenRouter para o modelo que ficou em 1º lugar no benchmark AIMultiple Finance Reasoning?”
4. Baseado em Cálculos
São realizadas operações matemáticas nos dados numéricos obtidos.
Exemplo: “Qual é a diferença no preço médio entre os dois modelos mais baratos Mistral AI?”
5. Extração de JSON estruturado
A coleta de dados exige formatação JSON rigorosa com múltiplos valores estruturados.
Exemplo: “Quais são a arquitetura, a memória e a largura de banda do NVIDIA H200 SXM? Formato: {“arquitetura”: “…”, “memória”: “…”, “largura de banda”: “…”}”
6. Listagem por categoria
Enumeração completa de todos os itens dentro de uma categoria específica.
Exemplo: “Forneça todos os servidores MCP na categoria blockchain.”
Métricas de avaliação
Precisão
Comparamos cada resposta com respostas predefinidas de referência usando o GPT-4o-mini como um avaliador automatizado por meio do OpenRouter. A pontuação final de precisão representa a porcentagem de respostas corretas em todas as 50 consultas.
Contagem de Fichas
Utilizamos a biblioteca tiktoken para medir os tokens no lado do cliente e validamos essas medições comparando-as com as contagens de tokens relatadas pelas APIs e interfaces de usuário dos provedores, quando disponíveis.
Latência
Medimos a latência como o tempo real decorrido desde o início da solicitação até o recebimento da resposta completa, em segundos. Validamos essas medições comparando-as com as métricas de latência relatadas pelas APIs e interfaces de usuário dos provedores, quando disponíveis.
Custo
Acompanhamos os custos manualmente através do painel de faturamento de cada fornecedor.
Citações
Extraímos automaticamente as citações dos metadados de resposta de cada API e contabilizamos os URLs únicos citados por resposta.
Configuração técnica
Executamos o teste de desempenho sequencialmente, com cada API concluindo todas as 50 consultas antes que a próxima API fosse iniciada. Implementamos um atraso de 5 segundos entre consultas consecutivas para evitar a limitação de taxa e não impusemos nenhum limite de tempo limite, permitindo que as solicitações aguardassem indefinidamente a conclusão.
Para o teste de desempenho DR-2T baseado em diferentes tarefas, cada dado fornecido no prompt valia 1 ponto. Se a saída não estivesse em formato de tabela, atribuíamos 0 pontos.
Enunciado da Tarefa 1
Pesquise e avalie as 5 principais soluções de gerenciamento de senhas corporativas com base nos seguintes critérios para identificar a solução mais eficaz para implantação em empresas.
Critérios
1. Recursos de segurança
- Padrão de criptografia utilizado
- Implementação de arquitetura de conhecimento zero
- Opções de MFA suportadas
- Certificações de segurança de terceiros
- Recursos de monitoramento da integridade da senha
2. Implantação e Integração
- Opções de implantação
- Recursos de integração de diretório
- Disponibilidade e funcionalidade da API
- Integração SSO
3. Experiência do Usuário
- Compatibilidade com extensões do navegador
- Disponibilidade e avaliação do aplicativo móvel
- Capacidades de acesso offline
- Funcionalidade de compartilhamento de senhas
4. Administração
- opções de aplicação da política de senhas
- Automação de provisionamento/desprovisionamento de usuários
- Recursos de relatórios e conformidade
- Protocolos de acesso de emergência
5. Custo e escalabilidade
- Compare os preços usando cenários empresariais padronizados (100 usuários, 500 usuários, mais de 1000 usuários).
Formato de entrega
- Tabela detalhada para cada critério
- Tabela comparativa de custos com cenários padronizados
Instruções para a Tarefa 2
Em nossa segunda tarefa, buscamos descobrir o escopo da pesquisa realizada. Para isso, comparamos o número de referências citadas. Comparar artigos não é um método objetivo neste caso, pois estabelecer uma verdade fundamental definitiva não é viável.
No entanto, o número de referências pode nos dar uma ideia da capacidade dessas ferramentas de fornecer informações, já que seu ponto forte é a capacidade de indexar centenas de páginas da web em minutos.
Metodologia de comparação entre análise por agentes e análise aprofundada
Criamos 5 tarefas de pesquisa em diferentes domínios. Cada tarefa apresenta perguntas diretas com respostas factuais e verificáveis. Cada etapa de verificação é pontuada de forma binária: correta ou incorreta.
Cada questão se refere a informações publicadas após as datas de corte dos dados de treinamento dos modelos. O teste de desempenho foi executado na primeira semana de abril de 2026.
A verdade fundamental foi construída a partir de fontes primárias: documentação oficial do Unity 6.4, arquivo 8-K da Atlassian na SEC, comunicados de imprensa da Paramount, o artigo ARC-AGI-3 no arXiv e guias de atualização do Unity. Cada ferramenta recebeu instruções idênticas. Todas as instruções terminaram com "Cite todas as fontes utilizadas com URLs".
Pontuação: correspondência automática de padrões para números, datas e nomes. Avaliador LLM (GPT-4o) para pontos de verificação da qualidade da explicação. Um revisor humano validou todos os resultados.
Os modelos de pesquisa avançada foram chamados através da API OpenRouter (o3, o4-mini, Sonar) e da API Paralela. Os agentes foram executados através de suas interfaces de linha de comando com a pesquisa na web habilitada, sem ferramentas MCP.
No Claude Code, usamos o Opus 4.6 e, no Codex, o GPT 5.4. Ambos com esforço médio, e o cálculo do custo é feito com base no uso de tokens para ambos os agentes.
Perguntas frequentes
As ferramentas de pesquisa baseadas em IA transformam a maneira como os cientistas conduzem pesquisas, tornando-as mais rápidas e eficientes. As ferramentas de pesquisa avançada, em particular, têm o potencial de impactar significativamente a comunidade científica. Elas podem ajudar a acelerar o processo, mas os usuários devem ter cuidado com erros antes de publicar essas informações.
Relatórios e estudos do setor demonstraram que as ferramentas de IA podem ser altamente eficazes em determinadas áreas, como análise de dados e revisão bibliográfica. Essas ferramentas utilizam modelos de IA avançados para sintetizar informações de múltiplas fontes, fornecendo descobertas e insights importantes.
Esses modelos utilizam raciocínio lógico e IA generativa para sintetizar informações e fornecer insights. Eles também podem responder a tópicos complexos e oferecer respostas detalhadas. Usuários profissionais podem aproveitar as ferramentas de IA para obter vantagem competitiva em suas pesquisas.
Assim como na Pesquisa Profunda, novos modelos e tecnologias, como ferramentas de IA em Python e subconjuntos somente de texto, estão surgindo, e a integração de todas essas ferramentas aumentará o escopo e a confiabilidade da Pesquisa Profunda.
As ferramentas de IA podem auxiliar em diversos aspectos das revisões de literatura, incluindo a identificação de artigos relevantes, o resumo de principais descobertas e a organização de temas de pesquisa. Essas ferramentas podem processar grandes volumes de literatura acadêmica rapidamente e ajudar os pesquisadores a identificar lacunas ou padrões entre os estudos. No entanto, a IA não pode substituir completamente o julgamento humano na avaliação da qualidade das fontes, na síntese de argumentos complexos ou na realização de análises críticas. Os pesquisadores ainda precisam revisar, verificar e interpretar o conteúdo gerado por IA para garantir a precisão e manter o rigor acadêmico em suas revisões de literatura.
As ferramentas de IA podem auxiliar na análise de dados e no trabalho estatístico, limpando conjuntos de dados, realizando testes estatísticos, criando visualizações e identificando padrões em grandes conjuntos de dados. Essas ferramentas podem sugerir métodos estatísticos apropriados com base no tipo de dados e nas questões de pesquisa. No entanto, os pesquisadores devem compreender o contexto dos seus dados e validar os resultados, pois a IA pode não captar nuances específicas do domínio ou fazer suposições inadequadas.
A maioria das ferramentas modernas de pesquisa em IA utiliza interfaces de linguagem natural que não exigem habilidades de programação. No entanto, conhecimentos básicos de informática e a compreensão de conceitos fundamentais de pesquisa ajudam os usuários a formular consultas mais adequadas e a interpretar os resultados com maior eficácia. Aplicações avançadas podem se beneficiar de conhecimento técnico para análises personalizadas ou fluxos de trabalho especializados.
Os pesquisadores devem comparar os resultados da IA com as fontes originais e a literatura científica revisada por pares. As citações e referências fornecidas pela IA precisam ser verificadas, pois podem ser imprecisas ou fabricadas. As principais descobertas devem ser confirmadas usando múltiplas fontes, com atenção especial para desenvolvimentos recentes ou tópicos específicos. As análises estatísticas se beneficiam da validação por meio de múltiplas ferramentas, e especialistas no assunto devem revisar os resultados complexos sempre que possível.
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.