ChatGPT es una forma sencilla de incorporar IA al web scraping , lo que evita a los desarrolladores el trabajo manual de análisis que requiere actualizaciones constantes. El uso de LLM se está convirtiendo en una de las mejores prácticas para el web scraping.
A continuación se muestra cómo se utiliza ChatGPT en el web scraping, incluyendo varios casos de uso donde la combinación de web scraping y ChatGPT puede facilitar la recopilación de datos:
Cómo extraer datos de sitios web usando ChatGPT
En este tutorial, utilizamos los flujos de trabajo de investigación y codificación conectados a la web de ChatGPT. Además del análisis manual de HTML, los desarrolladores ahora pueden usar la búsqueda web integrada, la entrada de archivos y las herramientas de investigación avanzada para analizar páginas y generar lógica de extracción.
1. Cargar el archivo HTML:
El flujo de trabajo manual para guardar HTML localmente y subirlo funciona, pero ya no es la única opción de primera mano. OpenAI ahora admite búsquedas web en la API de Responses, un manejo más amplio de la entrada de archivos y flujos de trabajo de investigación avanzada que pueden combinar resultados web, archivos subidos y fuentes de datos conectadas.
Seleccione el sitio web del que desea extraer datos. Pulse Ctrl + S (o Cmd + S en macOS) para guardar la página como HTML. Si desea automatizar el guardado del archivo HTML, puede usar el siguiente ejemplo. Esto hará que ChatGPT genere el código Python necesario para guardar el archivo HTML desde la URL proporcionada.
Ejemplo de mensaje para ChatGPT:
“Por favor, proporcione un script de Python que automatice el proceso de guardar una página HTML desde la siguiente URL: https://www.walmart.com/browse/electronics/gaming-mouse/3944_1089430_132959_1008621_4842284_9144425 El script debe enviar una solicitud GET a la página, recuperar el contenido HTML y guardarlo en un archivo llamado walmart_gaming_mouse.html .”
2. Inspeccionando la estructura del HTML:
Una vez que hayas guardado el archivo HTML de la página de destino, arrástralo y suéltalo en ChatGPT.
Las páginas que generan contenido con JavaScript pueden requerir más que una simple inspección del HTML estático. En esos casos, los desarrolladores deben validar si el archivo guardado contiene los elementos deseados o si se necesita un flujo de trabajo conectado a la web o basado en el navegador antes de generar los selectores.
Ejemplo de mensaje para ChatGPT:
“Por favor, proporcione un script de Python que automatice la inspección de la estructura HTML del archivo walmart_gaming_mouse.html para identificar las etiquetas y clases HTML correctas que contienen el nombre del producto, el precio y el enlace del producto. El script debe cargar el archivo HTML guardado, encontrar los elementos que contienen nombres de productos, precios y enlaces, e imprimir los nombres de las etiquetas, las clases y el contenido de texto correspondientes.”
Ejemplo de script de Python para automatizar la inspección:
3. Analizando los datos del HTML:
Ejemplo de mensaje para ChatGPT:
“Por favor, proporcione un script de Python que automatice el análisis del archivo HTML walmart_gaming_mouse.html para extraer detalles del producto, como el nombre, el precio y el enlace. El script debe analizar el HTML, extraer los detalles necesarios para cada ratón para juegos en la página y almacenarlos en un formato estructurado, como un archivo CSV.”
Script de Python para analizar los datos:
Para páginas estáticas, guardar el archivo HTML sigue siendo una opción práctica. Para flujos de trabajo más dinámicos, los equipos también pueden usar la investigación conectada a la web o la recuperación basada en API para inspeccionar el contenido actual de la página, comparar múltiples fuentes y generar lógica de extracción sin depender únicamente de un archivo guardado manualmente.
4. Almacenamiento o visualización de los datos:
Ejemplo de mensaje para ChatGPT:
“Por favor, proporcione un script de Python que almacene los detalles del producto analizados del archivo walmart_gaming_mouse.html en un formato estructurado como CSV. El script debe extraer el nombre del producto, el precio y el enlace, y guardarlos en un archivo CSV llamado gaming_mouse_products.csv. Además, el script debe mostrar un mensaje de confirmación una vez que se hayan guardado los datos.”
Script de Python para almacenar o mostrar los datos:
Utilizar ChatGPT como herramienta XPath
ChatGPT puede ayudarte a extraer elementos específicos de la página de destino mediante expresiones XPath. Cuando le preguntes a ChatGPT cómo utilizar XPath para extraer datos, debes:
- Primero, inspeccione la estructura HTML.
- Gestionar situaciones excepcionales, como la falta de datos o el contenido generado por JavaScript.
- Para tener en cuenta las pequeñas diferencias en HTML, utilice expresiones XPath flexibles.
XPath sigue siendo útil para los flujos de trabajo de extracción de datos actuales, pero las interfaces de agente nativas del navegador están empezando a surgir como una alternativa para algunos sitios web.
Por ejemplo, Chrome introdujo WebMCP en una versión preliminar en 2026 para permitir que los sitios web expongan herramientas estructuradas a agentes de IA, reduciendo así la dependencia de la frágil adivinación del DOM para los casos de uso compatibles.
Inmediato :
“¿Cómo puedo usar XPath para extraer todos los nombres de productos, precios y enlaces de este archivo HTML?”
Respuesta de ChatGPT:
Aplicaciones de ChatGPT en el web scraping
1. Integrar ChatGPT en los flujos de trabajo de web scraping.
MCP significa Protocolo de Contexto de Modelo. Es una forma estandarizada para que los sistemas de IA se conecten a herramientas y fuentes de datos externas, incluidos sistemas web y empresariales, de una manera más estructurada.
Las plataformas MCP para web scraping , como las proporcionadas por Bright Data, actúan como intermediarios que gestionan la representación dinámica de contenido, la rotación de IP y los mecanismos de evasión antibot, lo que permite a ChatGPT acceder y procesar grandes cantidades de datos web sin gestionar directamente las solicitudes HTTP.
En los flujos de trabajo actuales de OpenAI, la investigación profunda puede utilizar la búsqueda web, los servidores MCP remotos y la recuperación basada en archivos de forma conjunta. OpenAI también actualizó la investigación profunda en 2026 con controles de búsqueda de sitios de confianza, conexiones de aplicaciones/MCP y seguimiento del progreso en tiempo real, lo que la hace más adecuada para tareas de investigación y extracción supervisadas que los flujos de trabajo que solo requieren avisos.
Puedes integrar estos MCP con ChatGPT configurándolos a través de agentes de VSCode, como GitHub Copilot, o aprovechando bibliotecas como mcp-use, lo que permite flujos de trabajo de extracción de datos web fluidos y escalables. 1
2. Búsqueda web e investigación exhaustiva para la extracción supervisada.
ChatGPT ya no se limita a generar código de extracción de datos a partir de entradas estáticas. El conjunto de herramientas actual de OpenAI incluye una búsqueda web integrada para la recuperación de información actualizada, entradas de archivos para trabajar con material fuente guardado y modelos de investigación avanzados que pueden combinar resultados web, archivos y fuentes MCP remotas dentro de un único flujo de trabajo.
Esto resulta especialmente útil cuando se necesitan citas, comparaciones entre múltiples fuentes o resultados de investigación rastreables antes de escribir el código de extracción.
3. Generar código para extraer datos de sitios web.
Para los flujos de trabajo de los desarrolladores, la recuperación web de documentos (OpenAI) se realiza principalmente a través de la API Responses, donde se puede habilitar la búsqueda web como herramienta. Las actualizaciones de 2026 ampliaron la compatibilidad con la entrada de archivos y agregaron funciones de entorno alojado que facilitan el procesamiento de los documentos y datos recuperados antes de su extracción.
Ten en cuenta que la estructura y el diseño de los sitios web pueden cambiar, lo que puede afectar a los elementos y atributos HTML que intentas extraer. En tal caso, tu código podría no funcionar correctamente o no extraer los datos deseados. Es necesario supervisar y actualizar tu código de extracción de datos periódicamente.
Por ejemplo, puede utilizar la siguiente solicitud para extraer datos de descripción del producto:
Muchos sitios web utilizan controles antiautomatización , límites de velocidad y renderizado dinámico para restringir la recopilación masiva de datos. Antes de realizar el web scraping, los equipos deben revisar los términos del sitio, las políticas de robots y los requisitos legales aplicables, y luego elegir un método que se ajuste a las limitaciones técnicas y de cumplimiento del sitio web objetivo.
Los proxies residenciales ylos desbloqueadores web son muy eficaces para sortear las estrictas defensas antibot. A diferencia de los proxies de centros de datos, los proxies residenciales utilizan direcciones IP proporcionadas por proveedores de servicios de Internet (ISP) reales, lo que les confiere una apariencia más auténtica.
Patrocinado
Puedes integrar una tecnología de desbloqueo con tu rastreador web para mejorar tus proyectos de extracción de datos web. El Web Unlocker de Bright Data permite a las empresas recopilar datos de fuentes web de forma ética y legal, eludiendo las medidas anti-scraping.
1.1 Proporcionar instrucciones en Python para el web scraping
ChatGPT ofrece instrucciones paso a paso para extraer datos de fuentes web en varios lenguajes de programación. En este ejemplo, utilizaremos la biblioteca requests para obtener el contenido de una página web y Beautiful Soup para analizar y recuperar los datos deseados.
- ChatGPT proporciona el comando para instalar las bibliotecas necesarias. Puedes ejecutar el siguiente código para instalar las bibliotecas en Python.
- Puedes usar el código Python generado por ChatGPT para importar requests y Beautiful Soup.
- La biblioteca requests te permite obtener el contenido de la página web de destino. Puedes usarla para enviar solicitudes HTTP al servidor de destino y gestionar las respuestas. Para obtener el contenido de la página del producto, escribe el siguiente comando en la terminal, reemplazando “https://example.com/product-page” por la URL de la página web de destino:
- Después de obtener el contenido de una página web, es necesario analizar los datos obtenidos para extraer la información deseada. Para analizar los datos obtenidos utilizando la biblioteca Beautiful Soup:
Si extraes datos de un sitio web de comercio electrónico, como los títulos de los productos, debes inspeccionar la página del producto para localizar las etiquetas y los atributos necesarios que correspondan a los datos.
- Para guardar o imprimir los datos extraídos, escriba el código generado por ChatGPT:
2. Limpiar los datos extraídos
Una vez extraídos los datos, es fundamental limpiar el texto para eliminar elementos irrelevantes y palabras vacías como "el", "y", etc. ChatGPT puede ofrecer orientación y sugerencias sobre cómo limpiar y formatear los datos recopilados.
Supongamos que recopilaste una gran cantidad de datos y los importaste a Excel. Sin embargo, te das cuenta de que los datos están desorganizados y desordenados. Por ejemplo, los nombres completos están en la columna B, y quieres separar los nombres y apellidos en dos columnas diferentes. Puedes solicitar a ChatGPT que te proporcione una fórmula para separar nombres y apellidos.
La fórmula generada por ChatGPT para extraer el nombre:
La fórmula generada por ChatGPT para extraer el apellido:
Patrocinado
OxyCopilot es una función de API de web scraping proporcionada por Oxylabs, que permite a los usuarios extraer información relevante según el formato especificado y filtrar los datos no deseados. En el ejemplo siguiente, utilizamos OxyCopilot para optimizar los resultados de la API, recuperando únicamente los cuatro campos de datos clave: precio, nombre, calificación y reseña. Se excluyeron detalles innecesarios, como el contenido, las metaetiquetas y los códigos de estado, lo que facilitó el procesamiento de los datos.
3. Procesar los datos extraídos
3.1 Realizar un análisis de sentimiento
ChatGPT puede realizar análisis de sentimiento en datos extraídos para generar información interpretable a partir de datos de texto no estructurados. Supongamos que extrajo menciones de su marca de una plataforma de redes sociales para analizar el crecimiento de su audiencia. Una vez obtenidos y limpiados los datos recopilados, puede indicarle a ChatGPT que analice el texto y lo clasifique como negativo, neutral o positivo (Figura 4).
Figura 4: Demuestra el proceso de análisis y etiquetado de un documento de texto de ejemplo.
Aquí tienes un ejemplo de cómo puedes indicarle a ChatGPT que realice un análisis de sentimientos:
“Analiza el sentimiento del texto: 'La duración de la batería también es larga'.”
Respuesta de ChatGPT a nuestra consulta:
Cabe señalar que la precisión del análisis de sentimientos puede variar en función de diferentes factores, como la complejidad del texto y los errores que dependen del contexto.
3.2 Categorizar el contenido extraído
ChatGPT puede ayudar a categorizar los datos extraídos en categorías predefinidas. Puedes definir las categorías en las que deseas clasificar el contenido. Aquí tienes un ejemplo de cómo categorizar contenido usando ChatGPT:
Como ejemplo, queremos categorizar el siguiente contenido:
A continuación se muestra el resultado de categorizar los datos extraídos con ChatGPT:
Comentarios 1
Comparte tus ideas
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.
It's almost useless. If you are a good coder, you can easily write this code. I think the better way to extract dynamic or difficult html content, script send html content to chatgpt by api and chatgpt need to return the answer of key content. If this way work, it will be useful. Thanks.