Comparación de los 6 mejores proveedores de web scraping de reseñas (Google)
Para probar cómo los proveedores de web scraping manejan la extracción de reseñas de Google, ejecutamos 2500 solicitudes en 5 proveedores sobre 500 URL comerciales de Google Maps y medimos la tasa de éxito, el tiempo de finalización y la salida de metadatos.
Google Referencia de raspado de reseñas de mapas
Para obtener más detalles sobre el proceso de prueba, puede consultar la metodología de evaluación comparativa .
Formato de respuesta y campos de metadatos disponibles por proveedor
Google Proveedores de reseñas de mapas y resultados comparativos
Bright Data alcanzó una tasa de éxito del 39 % en Google Maps utilizando su API dedicada de conjunto de datos de reseñas de mapas Google, que devuelve JSON estructurado con 26 campos por reseña, incluyendo nombre del autor, texto de la reseña, calificación, fecha, respuestas del propietario, fotos y metadatos a nivel de lugar. Fue el único proveedor que devolvió datos estructurados en este dominio.
Oxylabs ofrece una fuente de mapas dedicada Google para resultados de búsqueda local, pero está diseñada para recuperar listados basados en la ubicación en lugar de extraer reseñas de páginas de negocios individuales. Dado que no había una fuente dedicada para la extracción de reseñas, utilizamos la API de la fuente general Google (fuente: google), que acepta cualquier URL. La API devolvió resultados vacíos en las 500 URL, lo que resultó en una tasa de éxito del 0 %.
Decodo ofrece varias configuraciones de web scraping, incluyendo búsqueda y resultados locales de mapas, pero no tiene un endpoint dedicado para la extracción de reseñas de mapas. Usamos el proxy de desbloqueo web con renderizado JavaScript como alternativa, pero devolvió respuestas vacías o de error en las 500 URL, lo que resultó en una tasa de éxito del 0%.
SerpAPI ofrece una API dedicada de reseñas de mapas Google que devuelve JSON estructurado de los listados de mapas Google, incluyendo el texto de la reseña, las calificaciones, los detalles del reseñador y metadatos agregados como menciones de temas y subcalificaciones para comida, servicio y ambiente.
Zyte logró la tasa de éxito más alta en Google Maps con un 41% utilizando su API Extract con renderizado de navegador sin interfaz gráfica. Los datos de las reseñas se extrajeron del HTML renderizado mediante selectores CSS. Si bien esta fue la puntuación más alta en el dominio, refleja el desafío general de extraer datos de Google Maps, donde las reseñas requieren la ejecución de JavaScript y, a menudo, la interacción del usuario para cargarse por completo.
Nimble utilizó su API web con la renderización de JavaScript habilitada, devolviendo HTML renderizado analizado con selectores CSS. Registró una tasa de éxito del 1 % en Google Maps. Aunque las páginas se renderizaron, el contenido de las reseñas no se cargó en la mayoría de los casos, lo que indica que Google Maps requiere más que la renderización estándar del navegador para mostrar las reseñas.
¿Cómo se compara Google Maps con otras plataformas de reseñas para la extracción de datos?
Google Los mapas fueron el dominio más difícil en nuestra prueba comparativa de extracción de reseñas . La tasa de éxito más alta fue del 41%, muy por debajo de lo que medimos en nuestra prueba comparativa de extracción de reseñas de Amazon (96%). Incluso nuestra prueba comparativa de extracción de reseñas de Yelp , donde dos proveedores obtuvieron un 0%, mostró un resultado máximo del 77%.
En Google Maps, dos de los cinco proveedores obtuvieron un 0%, uno un 1%, y los dos primeros alcanzaron el 39% y el 41%. Ningún otro dominio en la evaluación comparativa presentó resultados tan uniformemente bajos entre los proveedores.
La principal diferencia radica en cómo se presenta el contenido de las reseñas. En Amazon y Trustpilot, las reseñas están presentes en el HTML inicial de la página o disponibles a través de API estructuradas con alta fiabilidad. En Maps, las reseñas se cargan completamente mediante JavaScript después de la renderización inicial de la página, lo que las hace inaccesibles para la mayoría de los métodos de extracción de datos.
¿Por qué Google Maps es la plataforma de reseñas más difícil de extraer?
Las reseñas de mapas no se incluyen en el HTML inicial de la página. La página carga primero una estructura básica y luego ejecuta varias llamadas de JavaScript para obtener y mostrar el contenido de las reseñas. En muchos casos, para ver las reseñas posteriores a las primeras, es necesario desplazarse por la página o hacer clic en el botón "Más reseñas".
Esto significa que las solicitudes HTTP estándar devuelven una página sin datos de reseñas. Incluso la renderización sin interfaz gráfica, que funcionó bien en plataformas como Tripadvisor y Yelp, produjo resultados limitados en Google Maps. La tasa de éxito más alta entre los proveedores basados en HTML fue del 41 %, y dos proveedores que utilizaron métodos basados en proxy registraron un 0 %.
Google Maps también utiliza una detección antibot agresiva, que incluye la identificación de solicitudes y la limitación dinámica de contenido. Combinado con la carga de reseñas dependiente de JavaScript, esto hace que Google Maps sea significativamente más difícil de extraer que otras plataformas de reseñas donde el contenido se renderiza en el servidor o está disponible a través de API dedicadas.
Google Metodología de referencia para revisiones de mapas
Probamos 5 proveedores de web scraping con 500 URL de reseñas de negocios de Google Maps, procesando cada URL con todos los proveedores para un total de 2500 solicitudes. Los proveedores fueron seleccionados entre empresas de web scraping con al menos 100 empleados. Cada proveedor recibió un conjunto idéntico de URL y evaluamos tres métricas: tasa de éxito, tiempo de finalización y campos de metadatos disponibles.
Tipos de respuesta
Un proveedor (Bright Data) devolvió JSON estructurado con 26 campos de reseñas analizados a través de su API dedicada de conjunto de datos de reseñas de mapas Google. Los otros cuatro devolvieron HTML renderizado, del cual extrajimos datos de reseñas usando selectores CSS para cinco campos estándar: reviewer_name, review_text, rating, review_date y review_title.
Validación
Las respuestas se validaron en tres etapas:
- Envío : El proveedor debía devolver un código de estado HTTP entre 200 y 399, o 404.
- Ejecución : Para los proveedores con procesamiento asíncrono, la tarea debía finalizar sin tiempo de espera ni errores.
- Verificación de datos : La respuesta debía incluir datos de reseñas extraíbles. Para JSON, esto requería al menos una reseña que contuviera una cadena de texto de reseña o un número entero de calificación. Para HTML, al menos un selector CSS debía devolver contenido.
Realizamos pruebas previas con cada proveedor utilizando URL rotas, páginas de error 404 conocidas y páginas sin reseñas para comprender cómo informan sobre estos casos. Cuando un proveedor indicaba correctamente que faltaba una página o que estaba vacía, el resultado se consideraba válido.
Posteriormente, se aplicó una verificación entre proveedores: si un proveedor no devolvía datos en una URL donde otro proveedor sí había extraído reseñas, ese resultado vacío se marcaba como un fallo. Esto permitía diferenciar las páginas sin reseñas de los casos en los que el proveedor no había podido extraer los datos disponibles.
Tiempo de finalización
Medimos el tiempo real transcurrido desde la solicitud inicial hasta la respuesta final, incluyendo cualquier tiempo de sondeo asíncrono o de espera en cola.
Selección de URL
Las 500 URL se extrajeron de las páginas de negocios de Google Maps, abarcando una variedad de recuentos de reseñas, tipos de negocios y ubicaciones. Se incluyeron los formatos de URL maps/search y maps/place . Se eliminaron los parámetros de configuración regional y los formatos no válidos antes de las pruebas.
Condiciones de prueba
Todos los proveedores operaban bajo las mismas restricciones:
- Una solicitud a la vez, sin ejecución en paralelo.
- Retraso de 2 segundos entre solicitudes
- El error HTTP 429 se gestiona con un tiempo de espera de 30 segundos y hasta 3 reintentos.
- Tiempo de espera de envío de 300 segundos
- Tiempo de espera de ejecución de 600 segundos
- Ejecución única por URL por proveedor
Configuraciones del proveedor
Bright Data utilizó su API de conjunto de datos con un conjunto de datos dedicado de reseñas de mapas Google, que devolvía JSON estructurado con 26 campos por reseña. La API se consultaba a través del punto final /progress/{snapshot_id} a intervalos de 1 segundo hasta que estuviera lista.
Oxylabs utilizó una API de origen dedicada Google (origen: google), pero la configuración devolvió resultados vacíos en todas las URL de este dominio.
Zyte utilizó su API Extract con browserHtml habilitado, renderizando páginas a través de un navegador sin interfaz gráfica y devolviendo HTML analizado con selectores CSS.
Nimble utilizó su API web con render: true para la representación de JavaScript, devolviendo HTML renderizado analizado con selectores CSS.
Decodo utilizó su proxy de desbloqueo web con el encabezado X-SU-Headless para la representación de JavaScript.
Preguntas frecuentes
El web scraping de reseñas de Google Maps consiste en la extracción automatizada de reseñas de clientes, calificaciones y metadatos comerciales de los listados de negocios de Google Maps. Se utiliza para el monitoreo de SEO local, la gestión de la reputación, el análisis de la competencia y la investigación de mercado basada en la ubicación.
Las reseñas de mapas se cargan dinámicamente mediante JavaScript tras la renderización inicial de la página. Primero se carga la estructura de la página y, a continuación, el navegador ejecuta llamadas a la API para obtener el contenido de las reseñas. Para que aparezcan las reseñas adicionales, es necesario desplazarse por la página. Por este motivo, las solicitudes HTTP estándar y el web scraping básico basado en proxy devuelven resultados vacíos.
Los proveedores con API de mapas dedicadas, como la API de conjunto de datos de Bright Data, pueden extraer reseñas sin necesidad de usar un navegador sin interfaz gráfica. La API gestiona la representación y la interacción internamente. Para los enfoques basados en HTML, se requiere un navegador sin interfaz gráfica con renderizado JavaScript, aunque incluso esto produjo resultados limitados en nuestra prueba comparativa.
Sí, Google Maps muestra las reseñas en su idioma original por defecto. Las mismas URL y configuraciones de proveedor funcionan en todos los idiomas. Asegúrese de que las URL no contengan parámetros de configuración regional, ya que estos pueden afectar la visualización de la página y la visibilidad de las reseñas.
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.