¿Cómo mantener un script con web scraping el mayor tiempo posible?

  • Autor Autor Think Big
  • Fecha de inicio Fecha de inicio
Think Big

Think Big

1
Ni
Verificación en dos pasos activada
Verificado por Whatsapp
Suscripción a IA
Hola,

Me gustaría saber vuestros comentarios acerca de cómo mantener un script basado en web scraping el mayor tiempo posible.

Se me plantea una situación en la que nada más puedo hacer uso de web scraping para extraer datos de una web. No disponen de API.

La idea es desarrollar un script que funcione correctamente el mayor tiempo posible. Para ello, se busca básicamente no ser detectado por la otra web o ser flexible a cambios de estructura de código.

¿Qué precauciones debería tomar a la hora de implementarlo?

P.D. gente en contra del web scraping, abstenerse a comentar en el hilo
 
¿Alguna idea sobre cómo proceder?
 
siendo programador es mas facil el tema de manter actualizado el scrapeador, a mi experiencia no se cuanrto tiempo tienes corriendo el scraper o que deseas scrapeaer, pero puedes hacer que se ejecute cada hora y te copieunos 100 elementos, tambien usalo en paginas de mayor trafico para que no se note que hay un bot comiendose su ancho y sus visitas
 
La pregunta es ¿Qué tipo de cambios piensas recibir/capturar?

Una solución podría ser PhantomJS 2.

Si el contenido que digamos una tabla/div se actualiza vía javascript; pues es posible conocer los requets/responses usando page.onResourceReceived.

Básicamente, interceptarías los responses, y en base a los resultados procesar los datos.

Pero ¿realmente necesitas que sea persistente la obtención de datos? No te sirve ejecutar el scrapping cada x tiempo.

Sent from my SM-G930F using Tapatalk
 
Última edición:
siendo programador es mas facil el tema de manter actualizado el scrapeador, a mi experiencia no se cuanrto tiempo tienes corriendo el scraper o que deseas scrapeaer, pero puedes hacer que se ejecute cada hora y te copieunos 100 elementos, tambien usalo en paginas de mayor trafico para que no se note que hay un bot comiendose su ancho y sus visitas

¿Es recomendable que corra siempre a las mismas horas? ¿Hay alguna forma de poner un cron en random en un rango de tiempo?

Tengo pensado correrlo en páginas con mucho tráfico, por supuesto.

- - - Actualizado - - -

La pregunta es ¿Qué tipo de cambios piensas recibir/capturar?

Una solución podría ser PhantomJS 2.

Si el contenido que digamos una tabla/div se actualiza vía javascript; pues es posible conocer los requets/responses usando page.onResourceReceived.

Básicamente, interceptarías los responses, y en base a los resultados procesar los datos.

Pero ¿realmente necesitas que sea persistente la obtención de datos? No te sirve ejecutar el scrapping cada x tiempo.

Sent from my SM-G930F using Tapatalk

Simplemente es extraer información de una página web.

Por ejemplo, extraer datos de MARCA acerca de resultados de partidos de fútbol: Jornada 11, Liga Santander en Marca.com

Las jornadas van incrementando con el tiempo y los datos son nuevos cada semana.

La idea es correr el scraper con un cron cada X tiempo.
 
¿Alguna sugerencia? Preferiblemente de gente con experiencia en web scraping.
 
¿Algún programador más que pueda aportar su opinión?
 
Atrás
Arriba