¿Cómo mantener un script con web scraping el mayor tiempo posible?

Think Big · 7 Nov 2016

Hola,

Me gustaría saber vuestros comentarios acerca de cómo mantener un script basado en web scraping el mayor tiempo posible.

Se me plantea una situación en la que nada más puedo hacer uso de web scraping para extraer datos de una web. No disponen de API.

La idea es desarrollar un script que funcione correctamente el mayor tiempo posible. Para ello, se busca básicamente no ser detectado por la otra web o ser flexible a cambios de estructura de código.

¿Qué precauciones debería tomar a la hora de implementarlo?

P.D. gente en contra del web scraping, abstenerse a comentar en el hilo

Think Big · 10 Nov 2016

¿Alguna idea sobre cómo proceder?

rodrigomx · 14 Nov 2016

siendo programador es mas facil el tema de manter actualizado el scrapeador, a mi experiencia no se cuanrto tiempo tienes corriendo el scraper o que deseas scrapeaer, pero puedes hacer que se ejecute cada hora y te copieunos 100 elementos, tambien usalo en paginas de mayor trafico para que no se note que hay un bot comiendose su ancho y sus visitas

iamcholo · 14 Nov 2016

La pregunta es ¿Qué tipo de cambios piensas recibir/capturar?

Una solución podría ser PhantomJS 2.

Si el contenido que digamos una tabla/div se actualiza vía javascript; pues es posible conocer los requets/responses usando page.onResourceReceived.

Básicamente, interceptarías los responses, y en base a los resultados procesar los datos.

Pero ¿realmente necesitas que sea persistente la obtención de datos? No te sirve ejecutar el scrapping cada x tiempo.

Sent from my SM-G930F using Tapatalk

Think Big · 15 Nov 2016

rodrigomx dijo:
siendo programador es mas facil el tema de manter actualizado el scrapeador, a mi experiencia no se cuanrto tiempo tienes corriendo el scraper o que deseas scrapeaer, pero puedes hacer que se ejecute cada hora y te copieunos 100 elementos, tambien usalo en paginas de mayor trafico para que no se note que hay un bot comiendose su ancho y sus visitas

¿Es recomendable que corra siempre a las mismas horas? ¿Hay alguna forma de poner un cron en random en un rango de tiempo?

Tengo pensado correrlo en páginas con mucho tráfico, por supuesto.

- - - Actualizado - - -

iamcholo dijo:
La pregunta es ¿Qué tipo de cambios piensas recibir/capturar?

Una solución podría ser PhantomJS 2.

Si el contenido que digamos una tabla/div se actualiza vía javascript; pues es posible conocer los requets/responses usando page.onResourceReceived.

Básicamente, interceptarías los responses, y en base a los resultados procesar los datos.

Pero ¿realmente necesitas que sea persistente la obtención de datos? No te sirve ejecutar el scrapping cada x tiempo.

Sent from my SM-G930F using Tapatalk

Simplemente es extraer información de una página web.

Por ejemplo, extraer datos de MARCA acerca de resultados de partidos de fútbol: Jornada 11, Liga Santander en Marca.com

Las jornadas van incrementando con el tiempo y los datos son nuevos cada semana.

La idea es correr el scraper con un cron cada X tiempo.

Think Big · 20 Nov 2016

¿Alguna sugerencia? Preferiblemente de gente con experiencia en web scraping.

piano · 20 Nov 2016

Me equivoqué de hilo...

Think Big · 9 Dic 2016

¿Algún programador más que pueda aportar su opinión?

¿Cómo mantener un script con web scraping el mayor tiempo posible?

Think Big

Think Big

rodrigomx

iamcholo

Think Big

Think Big

piano

Think Big