Que pasos seguir para scrapear web y subir y actualizar a mi web ese contendo de forma automática?

  • Autor Autor richardx
  • Fecha de inicio Fecha de inicio
richardx

richardx

Gamma
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Hola a todos. Tengo una duda. Para un proyecto que tengo planeado realizar, necesito scrapear contenido de una web. Este contenido son tablas de posiciones de diferentes torneos de un deporte. La idea es scrapearlo, subirlo a mi web y que a medida que se actualice en la web original, automaticamente se actualice en la mia.

Alguien podría orientarme un poco mencionando a grandes rasgos los pasos que debo seguir para este proceso?
 
Paso 1: Crear el scraper o en su defecto contratar a un programador.

Paso 2: Dejar que el scraper haga su trabajo.
 
Pues eso depende, si el sitio esta hecho en wordpress o es un sitio realizado de 0, pero es relativamente simple, con php programas el scrap y cronjobs ejecutas la tarea cada X tiempo...
 
como dicen mas arriba cada X tiempo ejecutas el bot que revisa, si hay cambios...actualizas tus datos, Has backups constantemente y ten cuidado con los honeypots, yo siempre hago eso cuando me scrapean mis webs.
 
Hola a todos. Tengo una duda. Para un proyecto que tengo planeado realizar, necesito scrapear contenido de una web. Este contenido son tablas de posiciones de diferentes torneos de un deporte. La idea es scrapearlo, subirlo a mi web y que a medida que se actualice en la web original, automaticamente se actualice en la mia.

Alguien podría orientarme un poco mencionando a grandes rasgos los pasos que debo seguir para este proceso?
Si compartes la fuente que mencionas podríamos ver si es scrapeable o no, dependería el modo en el que presente los datos, si usa javascript o si es texto simple, si tiene captchas, si requiere login, sería mas fácil si pudiéramos ver la web
 
Pues como te han dicho, si compartes al menos la estructura del html para ver si se puede

Luego de tener los datos, crear un cron / tarea que lo haga cada x minutos, considerando que por x cantidad de request te pueden bloquear.
 
Pues eso depende, si el sitio esta hecho en wordpress o es un sitio realizado de 0, pero es relativamente simple, con php programas el scrap y cronjobs ejecutas la tarea cada X tiempo...
Si es un sitio Wordpress puedo hacer el scrap con python usando un Selenium?
 
como dicen mas arriba cada X tiempo ejecutas el bot que revisa, si hay cambios...actualizas tus datos, Has backups constantemente y ten cuidado con los honeypots, yo siempre hago eso cuando me scrapean mis webs.
Pero como hago para actualizar mis datos automaticamente cuando se modifiquen en la fuente origianl? Es decir, como estaría conectada mi web con los datos que scrapeo?
 
Si es un sitio Wordpress puedo hacer el scrap con python usando un Selenium?
claro, aunque si esta en wordpress con texto plano creo que te seria mas sencillo hacerle peticiones get y simplemente leer el codigo html y extraer solo lo que necesites
 
Pero como hago para actualizar mis datos automaticamente cuando se modifiquen en la fuente origianl? Es decir, como estaría conectada mi web con los datos que scrapeo?
Por eso te mencione que depende de como este hecho tu sitio, si esta hecho en wordpress pudieras hacerlo de varias formas, por ejemplo usando XMLRPC. Ahora si tu sitio es hecho de 0 y no usas ningun CMS, pues lo mas sencillo seria que el scrap agregue los datos conectadose a la base de datos de tu sitio, o creando una API, en fin hay muchas formas, pero tienes que especificar en que esta hecho tu sitio y de donde quieres escrapear para poder ayudarte mejor.
 
Si es un sitio Wordpress puedo hacer el scrap con python usando un Selenium?
Si o nodejs con puppeteer pero muy ambigua tu pregunta, con mas detalles seguro alguien ya hasta te lo habria hecho.
 
Si o nodejs con puppeteer pero muy ambigua tu pregunta, con mas detalles seguro alguien ya hasta te lo habria hecho.
Es que no tengo definido aun la web que quiero scrapear. Pero por ejemplo, las tablas de posiciones de todas las ligas de futbol te las enseña Google en los respuestas directas. Es posible scrapear eso?
 
Última edición:
Es que no tengo definido aun la web que quiero scrapear. Pero por ejemplo, las tablas de posiciones de todas las ligas de futbol te las enseña Google en los respuestas directas. Es posible scrapear eso?
Si, si es posible. Lo importante es diseñar la base de datos en este caso. Crea todas las tablas que sean necesarias. Leagues, teams, seasons, matches etc etc con los campos que veas necesarios.

Si es un sitio Wordpress puedo hacer el scrap con python usando un Selenium?
Si, pero depende con que tecnología esta hecha la web a scrapear, teniendo en cuenta eso usas selenium, php, python etc

Pero como hago para actualizar mis datos automaticamente cuando se modifiquen en la fuente origianl? Es decir, como estaría conectada mi web con los datos que scrapeo?
tienes que comparar, si digamos revisas cada 5 minutos si hay cambios o no. Tienes que comparar con un estado/valor previo. Si hay cambios scrapeas y almacenas en la BD si no... no haces nada.
 
Es que no tengo definido aun la web que quiero scrapear. Pero por ejemplo, las tablas de posiciones de todas las ligas de futbol te las enseña Google en los respuestas directas. Es posible scrapear eso?
El paso 1 es q web quieres scrappear para poder delinear el scrapper. El paso 2 como alimentar tu web, dependiendo si es wp u otro cms hay soluciones estandar, sino se alimenta la bd directo. No hay mucho más.
 
Atrás
Arriba