Que pasos seguir para scrapear web y subir y actualizar a mi web ese contendo de forma automática?

richardx · 8 May 2023

Hola a todos. Tengo una duda. Para un proyecto que tengo planeado realizar, necesito scrapear contenido de una web. Este contenido son tablas de posiciones de diferentes torneos de un deporte. La idea es scrapearlo, subirlo a mi web y que a medida que se actualice en la web original, automaticamente se actualice en la mia.

Alguien podría orientarme un poco mencionando a grandes rasgos los pasos que debo seguir para este proceso?

Benderslab · 8 May 2023

Paso 1: Crear el scraper o en su defecto contratar a un programador.

Paso 2: Dejar que el scraper haga su trabajo.

housedir · 8 May 2023

Pues eso depende, si el sitio esta hecho en wordpress o es un sitio realizado de 0, pero es relativamente simple, con php programas el scrap y cronjobs ejecutas la tarea cada X tiempo...

m16u31 · 8 May 2023

como dicen mas arriba cada X tiempo ejecutas el bot que revisa, si hay cambios...actualizas tus datos, Has backups constantemente y ten cuidado con los honeypots, yo siempre hago eso cuando me scrapean mis webs.

David Morales · 8 May 2023

richardx dijo:
Hola a todos. Tengo una duda. Para un proyecto que tengo planeado realizar, necesito scrapear contenido de una web. Este contenido son tablas de posiciones de diferentes torneos de un deporte. La idea es scrapearlo, subirlo a mi web y que a medida que se actualice en la web original, automaticamente se actualice en la mia.

Alguien podría orientarme un poco mencionando a grandes rasgos los pasos que debo seguir para este proceso?

Si compartes la fuente que mencionas podríamos ver si es scrapeable o no, dependería el modo en el que presente los datos, si usa javascript o si es texto simple, si tiene captchas, si requiere login, sería mas fácil si pudiéramos ver la web

zerocool91 · 8 May 2023

Pues como te han dicho, si compartes al menos la estructura del html para ver si se puede

Luego de tener los datos, crear un cron / tarea que lo haga cada x minutos, considerando que por x cantidad de request te pueden bloquear.

richardx · 8 May 2023

housedir dijo:
Pues eso depende, si el sitio esta hecho en wordpress o es un sitio realizado de 0, pero es relativamente simple, con php programas el scrap y cronjobs ejecutas la tarea cada X tiempo...

Si es un sitio Wordpress puedo hacer el scrap con python usando un Selenium?

richardx · 8 May 2023

m16u31 dijo:
como dicen mas arriba cada X tiempo ejecutas el bot que revisa, si hay cambios...actualizas tus datos, Has backups constantemente y ten cuidado con los honeypots, yo siempre hago eso cuando me scrapean mis webs.

Pero como hago para actualizar mis datos automaticamente cuando se modifiquen en la fuente origianl? Es decir, como estaría conectada mi web con los datos que scrapeo?

housedir · 8 May 2023

richardx dijo:
Si es un sitio Wordpress puedo hacer el scrap con python usando un Selenium?

claro, aunque si esta en wordpress con texto plano creo que te seria mas sencillo hacerle peticiones get y simplemente leer el codigo html y extraer solo lo que necesites

housedir · 8 May 2023

richardx dijo:
Pero como hago para actualizar mis datos automaticamente cuando se modifiquen en la fuente origianl? Es decir, como estaría conectada mi web con los datos que scrapeo?

Por eso te mencione que depende de como este hecho tu sitio, si esta hecho en wordpress pudieras hacerlo de varias formas, por ejemplo usando XMLRPC. Ahora si tu sitio es hecho de 0 y no usas ningun CMS, pues lo mas sencillo seria que el scrap agregue los datos conectadose a la base de datos de tu sitio, o creando una API, en fin hay muchas formas, pero tienes que especificar en que esta hecho tu sitio y de donde quieres escrapear para poder ayudarte mejor.

Benderslab · 8 May 2023

richardx dijo:
Si es un sitio Wordpress puedo hacer el scrap con python usando un Selenium?

Si o nodejs con puppeteer pero muy ambigua tu pregunta, con mas detalles seguro alguien ya hasta te lo habria hecho.

richardx · 8 May 2023

Benderslab dijo:
Si o nodejs con puppeteer pero muy ambigua tu pregunta, con mas detalles seguro alguien ya hasta te lo habria hecho.

Es que no tengo definido aun la web que quiero scrapear. Pero por ejemplo, las tablas de posiciones de todas las ligas de futbol te las enseña Google en los respuestas directas. Es posible scrapear eso?

m16u31 · 8 May 2023

richardx dijo:
Es que no tengo definido aun la web que quiero scrapear. Pero por ejemplo, las tablas de posiciones de todas las ligas de futbol te las enseña Google en los respuestas directas. Es posible scrapear eso?

Si, si es posible. Lo importante es diseñar la base de datos en este caso. Crea todas las tablas que sean necesarias. Leagues, teams, seasons, matches etc etc con los campos que veas necesarios.

richardx dijo:
Si es un sitio Wordpress puedo hacer el scrap con python usando un Selenium?

Si, pero depende con que tecnología esta hecha la web a scrapear, teniendo en cuenta eso usas selenium, php, python etc

richardx dijo:
Pero como hago para actualizar mis datos automaticamente cuando se modifiquen en la fuente origianl? Es decir, como estaría conectada mi web con los datos que scrapeo?

tienes que comparar, si digamos revisas cada 5 minutos si hay cambios o no. Tienes que comparar con un estado/valor previo. Si hay cambios scrapeas y almacenas en la BD si no... no haces nada.

damefuego · 8 May 2023

richardx dijo:
Es que no tengo definido aun la web que quiero scrapear. Pero por ejemplo, las tablas de posiciones de todas las ligas de futbol te las enseña Google en los respuestas directas. Es posible scrapear eso?

El paso 1 es q web quieres scrappear para poder delinear el scrapper. El paso 2 como alimentar tu web, dependiendo si es wp u otro cms hay soluciones estandar, sino se alimenta la bd directo. No hay mucho más.

Que pasos seguir para scrapear web y subir y actualizar a mi web ese contendo de forma automática?

richardx

Benderslab

housedir

m16u31

David Morales

zerocool91

richardx

richardx

housedir

housedir

Benderslab

richardx

m16u31

damefuego