richardx
Gamma
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Si compartes la fuente que mencionas podríamos ver si es scrapeable o no, dependería el modo en el que presente los datos, si usa javascript o si es texto simple, si tiene captchas, si requiere login, sería mas fácil si pudiéramos ver la webHola a todos. Tengo una duda. Para un proyecto que tengo planeado realizar, necesito scrapear contenido de una web. Este contenido son tablas de posiciones de diferentes torneos de un deporte. La idea es scrapearlo, subirlo a mi web y que a medida que se actualice en la web original, automaticamente se actualice en la mia.
Alguien podría orientarme un poco mencionando a grandes rasgos los pasos que debo seguir para este proceso?
Si es un sitio Wordpress puedo hacer el scrap con python usando un Selenium?Pues eso depende, si el sitio esta hecho en wordpress o es un sitio realizado de 0, pero es relativamente simple, con php programas el scrap y cronjobs ejecutas la tarea cada X tiempo...
Pero como hago para actualizar mis datos automaticamente cuando se modifiquen en la fuente origianl? Es decir, como estaría conectada mi web con los datos que scrapeo?como dicen mas arriba cada X tiempo ejecutas el bot que revisa, si hay cambios...actualizas tus datos, Has backups constantemente y ten cuidado con los honeypots, yo siempre hago eso cuando me scrapean mis webs.
claro, aunque si esta en wordpress con texto plano creo que te seria mas sencillo hacerle peticiones get y simplemente leer el codigo html y extraer solo lo que necesitesSi es un sitio Wordpress puedo hacer el scrap con python usando un Selenium?
Por eso te mencione que depende de como este hecho tu sitio, si esta hecho en wordpress pudieras hacerlo de varias formas, por ejemplo usando XMLRPC. Ahora si tu sitio es hecho de 0 y no usas ningun CMS, pues lo mas sencillo seria que el scrap agregue los datos conectadose a la base de datos de tu sitio, o creando una API, en fin hay muchas formas, pero tienes que especificar en que esta hecho tu sitio y de donde quieres escrapear para poder ayudarte mejor.Pero como hago para actualizar mis datos automaticamente cuando se modifiquen en la fuente origianl? Es decir, como estaría conectada mi web con los datos que scrapeo?
Si o nodejs con puppeteer pero muy ambigua tu pregunta, con mas detalles seguro alguien ya hasta te lo habria hecho.Si es un sitio Wordpress puedo hacer el scrap con python usando un Selenium?
Es que no tengo definido aun la web que quiero scrapear. Pero por ejemplo, las tablas de posiciones de todas las ligas de futbol te las enseña Google en los respuestas directas. Es posible scrapear eso?Si o nodejs con puppeteer pero muy ambigua tu pregunta, con mas detalles seguro alguien ya hasta te lo habria hecho.
Si, si es posible. Lo importante es diseñar la base de datos en este caso. Crea todas las tablas que sean necesarias. Leagues, teams, seasons, matches etc etc con los campos que veas necesarios.Es que no tengo definido aun la web que quiero scrapear. Pero por ejemplo, las tablas de posiciones de todas las ligas de futbol te las enseña Google en los respuestas directas. Es posible scrapear eso?
Si, pero depende con que tecnología esta hecha la web a scrapear, teniendo en cuenta eso usas selenium, php, python etcSi es un sitio Wordpress puedo hacer el scrap con python usando un Selenium?
tienes que comparar, si digamos revisas cada 5 minutos si hay cambios o no. Tienes que comparar con un estado/valor previo. Si hay cambios scrapeas y almacenas en la BD si no... no haces nada.Pero como hago para actualizar mis datos automaticamente cuando se modifiquen en la fuente origianl? Es decir, como estaría conectada mi web con los datos que scrapeo?
El paso 1 es q web quieres scrappear para poder delinear el scrapper. El paso 2 como alimentar tu web, dependiendo si es wp u otro cms hay soluciones estandar, sino se alimenta la bd directo. No hay mucho más.Es que no tengo definido aun la web que quiero scrapear. Pero por ejemplo, las tablas de posiciones de todas las ligas de futbol te las enseña Google en los respuestas directas. Es posible scrapear eso?
Utilizamos cookies y tecnologías similares para los siguientes fines:
¿Aceptas las cookies y estas tecnologías?
Utilizamos cookies y tecnologías similares para los siguientes fines:
¿Aceptas las cookies y estas tecnologías?