Cómo crear un robot extractor de contenido con PHP

  • Autor Autor djfumon
  • Fecha de inicio Fecha de inicio
djfumon

djfumon

Zeta
Verificación en dos pasos activada
Verificado por Whatsapp
Hola buenas,

me gustaria saber como puedo hacer con php un robot extractor, para poder extraer el contenido de bases de datos de otras webs automaticamente, he visto que hay gente que los vende pero me gustaria saber como podria hacer uno yo.

saludos y gracias.
 
Algo asi como wp-robot? pues creo que funciona por las tags de los blogs de wordpress asi como los rss, y las apis de yahoo answers, flickr etc.. Si quieres hacer algo mas complicado se llama "Information extraction" pero si es mas complicado.
Saludos
 
Se hacen con php y usando preg_match, preg_match_all... 😉
 
Mira acá hay hay un Web Crawler para extraer imágenes y links de un sitio, depronto te sirve.
Puedes descargarlo en el sitio de PHPClasses.

Link de descarga
 
Si lo que quieres es extraer informacion de una pagina web automaticamente y luego procesarla (parsearla, guardarla, lo que quieras hacer), existen muchas herramientas especificas y automatizadas. Ya te han nombrado algunas, yo nunca he usado ninguna ya hecha.

Si lo quieras hacer tu mismo entonces deberias tener conocimientos en algun lenguaje de programacion.
Con php lo basico seria pedir la url que quieres con CURL o algo mas sensillo con FILE_GET_CONTENTS
Ya teniendo el contenido de la pagina deberias parsearla, por ejemplo usando expresiones regulares y las funcionas PREG_MATCH o PREG_MATCH_ALL segun el caso de lo que quieras hacer. Otra alternativa a este paso seria usar XPATH o DOMXPATH.
Aqui ya tendrias la informacion que te interesa parseada y podrias hacer lo que quieras con ella.

Igualmente deberias tener cuidado con lo que quieres hacer, no es muy etico crear una web con contenido ajeno.

Saludos.
 
Opino lo mismo que te ha dicho chapi . De la base de datos de la pagina no puedes extraer nada, solo puedes parsear lo que te muestre , osea parsear cada una de las urls que te interesen o que tenga un API la propia web para compartir sus datos y hacerle peticiones.
No hay nada automatico para eso. Porque ademas tendras que añadirlo a la tuya lo extraido , osea conocer php y mysql (bases de datos).
 

Temas similares

P
Respuestas
2
Visitas
347
migueldeveloper
M
P
Respuestas
13
Visitas
1K
javajuan
J
Atrás
Arriba