Tutorial: [2/2] Crear un pequeño BOT [Extraer películas de web]

Negocios del Web · 5 Sep 2014

[2/3] Crear un pequeño BOT [Extraer películas de web]

Hola a todos 🙄. Aprovecho hoy para realizar otro tutorial respecto a la clase simplehtmldom. En este tutorial iré mas al grano ya que en la primera parte he detallado un poco mas.

Este pequeño tutorial es 100% mio y no ningún copypaste. Realizado especialmente para Forobeta.

-> Primera parte: [1/2] Crear un pequeño BOT [Extraer información de webs]

Este tutorial va a ir dedicado a extraer películas desde website. Este tutorial es simple y rápido yo en particular para hacer este tipo de cosas lo realizo con otras clases mas complejas pero para que "todo el mundo" pueda realizarlo he escogida esta clase que es la mas simple.

Requisitos:

Leer la parte 1 de este tutorial.

Empecemos chicos/a... En este tutorial vamos a realizar una extracción de películas online. Vamos a extraer: titulo de la película, sinopsis, imagen y los enlaces directos a las películas.

De entrada tenemos que tener lo básico en nuestro documento .php. La llamada a la clase simplehtmldom, una variable con la url que vamos a extraer y un cuerpo HTML. En este ejemplo voy a extraer películas de... RePelis | Peliculas Online Gratis Sin Cortes

Primero vamos a revisar el código de fuente para ver donde esta el enlace para acceder a la ficha de la película. Como sabéis el enlace para acceder a la ficha de la película suele ser "padre" de una <img>, lo encontré!.

Una vez localizado donde esta el href toca ir al codigo, como ya vimos en la parte uno realizamos lo siguiente: find("div.peli_img_img a") que significa seleccionamos las <a> que se encuentran dentro del div con class peli_img_img y lo imprimimos con echo $variable->href ya que nos importa lo que se encuentra en el tag href, nos quedaría a si:

Y ya podemos ver en pantalla las fichas de la primera pagina. Para este ejemplo vamos a rescatar las películas de la primera pagina para hacerlo mas simple, para los nuevos.

LISTO, ya tenemos los enlaces de las fichas ahora vamos a acceder a ellos.

Como ya sabemos extraer información vamos a buscar donde se encuentra el titulo de la película:

Listo ya lo he encontrado en este caso tiene mas de una class pero elegimos la que 'creemos' que puede ser para identificar exclusivamente al titulo "intuición". El titulo de la pelicula se encuentra en la class titbkcnt.

Le realizamos un bucle como ya hemos hecho varias veces y imprimimos el resultado.

Esta vez utilizamos la función iconv para convertir el cotejamiento y que no hayan problemas de accentos y ñ.

El código tendría que quedar a si:

Y aquí tenemos el resultado!!!, le he añadido un poco de formato para que se visualice mejor:

No se aprecia el scroll pero ya solo he seleccionado unas pocas para que la imagen no sea muy grande..

Ahora nos falta la sinopsis, imagenes y los links, voy hacer dos seguidas para evitar hacerlos leer mucho 😛. Vamos a buscar en que parte del dom esta la sinopsis.

Como podemos ver la sinopsis esta en una class llamada sinoptxt dentro de un <p> entonces el find seria: find(".sinoptxt p")

Ahora vamos a buscar el link de las imágenes, como extra para nuestro post.

Como podemos ver la <img> esta en una class llamada peli_img_int y nos interesa el atributo src.

Para rescatar su valor se realizaría con: find(".peli_img_int img").

El código nos tendría que quedar a si:

Y aquí tenemos el resultado:

Ahora falta lo interesante, los links directos al vídeo. Vamos a buscarlos!!

Ya lo tenemos encontrado esta vez es un poco mas complicado ya que el atributo obtiene un "-" cosa que eso dificulta imprimir el resultado pero... realizamos otro método para imprimirlo sin problemas.

El código que tenemos y código final es el siguiente:

Lo que hemos realizado a sido un bucle simple para extraer todos los iframes de la class tab_content aunque sea una class generica no todas tienes iframe y si lo tienes son para peliculas, que es lo que nos interesa.

Luego hacemos un if() para extraer solo los links que empiecen por http:// para a si hacer un filtrado algo mas seguro. Luego imprimimos el resultado y...

Como podéis ver ya tenemos todo lo que necesitamos! 🙂

Si te a gustado el tutorial dale a "Me agrada" me ayudara mucho 🙂

Un gran saludo a todos!!

anferro · 5 Sep 2014

Esto me va a servir lo guardo y leo con calma gracias amigo :encouragement:

Negocios del Web · 5 Sep 2014

anferro dijo:
Esto me va a servir lo guardo y leo con calma gracias amigo :encouragement:

Me alegra muchísimo que te pueda servir! 🙂

Aprovecho para aclarar que la web utilizada en el ejemplo ni es de mi propiedad ni conozco al propietario. No lo toméis como spam es una web al azar que había en primera pagina de google.

Espero que os sirva el tutorial 😛8:

LuisNara · 5 Sep 2014

Gracias, hace tiempo buscaba esto, en un rato lo leo con calma.

Eliop · 5 Sep 2014

Excelente aporte hermano, sin duda es excelente. Se crea un bot para subir esos datos a nuestras webs y tendríamos todo automatizado, por así decirlo no has regalado el 50% del trabajo jaja.

MastX · 5 Sep 2014

Excelente aporte!!
Sería interesante saber como importar todos los datos automatizado a entradas de wordpress.. eso ya sería el aporte maestro :encouragement:

ryanxpre · 5 Sep 2014

halgo que estaba Buscando Graxias :encouragement:

Negocios del Web · 5 Sep 2014

Muchas gracias a todos 🙂. Mañana hare un tutorial de como subir rapidamente informacion a uns db mediante un simple framework 🙂

Negocios del Web · 5 Sep 2014

MastX dijo:
Excelente aporte!!
Sería interesante saber como importar todos los datos automatizado a entradas de wordpress.. eso ya sería el aporte maestro :encouragement:

Mañana mismo me pondre a realizar un estudio sobre la db de wordpress para hacer el tutorial que pides 🙂

leit0s · 5 Sep 2014

Muy bueno tuto amigo se agradece el aporte :encouragement:

MastX · 5 Sep 2014

Livetechno dijo:
Mañana mismo me pondre a realizar un estudio sobre la db de wordpress para hacer el tutorial que pides 🙂

Ese tutorial seria increible ya que podriamos adaptar y personalizar nuestro bot aprendido en este tutorial para generar entradas automaticas en wordpress y eso da muuuucho juego.

Negocios del Web · 5 Sep 2014

MastX dijo:
Ese tutorial seria increible ya que podriamos adaptar y personalizar nuestro bot aprendido en este tutorial para generar entradas automaticas en wordpress y eso da muuuucho juego.

Mañana tendre el estudio listo y si es posible lo realizare encantado.

Aprovecho para preguntar; me gustaria mucho hacer un tutorial sobre creacion de bot extrayendo videos de contenido adulto pero no se si las normas me lo permite por tratar del tema adulto (mostrar img, website, etx ) que es? Me podriais decir?

Un saludo!

leit0s · 5 Sep 2014

Creo que no habría problema si difuminas las imágenes y las url, para evitar algún conflicto por lo que aquí se usa adsense :encouragement:

Pdt: en wp creo que es factible hacerlo automático el boot pero y en blogger se puede hacer también???

Andres128 · 5 Sep 2014

Fantástico al igual que la parte uno, me va servir bastante 🙂

Gracias por compartir con la comunidad 🙄

Pd: Podrías subir el archivo php :encouragement::encouragement:

somosmovies · 5 Sep 2014

excelente tutorial :encouragement:

anferro · 5 Sep 2014

MastX dijo:
Excelente aporte!!
Sería interesante saber como importar todos los datos automatizado a entradas de wordpress.. eso ya sería el aporte maestro :encouragement:

exacto o como hacer para que los datos los envie o autopublique en wordpress o blogger

YKMedia · 5 Sep 2014

Gracias lo probaré :encouragement:

Blitzx · 5 Sep 2014

Gracias por la segunda parte

ncboou · 5 Sep 2014

muchas gracias por el aporte estuvo entretenido aprender mas sobre programacion

Likers · 6 Sep 2014

wow que gran aporte!! :encouragement: me lo guardo para leerlo con calma ya que mucho códigos me vuelve loco!! jejej :drunk: gracias y saludos!!

Tutorial: [2/2] Crear un pequeño BOT [Extraer películas de web]

Negocios del Web

anferro

Negocios del Web

LuisNara

Eliop

MastX

ryanxpre

Negocios del Web

Negocios del Web

leit0s

MastX

Negocios del Web

leit0s

Andres128

somosmovies

anferro

YKMedia

Blitzx

ncboou

Likers

Temas similares