Tutorial: [2/2] Crear un pequeño BOT [Extraer películas de web]

  • Autor Autor Negocios del Web
  • Fecha de inicio Fecha de inicio
Estado

🔒 Este tema está cerrado para nuevas respuestas.

⏰ Solo el creador del tema puede solicitar la reapertura de sus propios temas, pero únicamente dentro de los 60 días previos a la última actualización.

Negocios del Web

Negocios del Web

Épsilon
Hospedaje
Verificación en dos pasos activada
[2/3] Crear un pequeño BOT [Extraer películas de web]

Hola a todos 🙄. Aprovecho hoy para realizar otro tutorial respecto a la clase simplehtmldom. En este tutorial iré mas al grano ya que en la primera parte he detallado un poco mas.

Este pequeño tutorial es 100% mio y no ningún copypaste. Realizado especialmente para Forobeta.

-> Primera parte: [1/2] Crear un pequeño BOT [Extraer información de webs]

Este tutorial va a ir dedicado a extraer películas desde website. Este tutorial es simple y rápido yo en particular para hacer este tipo de cosas lo realizo con otras clases mas complejas pero para que "todo el mundo" pueda realizarlo he escogida esta clase que es la mas simple.

Requisitos:

  1. Leer la parte 1 de este tutorial.
Empecemos chicos/a... En este tutorial vamos a realizar una extracción de películas online. Vamos a extraer: titulo de la película, sinopsis, imagen y los enlaces directos a las películas.

De entrada tenemos que tener lo básico en nuestro documento .php. La llamada a la clase simplehtmldom, una variable con la url que vamos a extraer y un cuerpo HTML. En este ejemplo voy a extraer películas de... RePelis | Peliculas Online Gratis Sin Cortes

pDDY0k.png


Primero vamos a revisar el código de fuente para ver donde esta el enlace para acceder a la ficha de la película. Como sabéis el enlace para acceder a la ficha de la película suele ser "padre" de una <img>, lo encontré!.

K2h1hi.png


Una vez localizado donde esta el href toca ir al codigo, como ya vimos en la parte uno realizamos lo siguiente: find("div.peli_img_img a") que significa seleccionamos las <a> que se encuentran dentro del div con class peli_img_img y lo imprimimos con echo $variable->href ya que nos importa lo que se encuentra en el tag href, nos quedaría a si:

t5mWvW.png


Y ya podemos ver en pantalla las fichas de la primera pagina. Para este ejemplo vamos a rescatar las películas de la primera pagina para hacerlo mas simple, para los nuevos.

vCbV7H.png


LISTO, ya tenemos los enlaces de las fichas ahora vamos a acceder a ellos.

gCKMH7.png


Como ya sabemos extraer información vamos a buscar donde se encuentra el titulo de la película:

eXTWBI.png


Listo ya lo he encontrado en este caso tiene mas de una class pero elegimos la que 'creemos' que puede ser para identificar exclusivamente al titulo "intuición". El titulo de la pelicula se encuentra en la class titbkcnt.

Le realizamos un bucle como ya hemos hecho varias veces y imprimimos el resultado.

Esta vez utilizamos la función iconv para convertir el cotejamiento y que no hayan problemas de accentos y ñ.

El código tendría que quedar a si:

ir5y9Z.png


Y aquí tenemos el resultado!!!, le he añadido un poco de formato para que se visualice mejor:

ZRl1AT.png


No se aprecia el scroll pero ya solo he seleccionado unas pocas para que la imagen no sea muy grande..

Ahora nos falta la sinopsis, imagenes y los links, voy hacer dos seguidas para evitar hacerlos leer mucho 😛. Vamos a buscar en que parte del dom esta la sinopsis.

GTV4Ho.png


Como podemos ver la sinopsis esta en una class llamada sinoptxt dentro de un <p> entonces el find seria: find(".sinoptxt p")

Ahora vamos a buscar el link de las imágenes, como extra para nuestro post.

Como podemos ver la <img> esta en una class llamada peli_img_int y nos interesa el atributo src.

7ZbBVb.png


Para rescatar su valor se realizaría con: find(".peli_img_int img").

El código nos tendría que quedar a si:

Q3QkPW.png


Y aquí tenemos el resultado:

B0YJk4.png


Ahora falta lo interesante, los links directos al vídeo. Vamos a buscarlos!!

q8gjjn.png


Ya lo tenemos encontrado esta vez es un poco mas complicado ya que el atributo obtiene un "-" cosa que eso dificulta imprimir el resultado pero... realizamos otro método para imprimirlo sin problemas.

El código que tenemos y código final es el siguiente:

lPRK1B.png


Lo que hemos realizado a sido un bucle simple para extraer todos los iframes de la class tab_content aunque sea una class generica no todas tienes iframe y si lo tienes son para peliculas, que es lo que nos interesa.

Luego hacemos un if() para extraer solo los links que empiecen por http:// para a si hacer un filtrado algo mas seguro. Luego imprimimos el resultado y...

7a1CL6.png


Como podéis ver ya tenemos todo lo que necesitamos! 🙂

Si te a gustado el tutorial dale a "Me agrada" me ayudara mucho 🙂

Un gran saludo a todos!!
 
Última edición:
Esto me va a servir lo guardo y leo con calma gracias amigo :encouragement:
 
Esto me va a servir lo guardo y leo con calma gracias amigo :encouragement:

Me alegra muchísimo que te pueda servir! 🙂

Aprovecho para aclarar que la web utilizada en el ejemplo ni es de mi propiedad ni conozco al propietario. No lo toméis como spam es una web al azar que había en primera pagina de google.

Espero que os sirva el tutorial 😛8:
 
Gracias, hace tiempo buscaba esto, en un rato lo leo con calma.
 
Excelente aporte hermano, sin duda es excelente. Se crea un bot para subir esos datos a nuestras webs y tendríamos todo automatizado, por así decirlo no has regalado el 50% del trabajo jaja.
 
Excelente aporte!!
Sería interesante saber como importar todos los datos automatizado a entradas de wordpress.. eso ya sería el aporte maestro :encouragement:
 
halgo que estaba Buscando Graxias :encouragement:
 
Muchas gracias a todos 🙂. Mañana hare un tutorial de como subir rapidamente informacion a uns db mediante un simple framework 🙂
 
Excelente aporte!!
Sería interesante saber como importar todos los datos automatizado a entradas de wordpress.. eso ya sería el aporte maestro :encouragement:
Mañana mismo me pondre a realizar un estudio sobre la db de wordpress para hacer el tutorial que pides 🙂
 
Muy bueno tuto amigo se agradece el aporte :encouragement:
 
Mañana mismo me pondre a realizar un estudio sobre la db de wordpress para hacer el tutorial que pides 🙂
Ese tutorial seria increible ya que podriamos adaptar y personalizar nuestro bot aprendido en este tutorial para generar entradas automaticas en wordpress y eso da muuuucho juego.
 
Ese tutorial seria increible ya que podriamos adaptar y personalizar nuestro bot aprendido en este tutorial para generar entradas automaticas en wordpress y eso da muuuucho juego.
Mañana tendre el estudio listo y si es posible lo realizare encantado.

Aprovecho para preguntar; me gustaria mucho hacer un tutorial sobre creacion de bot extrayendo videos de contenido adulto pero no se si las normas me lo permite por tratar del tema adulto (mostrar img, website, etx ) que es? Me podriais decir?

Un saludo!
 
Creo que no habría problema si difuminas las imágenes y las url, para evitar algún conflicto por lo que aquí se usa adsense :encouragement:

Pdt: en wp creo que es factible hacerlo automático el boot pero y en blogger se puede hacer también???
 
Fantástico al igual que la parte uno, me va servir bastante 🙂

Gracias por compartir con la comunidad 🙄

Pd: Podrías subir el archivo php :encouragement::encouragement:
 
excelente tutorial :encouragement:
 
Excelente aporte!!
Sería interesante saber como importar todos los datos automatizado a entradas de wordpress.. eso ya sería el aporte maestro :encouragement:

exacto o como hacer para que los datos los envie o autopublique en wordpress o blogger
 
Gracias lo probaré :encouragement:
 
Gracias por la segunda parte
 
muchas gracias por el aporte estuvo entretenido aprender mas sobre programacion
 
wow que gran aporte!! :encouragement: me lo guardo para leerlo con calma ya que mucho códigos me vuelve loco!! jejej :drunk: gracias y saludos!!
 
Estado

🔒 Este tema está cerrado para nuevas respuestas.

⏰ Solo el creador del tema puede solicitar la reapertura de sus propios temas, pero únicamente dentro de los 60 días previos a la última actualización.

Temas similares

Negocios del Web
Respuestas
47
Visitas
10K
Negocios del Web
Negocios del Web
Atrás
Arriba