Es posible hacer scraping a paginas protegidas por cloudflare?

  • Autor Autor xaiborweb
  • Fecha de inicio Fecha de inicio
xaiborweb

xaiborweb

Programador
No recomendado
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
hola, últimamente e visto muchas webs, con la protección de cloudflare que nos redirecciona 5sg al entrar a la web, mientras crea unas cookies y hace unas validaciones.
PHP:
ejemplo: http://kissasian.com/
por obvias razones hacerle un simple file_get_contents o un curl normalito no funciona, entonces me preguntaba si existe alguna manera para poder hacer scraping a este tipo de paginas con esta protección.
 
[MENTION=35077]xaiborweb[/MENTION] prueba almacenando primero la cookie, una vez hecho esto utiliza cURL y envia la cookie que creaste anteriormente, de esta manera asumo ya te enviara directamente a la web...
 
[MENTION=35077]xaiborweb[/MENTION] prueba almacenando primero la cookie, una vez hecho esto utiliza cURL y envia la cookie que creaste anteriormente, de esta manera asumo ya te enviara directamente a la web...

ya lo intente y no me funciono no se si lo hice mal o el sistema de protección de cloudflare no se puede vencer solo con eso, ya que parte de crear la cookie y validarla luego hace un redireccion con javascript y tengo entendido que el php no ejecuta el javascript, ajax u otro.
 
Has probado con Visual Web Ripper o similar? Al dedicarse a ir abriendo página a página para extraer contenido no creo que te capen.
 
Has probado con Visual Web Ripper o similar? Al dedicarse a ir abriendo página a página para extraer contenido no creo que te capen.

no no e probado pero como es cierta info que necesito obtener me queda mas fácil por php que es también lo que e trabajado, por hay escuche que la protección de cloudflare no se activa con la ip de google, así que estoy intentando subir mi archivo php a google cloud pero no lo e logrado
http://forobeta.com/php/526053-subir-archivo-php-a-google-cloud.html
de casualidad tu sabes como hacerlo?
 
no no e probado pero como es cierta info que necesito obtener me queda mas fácil por php que es también lo que e trabajado, por hay escuche que la protección de cloudflare no se activa con la ip de google, así que estoy intentando subir mi archivo php a google cloud pero no lo e logrado
http://forobeta.com/php/526053-subir-archivo-php-a-google-cloud.html
de casualidad tu sabes como hacerlo?

Ni idea.. Si utilizo VWR es precisamente porque no tendría ni idea de escrapear un sitio con php 😛
 
Con Python y BeautifulSoup supongo!!!
 
Atrás
Arriba