Cómo prevenir el scraping de forma efectiva

  • Autor Autor dack
  • Fecha de inicio Fecha de inicio
dack

dack

Iota
Verificación en dos pasos activada
Verificado por Whatsapp
sin mas nada que decir ya me tiene los huevos grandes
 
"Soy inevitable". - Thanos
 
yo se como 😀
 
sin mas nada que decir ya me tiene los huevos grandes
Busca IP's sospechosas, que creas que son de bots o que veas que su dispositivo es extraño, y bloquea la ip para que no acceda a tu sitio

Podrá usar un proxy residencial para hacerse pasar por un humano normal, entonces necesitarás un mapa de calor para tu sitio para poder bloquearlo y entonces ahí empezará el problema porque se mezclará con visitantes de rebote y bots

Además te recomendaría desactivar los feeds en tu sitio, eso ayuda bastante.
 
Copian a web supremas porque no te copiarian a ti?
 
Busca IP's sospechosas, que creas que son de bots o que veas que su dispositivo es extraño, y bloquea la ip para que no acceda a tu sitio

Podrá usar un proxy residencial para hacerse pasar por un humano normal, entonces necesitarás un mapa de calor para tu sitio para poder bloquearlo y entonces ahí empezará el problema porque se mezclará con visitantes de rebote y bots

Además te recomendaría desactivar los feeds en tu sitio, eso ayuda bastante.
Es super facil solo tiene que usar el firewall
 
Un proxy residencial de usa o del país nativo del blog, se la suda al firewall
es que hay es que esta el problema bloqueando ip nunca terminara la forma mas facil de resolver ese problema es bloqueando los servidores yo tengo bloqueado todos los servidores importante y por ende no hay forma de robarme contenido a mi me rebaban contenido a 2 minutos de publicarlo bloquee todos los servidores y listo nunca mas jajajjaajjaja si me copia quee trabaje que sea a manos no con bot
 
es que hay es que esta el problema bloqueando ip nunca terminara la forma mas facil de resolver ese problema es bloqueando los servidores yo tengo bloqueado todos los servidores importante y por ende no hay forma de robarme contenido a mi me rebaban contenido a 2 minutos de publicarlo bloquee todos los servidores y listo nunca mas jajajjaajjaja si me copia quee trabaje que sea a manos no con bot
como hago eso?
 
te hable por privado
 
Por mucho que pongas sucuri, cloudflare bajo ataque o su puta madre, se va a poder seguir haciéndolo de una manera u otra. Lo unico que vas a conseguir es complicar un poco mas la cosa. Pero no lo vas a evitar definitivamente.
 
Tan simple como si los usuarios lo pueden leer el que copia también
 
Veo muchos entendidos en la materia... 🙄

Realmente puedes detener la mayor parte del Scraping partiendo de la base de que sabes como funciona el mismo. La mayoria de bots usan pura request y no son capaces de interpretar JavaScript, hay ya tienes una buena baza para acabar con la mayoria de bots, para los mas complejos que usan Selenium y similares, puedes hacer un script mas complejo que por ejemplo, coja un contenido cifrado en la carga de la web, detecte una acción del usuario como por ejemplo el movimiento del ratón del usuario (La gran mayoria de bots por no decir todos, solo dan click o llaman a los eventos de la web, no mueven el raton.) y entonces descifre el contenido cifrado con una clave random desde el backend. Como medida mas extrema puedes añadir un sistema de captcha para todo el mundo como hace cloudflare pero sin ser cloudflare, ya que hay scripts para realizar bypass del mismo, pero no tantos para captcha, además de que obligas al scraper a pagar por alguna API como deathbycaptcha.

EDIT: Otra idea que se me ocurre, con el texto generar una imagen desde el backend, ya que dudo que ningun bot scraper actual tenga un sistema OCR para rescatar contenido de las webs (No digo que la imagen la hagas tu por que obviamente no podrias saber las dimensiones del dispositivo del visitante y entonces romperias el responsive de tu website).

Para todo lo anterior mencionado necesitaras conocimientos de programación en JavaScript y el lenguaje que uses en backend.

//Regards.
 
Veo muchos entendidos en la materia... 🙄

Realmente puedes detener la mayor parte del Scraping partiendo de la base de que sabes como funciona el mismo. La mayoria de bots usan pura request y no son capaces de interpretar JavaScript, hay ya tienes una buena baza para acabar con la mayoria de bots, para los mas complejos que usan Selenium y similares, puedes hacer un script mas complejo que por ejemplo, coja un contenido cifrado en la carga de la web, detecte una acción del usuario como por ejemplo el movimiento del ratón del usuario (La gran mayoria de bots por no decir todos, solo dan click o llaman a los eventos de la web, no mueven el raton.) y entonces descifre el contenido cifrado con una clave random desde el backend. Como medida mas extrema puedes añadir un sistema de captcha para todo el mundo como hace cloudflare pero sin ser cloudflare, ya que hay scripts para realizar bypass del mismo, pero no tantos para captcha, además de que obligas al scraper a pagar por alguna API como deathbycaptcha.

EDIT: Otra idea que se me ocurre, con el texto generar una imagen desde el backend, ya que dudo que ningun bot scraper actual tenga un sistema OCR para rescatar contenido de las webs (No digo que la imagen la hagas tu por que obviamente no podrias saber las dimensiones del dispositivo del visitante y entonces romperias el responsive de tu website).

Para todo lo anterior mencionado necesitaras conocimientos de programación en JavaScript y el lenguaje que uses en backend.

//Regards.

Muy interesante lo que dices, pero siguen sin ser efectivas al 100%, solo lo complicas un poco mas, se puede controlar el ratón perfectamente, o ver directamente las llamadas que haces a tu backend y simular yo las mismas llamadas. Sobre generar el articulo en una imagen, pierdes SEO a costa de evitar que te copien el texto, que aun así sigue siendo factible con pytesseract por ejemplo.
 
ya le explique a @dack y el lo esta poniendo en practica si en 15 dias o en una semana lo siguen copiando es porque el quiere a mi web no la copian y si lo hacen lo hacen por poco tiempo como mucho una semana
 
ya le explique a @dack y el lo esta poniendo en practica si en 15 dias o en una semana lo siguen copiando es porque el quiere a mi web no la copian y si lo hacen lo hacen por poco tiempo como mucho una semana
Gracias son cosas que no sabia esperemos a ver que pasa seguiré informando
 
Atrás
Arriba