Como evitar scrapping?

dack Seguir

Iota
Verificación en dos pasos desactivada
Verificado por Whatsapp
Desde
29 Abr 2015
Mensajes
2.034
Hola betas tengo una web warez y me la estan scrapping me gustaria saber como freno o elimino eso por favor de verdad necesito ayuda
 

leo95jose

Épsilon
Verificado
Verificación en dos pasos activada
Verificado por Whatsapp
Verificado por Binance
Desde
23 Jul 2015
Mensajes
999
Hola no es algo que puedas frenar son muchos los rusos, chinos y mas que se la pasan en eso, en su momento me funciono https://help.directadmin.com/item.php?id=33 para evitar hotlink de imágenes y otros archivos asi evitar que se coman tu ancho de banda, si es Apache tu servidor te servira
 

dack

Iota
Verificación en dos pasos desactivada
Verificado por Whatsapp
Desde
29 Abr 2015
Mensajes
2.034
Hola no es algo que puedas frenar son muchos los rusos, chinos y mas que se la pasan en eso, en su momento me funciono https://help.directadmin.com/item.php?id=33 para evitar hotlink de imágenes y otros archivos asi evitar que se coman tu ancho de banda, si es Apache tu servidor te servira
No creo que sean ni rusos ni chinos sospecho que es un venezolano porque lo descubri en facebook publicando su mierdaweb con perfil fake y en su perfil pone que es de trujillo solo una persona que conozca a venezuela pone esa dirección.

Ni los rusus ni chinos comparten en grupos de facebook y menos latinos!
 

leo95jose

Épsilon
Verificado
Verificación en dos pasos activada
Verificado por Whatsapp
Verificado por Binance
Desde
23 Jul 2015
Mensajes
999
No creo que sean ni rusos ni chinos sospecho que es un venezolano porque lo descubri en facebook publicando su mierdaweb con perfil fake y en su perfil pone que es de trujillo solo una persona que conozca a venezuela pone esa dirección.

Ni los rusus ni chinos comparten en grupos de facebook y menos latinos!
Puedes bloquear httrack y otros copiadores, pero fijate si te esta copiando en tiempo real de ser asi lo esta haciendo con un metodo curl y podrias desindexarlo de google en tal caso, ademas puedes reportar a google por suplantacion: https://safebrowsing.google.com/safebrowsing/report_general/
 

dack

Iota
Verificación en dos pasos desactivada
Verificado por Whatsapp
Desde
29 Abr 2015
Mensajes
2.034

turcios

Dseda
Verificación en dos pasos activada
Verificado por Whatsapp
¡Ha verificado su Paypal!
Desde
26 Mar 2015
Mensajes
1.181
Hay muchas formas de frenarlo, si puedes obtener la ip y bloquearla desde tu cpanel o de tu web con algún plugin
 

leo95jose

Épsilon
Verificado
Verificación en dos pasos activada
Verificado por Whatsapp
Verificado por Binance
Desde
23 Jul 2015
Mensajes
999
Hay muchas formas de frenarlo, si puedes obtener la ip y bloquearla desde tu cpanel o de tu web con algún plugin
Los que lo hacen suelen usar proxys, asi que puede bloquear las ip que quiera igual no solucionara. Que formas ademas de la ip conoces? porque yo tengo a unos fastidiandome y no vi mas que hacer protección global en htacces
 

Andres128

Iota
Programador
Verificación en dos pasos activada
Desde
17 Feb 2012
Mensajes
2.391
No creo que sean ni rusos ni chinos sospecho que es un venezolano porque lo descubri en facebook publicando su mierdaweb con perfil fake y en su perfil pone que es de trujillo solo una persona que conozca a venezuela pone esa dirección.

Ni los rusus ni chinos comparten en grupos de facebook y menos latinos!
Pues es que tiene un bot automático que saca el contenido de tu sitio puede fácilmente usar curl con php, o con python u otro lenguaje de programación....

Lo más importante es obtener la IP desde donde lo hacen para poder bloquearla aun así con un proxy puede saltar esta limitación... Yo tengo experiencia con el scraping y te puedo decir que es imposible detener el sraping pero si se puede limitar y hacerlo más difícil para el que roba el contenido.

Se pueden hacer varias cosas para obtener la IP.

(1). Hacer un log no se si tengas wordpress puedes buscar un plugin.

+++ Lo importante es que se almacene la IP de todos los usuarios que ingresan al sitio, con sus respectivas cabeceras de petición.
Proceder analizar estos datos:
+++ Ejemplo de que país es la IP, si tu sitio es en español y están ingresando desde una IP extranjera como estados unidos prender las alarmas.
+++ Revisar las cabeceras muchos de los que hacen estos bots olvidan colocar unas cabeceras comunes (Request Headers) en sus peticiones, cosa que nunca lo hace un navegador web de un usuario real, tales como accept, accept-language, el user agent que sea de un navegador conocido.

(2). Sistema limitado por IP con tiempo.

(3). Hacerle cambios al HTML del contenido constantemente pues el robot lo tienen configurado por ejemplo para sacar el contenido de este div: <div id="mi-contenido">CONTENIDO</div> entonces cambio el id por <div id="otroo">CONTENIDO</div> entonces el que roba tendrá que actualizar el bot, bueno todo depende del sitio web y del bot que saque el contenido.

(4). Proteger lo importante que es los enlaces con captcha como dice el usuario de arriba.

(5). O joder su trafico mandarlo a xvideos o a otro sitio de adultos a sus usuarios con un javascript: Coloca esto en tus entradas.

<script type="text/javascript">if(location.href.indexOf("nombredemiweb")<=0){ document.location="http://www.nombredemiweb.com/"; }</script>


Aquí hay más trucos para contrarrestar un poco al copiador:

 

leo95jose

Épsilon
Verificado
Verificación en dos pasos activada
Verificado por Whatsapp
Verificado por Binance
Desde
23 Jul 2015
Mensajes
999
Pues es que tiene un bot automático que saca el contenido de tu sitio puede fácilmente usar curl con php, o con python u otro lenguaje de programación....

Lo más importante es obtener la IP desde donde lo hacen para poder bloquearla aun así con un proxy puede saltar esta limitación... Yo tengo experiencia con el scraping y te puedo decir que es imposible detener el sraping pero si se puede limitar y hacerlo más difícil para el que roba el contenido.

Se pueden hacer varias cosas para obtener la IP.

(1). Hacer un log no se si tengas wordpress puedes buscar un plugin.

+++ Lo importante es que se almacene la IP de todos los usuarios que ingresan al sitio, con sus respectivas cabeceras de petición.
Proceder analizar estos datos:
+++ Ejemplo de que país es la IP, si tu sitio es en español y están ingresando desde una IP extranjera como estados unidos prender las alarmas.
+++ Revisar las cabeceras muchos de los que hacen estos bots olvidan colocar unas cabeceras comunes (Request Headers) en sus peticiones, cosa que nunca lo hace un navegador web de un usuario real, tales como accept, accept-language, el user agent que sea de un navegador conocido.

(2). Sistema limitado por IP con tiempo.

(3). Hacerle cambios al HTML del contenido constantemente pues el robot lo tienen configurado por ejemplo para sacar el contenido de este div: <div id="mi-contenido">CONTENIDO</div> entonces cambio el id por <div id="otroo">CONTENIDO</div> entonces el que roba tendrá que actualizar el bot, bueno todo depende del sitio web y del bot que saque el contenido.

(4). Proteger lo importante que es los enlaces con captcha como dice el usuario de arriba.

(5). O joder su trafico mandarlo a xvideos o a otro sitio de adultos a sus usuarios con un javascript: Coloca esto en tus entradas.

<script type="text/javascript">if(location.href.indexOf("nombredemiweb")<=0){ document.location="http://www.nombredemiweb.com/"; }</script>


Aquí hay más trucos para contrarrestar un poco al copiador:

Son muy buenos los datos que das, me servirán.
En el caso del html si es web espejo todo lo que cambie cambiara la persona en el que roba el contenido apareceria al instante sin cambiar nada en el bot.
Cloudflare no lo soluciona lamentablemente.
 

Dieguit0sk8

Delta
Verificación en dos pasos desactivada
Verificado por Whatsapp
Desde
6 Jul 2012
Mensajes
558
1) Encriptar codigo de fuente con AES o otro encriptador (solo el contenido importante, LINKS DE DESCARGA y VIDEO PLAYERS)
2) Generar div con id randoms (solo a los que alojan los links de descarga y video players)
3) Usar ReCaptcha para protejer los players y links de descarga
4) Visitar si tenes cpanel, el awstats y ver los ip que te visitan, te divide por robots proxy etc.
5) Lograr bloquear algunos ips o usar una API para detectar proxy y bloquearles o no mostrarle contenido importante.
 

leo95jose

Épsilon
Verificado
Verificación en dos pasos activada
Verificado por Whatsapp
Verificado por Binance
Desde
23 Jul 2015
Mensajes
999
Lo de agregar ReCaptcha si serie de lo mas util, porque aun en el caso de copiarlo no se ejecutaría en la web que copia por no coincidir el id
 

Sorda

Iota
Verificación en dos pasos activada
Verificado por Whatsapp
Desde
4 Jul 2017
Mensajes
2.186
Quieres que dejen de copiarte I que deje de aparecer en Google dicha página, si quieres lo segundo, agrega el dominio de esa página a tu search console y luego subes el archivo a tu web, cómo esa copia todo de tu web también va copiar el archivo una vez hecho y la tengas agregada le das en eliminar de Google .
Hace mucho lo hice y me funcionó, actualmente no sé si aún se puede.
 

leo95jose

Épsilon
Verificado
Verificación en dos pasos activada
Verificado por Whatsapp
Verificado por Binance
Desde
23 Jul 2015
Mensajes
999
Quieres que dejen de copiarte I que deje de aparecer en Google dicha página, si quieres lo segundo, agrega el dominio de esa página a tu search console y luego subes el archivo a tu web, cómo esa copia todo de tu web también va copiar el archivo una vez hecho y la tengas agregada le das en eliminar de Google .
Hace mucho lo hice y me funcionó, actualmente no sé si aún se puede.
Este tema de aqui https://forobeta.com/temas/te-han-clonado-la-web-webs-espejo-y-solucion-bastante-simple.554282/ y si sigue funcionando lo realice como por enero de este año
 

turcios

Dseda
Verificación en dos pasos activada
Verificado por Whatsapp
¡Ha verificado su Paypal!
Desde
26 Mar 2015
Mensajes
1.181
Puedes usar cloudflare activa la. Opción bajo ataque, esta forma seria la definitiva, otra opción que se me
Son muy buenos los datos que das, me servirán.
En el caso del html si es web espejo todo lo que cambie cambiara la persona en el que roba el contenido apareceria al instante sin cambiar nada en el bot.
Cloudflare no lo soluciona lamentablemente.
activa la opcion
Under Attack Mode
 

leo95jose

Épsilon
Verificado
Verificación en dos pasos activada
Verificado por Whatsapp
Verificado por Binance
Desde
23 Jul 2015
Mensajes
999
Puedes usar cloudflare activa la. Opción bajo ataque, esta forma seria la definitiva, otra opción que se me

activa la opcion
Under Attack Mode
lo pasara igual, así como los waf, son persistentes, en el caso del usuario creador del tema quiza lo pueda solucionar viendo que no es totalmente automático como el comenta y se cansa el que copia, pero en muchos otros casos lo hacen tan en gran escala con millones de webs que es casi imposible frenarlos.
 

dack

Iota
Verificación en dos pasos desactivada
Verificado por Whatsapp
Desde
29 Abr 2015
Mensajes
2.034
Quieres que dejen de copiarte I que deje de aparecer en Google dicha página, si quieres lo segundo, agrega el dominio de esa página a tu search console y luego subes el archivo a tu web, cómo esa copia todo de tu web también va copiar el archivo una vez hecho y la tengas agregada le das en eliminar de Google .
Hace mucho lo hice y me funcionó, actualmente no sé si aún se puede.
ya intente eso no sube los archivos puse cualquie file ejemplo file.html y no abre desde esa web
 

Carlos Frias

1
Ro
SysManager
Verificación en dos pasos activada
Verificado por Whatsapp
¡Ha verificado su Paypal!
Verificado por Binance
Suscripción a IA
Desde
6 Nov 2016
Mensajes
7.757
ya intente eso no sube los archivos puse cualquie file ejemplo file.html y no abre desde esa web
Los sitios espejos son los que cargan tu sitio tal cual ya que pareciera que te están cargando la web desde un proxy.

El Scrapping es contenido independiente a la web, un bot o plugin pasa por tu web cada determinado tiempo y copia la información.

Es por eso que hay que mantenerse vigilando el historial de accesos por proveedores de Proxy/Hosting para ir bloqueando por rango y acabar con ello dentro de lo posible, van a tener que comprar otras IPs cuando se le acaben o cambiar de servidor lo cual es un gasto para el scrapper.

Y aun así lo podrás seguir baneando por rangos de IPs, si el Scrapper no es un "Programador maestro" se le acabara el juego.
 

¡Regístrate y comienza a ganar!

Beneficios

  • Gana dinero por participar
  • Gana dinero por recomendarnos
  • Descubre ofertas de empleo diariamente
  • Negocios seguros
  • ¡Información premium y más!

Acceder

¿Ya tienes una cuenta? Accede aquí

Arriba