Restringir entrada arañas (BOT) que roban información y generan enlaces Spam

jatideu Seguir

Gamma
Verificación en dos pasos activada
Verificado por Whatsapp
Desde
16 Ene 2013
Mensajes
295
Buenas, hace poco note una bajada en mi web de contenido para adultos. Al realizar un estudio y revisar varios factores que podrían influir me di cuenta que en google tools mostraba que tengo mas de 40K enlaces repartidos entre 4 o 5 web, creo que todas son del mismo dueño o por lómenos utilizan el mismo tema. Creo que son webs automatizadas que roban contenido de otras webs pero lo peor es que te colocan un enlace de vuelta a tu web, en resumidas cuentas, como no seas una web muy potente terminas penalizado por google.
He estado investigando algo sobre las restricciones en el robot.txt y .htaccess, aunque no me queda muy claro cómo se hace y tampoco si es suficiente para parar a estas arañas.
¿Alguien sabe cómo restringir la entrada arañas (bot) que te roban la información y te generan spam? Quizá algún plugin o algo parecido.
 

Sergio Gardeazabal

Épsilon
Verificación en dos pasos activada
¡Ha verificado su Paypal!
Desde
23 Nov 2012
Mensajes
982
El archivo robots.txt es una sugerencia, queda en los rastreadores honrarlo o no. Y en el solo podes bloquear contenido dentro de tu web (no los enlaces que generan en otras hacia vos).

Por lo que mencionas tenes 2 problemas a solucionar . Los bots que roban tu contenido (o al menos por alguna razón te enlazan) y los enlaces hacia tu web ya generados.

Lo primero lo solucionas identificando el user agent que utiliza esos bots y bloquearlos directamente desde el servidor (ya sea htaccess si usas Apache/litespeed o el archivo de configuración de nginx si usas nginx.

En WordPress hay plugins que te asisten en esto ,como por ejemplo NinjaFirewall (WP Edition) ? Plugins WordPress

Para solucionar el problema que te esta generando esos enlaces entrantes, tenes que usar la herramienta de desautorización que te da Google, la cual esta detallada aquí Desautorización de enlaces entrantes - Ayuda de Search Console

Eso si, usala con cuidado ya que si esos enlaces (o al menos algunos) te estaban beneficiando, al eliminarlos perdes ese beneficio y quedas peor. Antes de usarla usaría alguna herramienta de auditoria como Ahrefs: Competitor Research Tools & SEO Backlink Checker , pero es de pago.
 

S3L3N1TY

1
Zeta
Redactor
Verificación en dos pasos activada
Suscripción a IA
Desde
11 Mar 2010
Mensajes
1.816
Si no te manejas con el el robot.txt o el htaccess, usar plugins es otra opción, El All in One SEO incluye un módulo de herramientas que tiene una lista de bots predefinida para bloqueos que se corresponde con los principales programas y servicios que hacen Crawling como Ahref, Semrush y similares, pero puedes modificarla añadiendo tus propias urls. Este módulo lo he testeado personalmente con resultados favorables y disminución considerable sobre el bounce rate o porcentaje rebote. Muchas personas piensan erróneamente que el alto porcentaje de rebote en sus sitios se deben a problemas de estructura o de contenido, cuando tienen cientos de spiders scrapeando su sitio cada día.

Otras opciones si usas otro plugin SEO o no quisieras instalar el All in One son :

Blackhole for Bad Bots ? WordPress Plugins

StopBadBots ? WordPress Plugins

Personalmente no los he probado, pero cuentan con muy buenas valoraciones y hay bastante información sobre como configurarlos.
 

jatideu

Gamma
Verificación en dos pasos activada
Verificado por Whatsapp
Desde
16 Ene 2013
Mensajes
295
El archivo robots.txt es una sugerencia, queda en los rastreadores honrarlo o no. Y en el solo podes bloquear contenido dentro de tu web (no los enlaces que generan en otras hacia vos).

Por lo que mencionas tenes 2 problemas a solucionar . Los bots que roban tu contenido (o al menos por alguna razón te enlazan) y los enlaces hacia tu web ya generados.

Lo primero lo solucionas identificando el user agent que utiliza esos bots y bloquearlos directamente desde el servidor (ya sea htaccess si usas Apache/litespeed o el archivo de configuración de nginx si usas nginx.

En WordPress hay plugins que te asisten en esto ,como por ejemplo NinjaFirewall (WP Edition) ? Plugins WordPress

Para solucionar el problema que te esta generando esos enlaces entrantes, tenes que usar la herramienta de desautorización que te da Google, la cual esta detallada aquí Desautorización de enlaces entrantes - Ayuda de Search Console

Eso si, usala con cuidado ya que si esos enlaces (o al menos algunos) te estaban beneficiando, al eliminarlos perdes ese beneficio y quedas peor. Antes de usarla usaría alguna herramienta de auditoria como Ahrefs: Competitor Research Tools & SEO Backlink Checker , pero es de pago.

Gracias por la info.
Si, lo primero que hice fue des autentificar los dominios desde google.
Parece interesante el plugin, pero el StopBadBots me parece que es el que voy a probar.

- - - Actualizado - - -

Si no te manejas con el el robot.txt o el htaccess, usar plugins es otra opción, El All in One SEO incluye un módulo de herramientas que tiene una lista de bots predefinida para bloqueos que se corresponde con los principales programas y servicios que hacen Crawling como Ahref, Semrush y similares, pero puedes modificarla añadiendo tus propias urls. Este módulo lo he testeado personalmente con resultados favorables y disminución considerable sobre el bounce rate o porcentaje rebote. Muchas personas piensan erróneamente que el alto porcentaje de rebote en sus sitios se deben a problemas de estructura o de contenido, cuando tienen cientos de spiders scrapeando su sitio cada día.

Otras opciones si usas otro plugin SEO o no quisieras instalar el All in One son :

Blackhole for Bad Bots ? WordPress Plugins

StopBadBots ? WordPress Plugins

Personalmente no los he probado, pero cuentan con muy buenas valoraciones y hay bastante información sobre como configurarlos.

Gracias, creo que es lo que buscaba ;)
Voy a probar los dos, aunque me parece mas interesante el StopBadBots
 

Milor123

Beta
Verificación en dos pasos activada
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Desde
23 Nov 2017
Mensajes
37
Yo he probado varios, concretamente para bloquear los spiders de algunas herramientas como ahrefs y semrush, yo uso GitHub - michaelbroper/link-privacy: A way to keep links private from competitors. (Te descargas el zip y lo instalas como un plugin)

Sin embargo cabe resaltar que esas herramientas pueden simular a googleBot, por lo que para evitar esto, entonces deberia hacerce un script en php que bloquee los falsos googleBot, verificando la ip real de ese "googleBot" :rolleyes:
 

¡Regístrate y comienza a ganar!

Beneficios

  • Gana dinero por participar
  • Gana dinero por recomendarnos
  • Descubre ofertas de empleo diariamente
  • Negocios seguros
  • ¡Información premium y más!

Acceder

¿Ya tienes una cuenta? Accede aquí

Arriba