Mejor bloquear lo bots con .htaccess o con robot.txt ?

  • Autor Autor wiind
  • Fecha de inicio Fecha de inicio
wiind

wiind

Eta
Diseñador
Verificado por Whatsapp
Dejo la pregunta para saber que es lo que usan mayormente. mejor bloquear lo bots con .htaccess o con robot.txt???
Yo soy partidario de .haccess porque creo que muchos bots se saltan el .txt pero me gustaria conocer sus opiniones
Ya de paso conocen alguna lista completa 2019 para descargar y bloquear?
 
:encouragement:Hola [MENTION=17992]wiind[/MENTION],

Excelente pregunta, ya que estoy conectado al foro...
Te la respondo, primero aclarando estos puntos...

robots.txt Este archivo no bloquea nada, solo sirve para informar a los robots, rastreadores web o crawlers!
.htaccess La configuración de este archivo, es la que efectivamente permite bloquear las conexiones a tu servidor.

Por otro lado, hay dos tipos de robots...

1. El llamado crawler o rastreador web, que son los que pasan por tu web, para luego indexar tu nuevo contenido. Ejemplo: Googlebot
2. Los robots, programados para analizar tu web, en búsqueda de información (o vulnerabilidades).

Aclarado esto, se puede notar, que si quieres bloquear los robots peligrosos...
Tienes que usar sí o sí, el archivo de configuración .htaccess...

Pero debes tener especial cuidado, para no bloquear el acceso de los crawlers...
Para que tu contenido siga apareciendo en los resultados de búsqueda...

¿Qué uso yo?
Ambos casos, el archivo robots.txt cuando es necesario...
Y el archivo .htaccess cuando quiero bloquear a robots, países y hasta usuarios!


Espero que mi comentario te sirva.

Saludos,
Hugo

gracias por tu respuesta
Si, lo que quiero es quitarme de encima los bots que no me aportan absolutamente nada a mi web, o buscan vulnerabilidades y encima consumen recursos.
que codigo me aconsejas usar? hasta ahora estoy haciendo con este que es del que me estoy leyendo pero estoy algo liado con bloqueos de agentes, con agente, sin agente...
RewriteCond %{HTTP_USER_AGENT} ^spider$ [OR]

por otra parte encontre esta lista de bloqueo por agente que no se si es mejor o peor...
bad-bot-blocker/.htaccess at master * bluedragonz/bad-bot-blocker * GitHub

todos los consejos son bienvenidos
gracias por adelantado
 
Atrás
Arriba