Se ha indexado aunque un archivo robots.txt la ha bloqueado

  • Autor Autor Pipilin666
  • Fecha de inicio Fecha de inicio
Pipilin666

Pipilin666

1
Lambda
Verificación en dos pasos activada
Verificado por Whatsapp
¡Ha verificado su Paypal!
Suscripción a IA
La mayoria de urls terminan en /feed/ y mi consulta va por ahi, se deben indexar los feed? no me queda claro eso porque leí que pueden clonar tu contenido mediante esto cierto?

Yo tenía bloqueado los feed mediante robots.txt pero al ver que se indexaban igual, lo que hice fue hacer un allow a solo googlebot y otros buscadores:

Insertar CODE, HTML o PHP:
#Bloquear feed
User-agent: Googlebot
User-agent: Bingbot
User-agent: msnbot
User-agent: Twitterbot
User-agent: baiduspider
User-agent: Yandex
User-agent: Yeti
allow: /feed/
allow: ?feed

Pero ahora probando en algunas url me sale este mensaje:

feed.webp


Quisiera saber que ando haciendo mal, o si no es necesario que los feed se indexen, cualquier sugerencia es bienvenida.
 
Yo probaría algo como:

User-agent: Zealbot
Disallow: /feed/

User-agent: MSIECrawler
Disallow: /feed/

User-agent: SiteSnagger
Disallow: /feed/

User-agent: *
Allow: /

No me queda claro si se pueden poner varios User-agent seguidos y luego la orden. Por otro lado, aunque después de un Disallow pongas User-agent * con un Allow a todo, lo anterior no se altera.

Piensa que si antes tenías Disallow: /feed/ a todos los motores y quitas la línea, los buscadores pueden tardar un tiempo en reflejar el cambio.

También, algo habitual que he visto en algunos robots txt (es fácil encontrarlos en Google) es esto, tal vez te sirva:
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$

 
Atrás
Arriba