Se ha indexado aunque un archivo robots.txt la ha bloqueado

Pipilin666 · 12 May 2022

La mayoria de urls terminan en /feed/ y mi consulta va por ahi, se deben indexar los feed? no me queda claro eso porque leí que pueden clonar tu contenido mediante esto cierto?

Yo tenía bloqueado los feed mediante robots.txt pero al ver que se indexaban igual, lo que hice fue hacer un allow a solo googlebot y otros buscadores:

Insertar CODE, HTML o PHP:

#Bloquear feed
User-agent: Googlebot
User-agent: Bingbot
User-agent: msnbot
User-agent: Twitterbot
User-agent: baiduspider
User-agent: Yandex
User-agent: Yeti
allow: /feed/
allow: ?feed

Pero ahora probando en algunas url me sale este mensaje:

Quisiera saber que ando haciendo mal, o si no es necesario que los feed se indexen, cualquier sugerencia es bienvenida.

adruiz · 12 May 2022

Yo probaría algo como:

User-agent: Zealbot
Disallow: /feed/

User-agent: MSIECrawler
Disallow: /feed/

User-agent: SiteSnagger
Disallow: /feed/

User-agent: *
Allow: /

No me queda claro si se pueden poner varios User-agent seguidos y luego la orden. Por otro lado, aunque después de un Disallow pongas User-agent * con un Allow a todo, lo anterior no se altera.

Piensa que si antes tenías Disallow: /feed/ a todos los motores y quitas la línea, los buscadores pueden tardar un tiempo en reflejar el cambio.

También, algo habitual que he visto en algunos robots txt (es fácil encontrarlos en Google) es esto, tal vez te sirva:
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$

http://swiftair.com/robots.txt

Se ha indexado aunque un archivo robots.txt la ha bloqueado

Pipilin666

adruiz

Temas similares