¿Mi robot.txt impide la indexación a Google?

JoseZabaleta · 13 May 2024

Dice "Google Search Console" que Google no puede indexar muchas páginas de mi sitio, porque están bloqueadas por robot.txt

User-Agent: *
Disallow: /zeruibiltaria/
Disallow: /xml-rpc.php/
Disallow: /?s=
Disallow: /search
User-Agent: Baiduspider
Crawl-delay: 30

Hasta donde yo sé, estas instrucciónes bloquean la carpeta "zeruibiltaria" y algunos tipos de url... pero no las páginas y post que no están en la carpeta "zeruibiltaria". Por tanto... o se me escapa algo o Google se equivoca...

Que el gigante Google la cague de semejante manera en algo tan sencillo... es llamativo... pero lo curioso es que también el gigante Facebook tiene problemas con mi robot.txt

Esto es lo que dice https://developers.facebook.com/tools/debug/ sobre mi último post:

Código de respuesta erróneo: La URL ha devuelto un código de respuesta HTTP erróneo.

Motivo del código de respuesta:

This response code could be due to a robots.txt block. Please allowlist facebookexternalhit on your sites robots.txt config to utilize Facebook scraping

¿Hay algo en mi robot.txt debido a lo cual la URL devuelve un código de respuesta HTTP erróneo?

webmaaron · 13 May 2024

Técnicamente esta bien, pero habria que revisar que no tengas ningun regla adicional aplicada en un .htaccess o similar que reescriba el robots segun el agente que lo quiere ver.

Es algo rebuscado, pero si facebook y google dicen que esta mal... Habrá algo que esta mal.

JoseZabaleta · 14 May 2024

webmaaron dijo:
Técnicamente esta bien, pero habria que revisar que no tengas ningun regla adicional aplicada en un .htaccess o similar que reescriba el robots segun el agente que lo quiere ver.

Es algo rebuscado, pero si facebook y google dicen que esta mal... Habrá algo que esta mal.

Gracias... Yo no entiendo mucho de estas cosas, pero de vez en cuando aplico lo que leo en artículos... Hace unos meses creé un cortafuegos de .htaccess integrado con el Firewall de CloudFlare, como se explica en https://ayudawp.com/integrar-cortafuegos-htaccess-firewall-cloudflare/

¿Podría estar aquí o en alguna capa de seguridad de Cloudflare el problema con el rastreador de Google?

Veo en .htaccess un código generado en su día por el plugin "iThemes Security", en el que se banean servidores y se deniega el acceso a ips... El plugin ya no lo utilizo pero los códigos generados los mantengo... En principio esto no debería causar ningún problema...

El depurador de Facebook dice: This response code could be due to a robots.txt block. Please allowlist facebookexternalhit on your sites robots.txt config to utilize Facebook scraping

¿Cómo se hace eso?

Gracias por cualquier orientación...

webmaaron · 14 May 2024

Allow: facebookexternalhit

En robots y lo tienes solucionado para facebook. Pero orientación sin saber la web o viendo parcialmente las cosas es lanzar piedras y esperar que alguna de.

Si ademas del robots tienes .htaccess que puede que lo reescriba o que impida acceder al robot, es lo mismo que tenerlo en robots.txt

JoseZabaleta · 14 May 2024

webmaaron dijo:
Allow: facebookexternalhit

En robots y lo tienes solucionado para facebook. Pero orientación sin saber la web o viendo parcialmente las cosas es lanzar piedras y esperar que alguna de.

Si ademas del robots tienes .htaccess que puede que lo reescriba o que impida acceder al robot, es lo mismo que tenerlo en robots.txt

Gracias... He añadido Allow: facebookexternalhit a robot.txt pero no cambia nada... El depurador de Facebook sigue diciendo exactamente lo mismo...

He buscado "robots" en .htaccess para encontrar alguna instrucción que lo modifique... pero no hay nada...

¿Mi robot.txt impide la indexación a Google?

JoseZabaleta

webmaaron

JoseZabaleta

webmaaron

JoseZabaleta

Temas similares