¿Cómo configurar Robot.txt en WordPress correctamente?

  • Autor Autor ulises
  • Fecha de inicio Fecha de inicio
U

ulises

Épsilon
Hola buen dia comunidad Foro beta..
Como el nombre del titulo lo menciona, me gustaria poder configurar el archivo robot.txt de wordpress, actualmente lo tengo de esta manera..

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.elpsicoasesor.com/sitemap.xml

pero no estoy seguro si es la adecuada ya que me dice que tiene 569 URL bloqueadas en las que supongo que son mis post :/
alguien podria orientarme en esto y si estoy mal me vendria bien que me corrigieran.. gracias 🙂
 
Antes que todo...

quien o donde te dice que tenes 569 url bloqueadas ?
 
Yo lo tengo así:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$

User-agent: Googlebot-Image
Disallow:
Allow: /*

Sitemap: http://www.AQUI-PONE-TU-WEB.com/sitemap.xml
Disallow: /?s=
Disallow: /search

Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /

User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10
 
Antes que todo...

quien o donde te dice que tenes 569 url bloqueadas ?

gracias por tu pronta respuesta... quien me lo dijo fue las herramientas webmaster de google aqui dejo una imagen

url.webp
 
Porque esta no es la primera versión de tu robots.txt... cuál tenías antes? Esa que tenías antes te esta causando esos mensajes.
 
Yo lo tengo así:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$

User-agent: Googlebot-Image
Disallow:
Allow: /*

Sitemap: http://www.AQUI-PONE-TU-WEB.com/sitemap.xml
Disallow: /?s=
Disallow: /search

Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /

User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10

Gracias por el dato.. por lo visto tengo que decirle a los robots de google que indexen solo los post verdad?
 
gracias por tu pronta respuesta... quien me lo dijo fue las herramientas webmaster de google aqui dejo una imagen

Ver el archivo adjunto 24470

perdoname pero no se a quien se le ocurrio incluir tu sitemap.

ingresa aqui y miralo voz mismo http://www.elpsicoasesor.com/robots.txt

vas a ver esto.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.elpsicoasesor.com/sitemap.xml


Obviamente estas bloqueando todo tu sitio completo

---------- Post agregado el 17-mar-2014 hora: 23:34 ----------

gracias por tu pronta respuesta... quien me lo dijo fue las herramientas webmaster de google aqui dejo una imagen

Ver el archivo adjunto 24470

perdoname pero no se a quien se le ocurrio incluir tu sitemap.

ingresa aqui y miralo voz mismo http://www.elpsicoasesor.com/robots.txt

vas a ver esto.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.elpsicoasesor.com/sitemap.xml


Obviamente estas bloqueando todo tu sitio completo
 
Yo lo tengo así:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$

User-agent: Googlebot-Image
Disallow:
Allow: /*

Sitemap: http://www.AQUI-PONE-TU-WEB.com/sitemap.xml
Disallow: /?s=
Disallow: /search

Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /

User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10

Cuando indicas a un bot en específico algunas líneas, como en:

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$

Entonces SOLO CUMPLE ESAS LÍNEAS. Ya no "cumpliría" estas:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/

gracias por tu pronta respuesta... quien me lo dijo fue las herramientas webmaster de google aqui dejo una imagen

Ver el archivo adjunto 24470

¿Y qué URLs son?

En general si quieres saber como usar el robots.txt puedes checarlo acá
 
dicen que el sitemap de Seo by yoast es muy regular, por eso cuando yo usaba yoast tenia este: Google XML Sitemaps v3 for qTranslate

ahora uso All in One seo pack Pro que es mas liviano que el SEO by Yoast y ya trae un Sitemap por defecto muy bueno..
 
perdoname pero no se a quien se le ocurrio incluir tu sitemap.

ingresa aqui y miralo voz mismo http://www.elpsicoasesor.com/robots.txt

vas a ver esto.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.elpsicoasesor.com/sitemap.xml


Obviamente estas bloqueando todo tu sitio completo

😵

No mi buen, no está bloqueando su sitio completo.

---------- Post agregado el 17-mar-2014 hora: 17:43 ----------

dicen que el sitemap de Seo by yoast es muy regular, por eso cuando yo usaba yoast tenia este: Google XML Sitemaps v3 for qTranslate

ahora uso All in One seo pack Pro que es mas liviano que el SEO by Yoast y ya trae un Sitemap por defecto muy bueno..

En realidad el mapa de Wordpress SEO (El plugin de Yoast) es mejor cuando se cuenta con muchas URLs.

Mientras ambos en realidad hacen su trabajo bien.
 
Porque esta no es la primera versión de tu robots.txt... cuál tenías antes? Esa que tenías antes te esta causando esos mensajes.

tienes razon, tenia un site map anterior pero ya lo elimine... por lo que se "supone" tendria que estar actualizado...
la verdad conosco poco de webmaster y apenas se colocar el site map. Galbatorix alguna idea de como podria solucionar esto? Gracias por el dato que mencionaste no pense que el anterior sitemap estaba afectado :/
 
Creo que eso pasa cuando uno empieza un blog en WordPress marca una casilla que pregunta si quieres que te encuentre Google o que te indexe Google... o algo asi. Entonces WP agrega a robots un Disallow:/ y ya... Google no te indexa.

Yo uso un robots.txt como este:

Insertar CODE, HTML o PHP:
[COLOR=#000000]User-agent: *[/COLOR]
[COLOR=#000000]Allow: /[/COLOR]
[COLOR=#000000]Sitemap: [/COLOR][URL="http://forobeta.com/redirect-to/?redirect=http%3A%2F%2Fwww.elpsicoasesor.com%2Fsitemap.xml"]http://www.elpsicoasesor.com/sitemap.xml[/URL]

Y me va muy bien.
 
Cuando indicas a un bot en específico algunas líneas, como en:

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$

Entonces SOLO CUMPLE ESAS LÍNEAS. Ya no "cumpliría" estas:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/


Gracias 🙂 no sabía esto!!.. ahora lo dejo todo así:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /author/
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.doc$
Disallow: /*.pdf$
Disallow: /*.zip$
Allow: /wp-content/uploads/



.
 
Última edición:
Creo que eso pasa cuando uno empieza un blog en WordPress marca una casilla que pregunta si quieres que te encuentre Google o que te indexe Google... o algo asi. Entonces WP agrega a robots un Disallow:/ y ya... Google no te indexa.

Yo uso un robots.txt como este:

Insertar CODE, HTML o PHP:
[COLOR=#000000]User-agent: *[/COLOR]
[COLOR=#000000]Allow: /[/COLOR]
[COLOR=#000000]Sitemap: [/COLOR][URL="http://forobeta.com/redirect-to/?redirect=http%3A%2F%2Fwww.elpsicoasesor.com%2Fsitemap.xml"]http://www.elpsicoasesor.com/sitemap.xml[/URL]

Y me va muy bien.

Ese robots.txt es el robots.txt "comodín"

Le dices a los bots: "Si, rastreen todo mi sitio". Pero ese es el comportamiento por default así que realmente ahí no haces más que indicarle el sitemap a esos bots... lo cual está bien a fin de cuentas.

Como dije en mi artículo:

Aunque este es el comportamiento por default de los bots (tratar de rastrear todo lo que puedan de un sitio) es mejor tener un robots.txt en el sitio, de lo contrario algunos bots pueden interpretar la ausencia del archivo como un error 404.
 
Atrás
Arriba