¿Cómo configurar Robot.txt en WordPress correctamente?

ulises Seguir

Épsilon
Desde
9 Nov 2010
Mensajes
752
Hola buen dia comunidad Foro beta..
Como el nombre del titulo lo menciona, me gustaria poder configurar el archivo robot.txt de wordpress, actualmente lo tengo de esta manera..

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.elpsicoasesor.com/sitemap.xml

pero no estoy seguro si es la adecuada ya que me dice que tiene 569 URL bloqueadas en las que supongo que son mis post :/
alguien podria orientarme en esto y si estoy mal me vendria bien que me corrigieran.. gracias :)
 

IngresosWeb

Épsilon
Verificación en dos pasos activada
Verificado por Whatsapp
Desde
1 Dic 2011
Mensajes
813
Yo lo tengo así:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$

User-agent: Googlebot-Image
Disallow:
Allow: /*

Sitemap: http://www.AQUI-PONE-TU-WEB.com/sitemap.xml
Disallow: /?s=
Disallow: /search

Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /

User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10
 

ulises

Épsilon
Desde
9 Nov 2010
Mensajes
752
Antes que todo...

quien o donde te dice que tenes 569 url bloqueadas ?

gracias por tu pronta respuesta... quien me lo dijo fue las herramientas webmaster de google aqui dejo una imagen

url.jpg
 

Galbatorix

Dseda
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Desde
13 May 2013
Mensajes
1.231
Porque esta no es la primera versión de tu robots.txt... cuál tenías antes? Esa que tenías antes te esta causando esos mensajes.
 

ulises

Épsilon
Desde
9 Nov 2010
Mensajes
752
Yo lo tengo así:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$

User-agent: Googlebot-Image
Disallow:
Allow: /*

Sitemap: http://www.AQUI-PONE-TU-WEB.com/sitemap.xml
Disallow: /?s=
Disallow: /search

Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /

User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10

Gracias por el dato.. por lo visto tengo que decirle a los robots de google que indexen solo los post verdad?
 
Desde
12 Abr 2012
Mensajes
1.976
gracias por tu pronta respuesta... quien me lo dijo fue las herramientas webmaster de google aqui dejo una imagen

Ver el archivo adjunto 24470

perdoname pero no se a quien se le ocurrio incluir tu sitemap.

ingresa aqui y miralo voz mismo http://www.elpsicoasesor.com/robots.txt

vas a ver esto.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.elpsicoasesor.com/sitemap.xml


Obviamente estas bloqueando todo tu sitio completo

---------- Post agregado el 17-mar-2014 hora: 23:34 ----------

gracias por tu pronta respuesta... quien me lo dijo fue las herramientas webmaster de google aqui dejo una imagen

Ver el archivo adjunto 24470

perdoname pero no se a quien se le ocurrio incluir tu sitemap.

ingresa aqui y miralo voz mismo http://www.elpsicoasesor.com/robots.txt

vas a ver esto.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.elpsicoasesor.com/sitemap.xml


Obviamente estas bloqueando todo tu sitio completo
 

Brandon Díaz

Lambda
SEO
Verificación en dos pasos activada
Desde
24 Nov 2011
Mensajes
2.815
Yo lo tengo así:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$

User-agent: Googlebot-Image
Disallow:
Allow: /*

Sitemap: http://www.AQUI-PONE-TU-WEB.com/sitemap.xml
Disallow: /?s=
Disallow: /search

Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /

User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10

Cuando indicas a un bot en específico algunas líneas, como en:

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$

Entonces SOLO CUMPLE ESAS LÍNEAS. Ya no "cumpliría" estas:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/

gracias por tu pronta respuesta... quien me lo dijo fue las herramientas webmaster de google aqui dejo una imagen

Ver el archivo adjunto 24470

¿Y qué URLs son?

En general si quieres saber como usar el robots.txt puedes checarlo acá
 

IngresosWeb

Épsilon
Verificación en dos pasos activada
Verificado por Whatsapp
Desde
1 Dic 2011
Mensajes
813
dicen que el sitemap de Seo by yoast es muy regular, por eso cuando yo usaba yoast tenia este: Google XML Sitemaps v3 for qTranslate

ahora uso All in One seo pack Pro que es mas liviano que el SEO by Yoast y ya trae un Sitemap por defecto muy bueno..
 

Brandon Díaz

Lambda
SEO
Verificación en dos pasos activada
Desde
24 Nov 2011
Mensajes
2.815
perdoname pero no se a quien se le ocurrio incluir tu sitemap.

ingresa aqui y miralo voz mismo http://www.elpsicoasesor.com/robots.txt

vas a ver esto.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.elpsicoasesor.com/sitemap.xml


Obviamente estas bloqueando todo tu sitio completo

o_O

No mi buen, no está bloqueando su sitio completo.

---------- Post agregado el 17-mar-2014 hora: 17:43 ----------

dicen que el sitemap de Seo by yoast es muy regular, por eso cuando yo usaba yoast tenia este: Google XML Sitemaps v3 for qTranslate

ahora uso All in One seo pack Pro que es mas liviano que el SEO by Yoast y ya trae un Sitemap por defecto muy bueno..

En realidad el mapa de Wordpress SEO (El plugin de Yoast) es mejor cuando se cuenta con muchas URLs.

Mientras ambos en realidad hacen su trabajo bien.
 

ulises

Épsilon
Desde
9 Nov 2010
Mensajes
752
Porque esta no es la primera versión de tu robots.txt... cuál tenías antes? Esa que tenías antes te esta causando esos mensajes.

tienes razon, tenia un site map anterior pero ya lo elimine... por lo que se "supone" tendria que estar actualizado...
la verdad conosco poco de webmaster y apenas se colocar el site map. Galbatorix alguna idea de como podria solucionar esto? Gracias por el dato que mencionaste no pense que el anterior sitemap estaba afectado :/
 

Galbatorix

Dseda
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Desde
13 May 2013
Mensajes
1.231
Creo que eso pasa cuando uno empieza un blog en WordPress marca una casilla que pregunta si quieres que te encuentre Google o que te indexe Google... o algo asi. Entonces WP agrega a robots un Disallow:/ y ya... Google no te indexa.

Yo uso un robots.txt como este:

Insertar CODE, HTML o PHP:
[COLOR=#000000]User-agent: *[/COLOR]
[COLOR=#000000]Allow: /[/COLOR]
[COLOR=#000000]Sitemap: [/COLOR][URL="http://forobeta.com/redirect-to/?redirect=http%3A%2F%2Fwww.elpsicoasesor.com%2Fsitemap.xml"]http://www.elpsicoasesor.com/sitemap.xml[/URL]

Y me va muy bien.
 

IngresosWeb

Épsilon
Verificación en dos pasos activada
Verificado por Whatsapp
Desde
1 Dic 2011
Mensajes
813
Cuando indicas a un bot en específico algunas líneas, como en:

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$

Entonces SOLO CUMPLE ESAS LÍNEAS. Ya no "cumpliría" estas:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/


Gracias :) no sabía esto!!.. ahora lo dejo todo así:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /author/
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.doc$
Disallow: /*.pdf$
Disallow: /*.zip$
Allow: /wp-content/uploads/



.
 
Última edición:

Brandon Díaz

Lambda
SEO
Verificación en dos pasos activada
Desde
24 Nov 2011
Mensajes
2.815
Creo que eso pasa cuando uno empieza un blog en WordPress marca una casilla que pregunta si quieres que te encuentre Google o que te indexe Google... o algo asi. Entonces WP agrega a robots un Disallow:/ y ya... Google no te indexa.

Yo uso un robots.txt como este:

Insertar CODE, HTML o PHP:
[COLOR=#000000]User-agent: *[/COLOR]
[COLOR=#000000]Allow: /[/COLOR]
[COLOR=#000000]Sitemap: [/COLOR][URL="http://forobeta.com/redirect-to/?redirect=http%3A%2F%2Fwww.elpsicoasesor.com%2Fsitemap.xml"]http://www.elpsicoasesor.com/sitemap.xml[/URL]

Y me va muy bien.

Ese robots.txt es el robots.txt "comodín"

Le dices a los bots: "Si, rastreen todo mi sitio". Pero ese es el comportamiento por default así que realmente ahí no haces más que indicarle el sitemap a esos bots... lo cual está bien a fin de cuentas.

Como dije en mi artículo:

Aunque este es el comportamiento por default de los bots (tratar de rastrear todo lo que puedan de un sitio) es mejor tener un robots.txt en el sitio, de lo contrario algunos bots pueden interpretar la ausencia del archivo como un error 404.
 
Arriba