S
Science
Eta
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Acabo de crear un fichero robots.txt específico para Wordpress sacando cosas de aquí y de allá. Lo comparto con vosotros y le añado comentarios:
Además le podemos impedir el rastreo de WayBack Machine, aunque yo no lo uso porque creo que es bonito poder ver el pasado de una web. Llamadme nostálgico.
Recomendaciones de Wordpress | Search Engine Optimization for WordPress « WordPress Codex
PHP:
# El sitemap se genera con el plugin XML-Sitemap Generator, y le indico
# a los rastreadores que lleguen a mi sitio que éste es el sitemap que
# contiene todas las páginas que deben indexar.
Sitemap: http://dominio.com/sitemap.xml.gz
# Quiero que accedan a las imágenes y al feed principal para sus redes de blogs,
# pero no a las secciones de administración de Wordpress, ni a los resultados
# de búsqueda internos, ni a los feeds que crean duplicidades. Los rastreadores
# no los necesitan.
User-agent: *
Allow: /wp-content/uploads/
Allow: /feed/$
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /wp-
Disallow: /?s=
Disallow: /search
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
# Se puede excluir las tags. No lo pongáis si no tenéis clara vuestra estrategia
# de contenidos. También se puede poner las /category/, y páginas del tipo
# /nube-de-etiquetas/, /acerca/, /contacto/, /enlaces/ (este hay que ser malos xD)
Disallow: /tag/
# Para Google, que no indexe los scripts o ficheros que tenemos en la raíz
# de nuestro alojamiento web. Se podría aplicar a otros bots, pero Bing
# no indexa todo lo innecesario y Yahoo... no hace falta, en serio xD
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*?*
Disallow: /*.txt$
# Si usas AdSense debes permitirle la entrada a su bot para
# contextualizar mejor los anuncios.
User-agent: Mediapartners-Google*
Disallow:
# Le permitimos el acceso al indexador de imágenes de Google.
User-agent: Googlebot-Image
Disallow:
# No nos interesa que entren ciertos rastreadores que abusan de nuestro
# ancho de banda con pings y llamadas que no son visitas de usuarios.
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
# Evitaremos el acceso del bot de Digg, duggmirror. Este bot puede sobrecargar
# innecesariamente nuestro sitio y además crear contenido duplicado de nuestro
# sitio. Yo recomiendo no poner enlaces en digg antes de que sean indexados los
# de vuestro sitio. Mientras, si nadie lo hace, esto hará su trabajo.
User-agent: duggmirror
Disallow: /
# Y hacemos que ciertos bots reduzcan la marcha porque, según he leído
# por ahí, se van de la olla a veces. Literalmente.
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10
Además le podemos impedir el rastreo de WayBack Machine, aunque yo no lo uso porque creo que es bonito poder ver el pasado de una web. Llamadme nostálgico.
PHP:
User-agent: ia_archiver
Disallow: /
Recomendaciones de Wordpress | Search Engine Optimization for WordPress « WordPress Codex