Configuración del archivo robots.txt para Wordpress

  • Autor Autor Science
  • Fecha de inicio Fecha de inicio
S

Science

Eta
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Acabo de crear un fichero robots.txt específico para Wordpress sacando cosas de aquí y de allá. Lo comparto con vosotros y le añado comentarios:

PHP:
# El sitemap se genera con el plugin XML-Sitemap Generator, y le indico
# a los rastreadores que lleguen a mi sitio que éste es el sitemap que 
# contiene todas las páginas que deben indexar.
Sitemap: http://dominio.com/sitemap.xml.gz

# Quiero que accedan a las imágenes y al feed principal para sus redes de blogs, 
# pero no a las secciones de administración de Wordpress, ni a los resultados
# de búsqueda internos, ni a los feeds que crean duplicidades. Los rastreadores
# no los necesitan.
User-agent: *
Allow: /wp-content/uploads/
Allow: /feed/$
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /wp-
Disallow: /?s=
Disallow: /search
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

# Se puede excluir las tags. No lo pongáis si no tenéis clara vuestra estrategia
# de contenidos. También se puede poner las /category/, y páginas del tipo
# /nube-de-etiquetas/, /acerca/, /contacto/, /enlaces/ (este hay que ser malos xD)
Disallow: /tag/

# Para Google, que no indexe los scripts o ficheros que tenemos en la raíz
# de nuestro alojamiento web. Se podría aplicar a otros bots, pero Bing
# no indexa todo lo innecesario y Yahoo... no hace falta, en serio xD
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*?*
Disallow: /*.txt$

# Si usas AdSense debes permitirle la entrada a su bot para
# contextualizar mejor los anuncios.
User-agent: Mediapartners-Google*
Disallow:

# Le permitimos el acceso al indexador de imágenes de Google.
User-agent: Googlebot-Image
Disallow:

# No nos interesa que entren ciertos rastreadores que abusan de nuestro
# ancho de banda con pings y llamadas que no son visitas de usuarios.
User-agent: MSIECrawler
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: libwww
Disallow: /

# Evitaremos el acceso del bot de Digg, duggmirror. Este bot puede sobrecargar
# innecesariamente nuestro sitio y además crear contenido duplicado de nuestro
# sitio. Yo recomiendo no poner enlaces en digg antes de que sean indexados los
# de vuestro sitio. Mientras, si nadie lo hace, esto hará su trabajo.
User-agent: duggmirror
Disallow: /

# Y hacemos que ciertos bots reduzcan la marcha porque, según he leído 
# por ahí, se van de la olla a veces. Literalmente.
User-agent: noxtrumbot
Crawl-delay: 50

User-agent: msnbot
Crawl-delay: 30

User-agent: Slurp
Crawl-delay: 10

Además le podemos impedir el rastreo de WayBack Machine, aunque yo no lo uso porque creo que es bonito poder ver el pasado de una web. Llamadme nostálgico.
PHP:
User-agent: ia_archiver
Disallow: /

Recomendaciones de Wordpress | Search Engine Optimization for WordPress « WordPress Codex
 
Si quiero desindezar paginas de este tipo:

ht tp://PAGINA.com/ALGO/ALGO/ALGO/page/2/

uso lo siguiente?

Disallow: /*/*/*/page/$
 
Sí, según los niveles que haya. Por ejemplo:

Disallow: /*/*/*/feed/$

Está pensado para varios niveles de subcategoría; entendiendo que cada categoría tiene su propio feed si añadimos /feed al final. Aunque en ciertos casos podemos hacer que se muestre directamente dominio.com/subcategoría/artículo sin necesidad de mostrar el nombre de la categoría principal en la url. Y bueno, es relativo según tengamos configurados los permalinks.

El asterisco incluye cualquier palabra que pueda contener, y el dólar $ la verdad es que no tengo ni idea. En todos los sitios lo ponen igual, así que me limité a poner el que tenía más consenso en la red. :encouragement:

¿"Finestra" es "ventana" en catalán? 🙂
 
Es un archivo muy bueno, muchas gracias por el aporte
 
Añado un nuevo aporte porque el nuevo 'blog claim' de Technorati se puede quedar bloqueado, como me acaba de ocurrir. Si queremos verificar que somos el dueño de un blog y darle acceso al bot de Technorati, añadiremos este código en robots.txt:

PHP:
User-agent: TechnoratiBot/8.1
Disallow:
 
Atrás
Arriba