Problemas con el archivo robots.txt y cómo solucionarlos

tracid · 29 Ene 2012

Tengo un archivo robots.txt en el directorio raiz "/" . Si pongo economia-eficiente.com/robots.txt me sale esto:

User-agent: *
Disallow:

Sitemap: misite.com/sitemap.xml.gz

Pero el robots.txt que tengo en el directorio raiz "/" tiene más cosas que eso. En google webmaster tools en la opción acceso de rastreadores me pone esto:

Archivo robots.txt Descargado Estado
misite.com/robots.txt

Analizar resultados
Valor Resultado
Línea 4: Sitemap: misite.com/sitemap.xml.gz Se ha detectado una referencia de sitemap válida.

Texto de misite.com/robots.txt
User-agent: *
Disallow:

Sitemap: misite.com/sitemap.xml.gz

El robots que tengo si lo descargo y lo abro es el siguiente, lo encontré por ahí me parece:

User-Agent: *
Crawl-delay: 20

Allow: /wp-content/uploads/

Disallow: /wp-content/plugins/

Disallow: /wp-content/themes/

Disallow: /wp-includes/

Disallow: /wp-admin/

# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php

Disallow: /wp-

#
# Sitemap permitido, búsquedas no.
#

Sitemap: misite.com/sitemap.xml
Disallow: /?s=
Disallow: /search

#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#

Allow: /feed/$

Disallow: /feed

Disallow: /comments/feed

Disallow: /*/feed/$

Disallow: /*/feed/rss/$

Disallow: /*/trackback/$

Disallow: /*/*/feed/$

Disallow: /*/*/feed/rss/$

Disallow: /*/*/trackback/$

Disallow: /*/*/*/feed/$

Disallow: /*/*/*/feed/rss/$

Disallow: /*/*/*/trackback/$

#
# A partir de aquí es opcional pero recomendado.
#
# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante…
# Añadir al gusto del consumidor…

User-agent: MSIECrawler

Disallow: /

User-agent: WebCopier

Disallow: /

User-agent: HTTrack

Disallow: /

User-agent: Microsoft.URL.Control

Disallow: /

User-agent: libwww

Disallow: /

#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#

User-agent: noxtrumbot

Crawl-delay: 50

User-agent: msnbot

Crawl-delay: 30

User-agent: Slurp

Crawl-delay: 10

creo que ya descubri lo que pasaba, tengo el plugin xml sitemap y me genera automaticamente un robots.txt virtual (no se que quiere decir eso de virtual pero bueno) no me deja deshabilitar esa opcion

Problemas con el archivo robots.txt y cómo solucionarlos

tracid

Temas similares