Ayuda. Reporte error en Herramientas para Webmasters.

Alkimistta · 14 May 2012

Buenas, acabo de entrar por primera vez en las Herramientas para webMasters de Google, y me he llevado una sorpresa de los 2 blos que tengo en Blogger con dominio los 2, he visto que me da un reporte de error en uno de ellos me dice:

¿El archivo robots.txt está bloqueando páginas importantes?
Tu sitio ha devuelto un error al solicitar el archivo robots.txt.

No se que hacer, supongo que es malo para la hora de indexar no? Qué debería de hacer? Tocar algo en las opciones de Blogger? Porque en las herramientas no veo ninguna opción.

Espero me podais ayudar.

Gracias.

Science · 14 May 2012

Pega el contenido de tu robots.txt para saber si hay algún error.

Yo uso un modelo así

PHP:

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /comments/feed*
Disallow: /feed*

User-agent: Mediapartners-Google* 
Disallow:

User-agent: MSIECrawler
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

Sitemap: http://dominio.com/sitemap.xml.gz

Y claro que da errores de acceso en las páginas excluídas, pero es que no se puede dejar que los rastreadores campen a sus anchas e indexen todo lo que quieran, sino lo que queremos nostros :encouragement:

Alkimistta · 14 May 2012

Pues he entrado en las opciones de Blogger y en preferencias de busqueda pone:

Rastreadores e indexación

Archivo robots.txt personalizado
[Inhabilitado] Editar
Etiquetas de encabezado de robots personalizadas
[Inhabilitado] Editar

O sea que parece que no tengo y estan desactivados, yo nunca he tocado esa opción.

Los debería activar? qué e recomendais poner en el archivo?

Gracias.

Science · 14 May 2012

Yo recomiendo tener un fichero robots.txt, pero en blogger no sé como funciona ni cuales son las carpetas que se deberían excluir. Aquí encontré algo de información → InteresesWeb: Robots.txt de Blogger

Alkimistta · 14 May 2012

Tal y como sugiere el artículo del enlace he mirado el .txt y se encuentra tal y como lo pone Google. Ahora mi pregunta es otra, en el artículo se sugiere utilizar las etiquetas meta y poner:

•<meta name="robots" content="index,follow" />
indica que indexe la página y todos sus enlaces (valor por defecto).

•<meta name="robots" content="index,nofollow" />
indica que indexe la página pero no los enlaces.

•<meta name="robots" content="noindex,follow" />
indica que no indexe la página pero si los enlaces.

•<meta name="robots" content="noindex,nofollow" />
indica que no indexe la página ni los enlaces.

Donde se pondría esto? y no se, pero no es mejor que indexe tanto la página principal como los enlaces? Estoy pensando en no tocar nada y dejarlo como está, pero no se, que opinais?

Gracias

Bizleet · 14 May 2012

Las etiquetas meta se colocan dentro de <head> y antes de </head> en el código del header.

Puede usarse para mantener a raya el contenido duplicado y el acceso a ficheros indebidos. Tiene doble uso ésto.

Alkimistta · 14 May 2012

Gracias, aunque me parece que estoy muy verde todavía, no entiendo porque es malo que indexe la página y todos sus enlaces (valor por defecto). Yo pensaba que lo mejor era que Google indexara todos nuestros posts y los enlaces si llevan a otro de nuestros posts, no?

Perdon por mi ignorancia.

Estoy intentando apreder.

Bizleet · 14 May 2012

A lo mejor tienes descargas o archivos privados que no quieres que acceda. Lo mismo si tienes secciones con contenido duplicado como la sección de archivos mensuales y la de categorías, normalmente.

Alkimistta · 14 May 2012

Tengo 2 blogs uno dedicado a noticias, críticas, trailers, etc del mundo de las series, cine y comics y otro dedicado a todos lo que vivimos la infancia a primeros de los 80.

En los 2 escribo artículos porpios, pero en los 2 es cierto que a veces copio y pego datos, noticias, y demás por desconocerlos y ser fiel a ellos (a los datos), por ello normalmente cito la fuente.

En ese caso te entiendo que cuadno tenga un post con algún tipo de contenido duplicado debería caparlo del robot de Google no? Cómo lo hago exactamente? Gracias

Bizleet · 14 May 2012

Más bien es para el contenido duplicado interno de la web. El contenido duplicado externo sólo puede filtrarse haciendo poco uso del mismo, o nada, que sería mejor.

Alkimistta · 14 May 2012

Ah, ok. Bueno, en ese caso creo que lo dejo como esta porque en verdad no tengo contenido duplicado de mi mismo. Supongo que esos errores que da Goggle son normales no? Los del primer post:

¿El archivo robots.txt está bloqueando páginas importantes?
Tu sitio ha devuelto un error al solicitar el archivo robots.txt.

Ayuda. Reporte error en Herramientas para Webmasters.

Alkimistta

Science

Alkimistta

Science

Alkimistta

Bizleet

Alkimistta

Bizleet

Alkimistta

Bizleet

Alkimistta

Temas similares