"#" En robots.txt gran error el mío

brunouy · 22 Feb 2013

Hola Betas, paso a comentarles un problema que tuve en mi ansia por bloquear contenido duplicado...

Esto, personalmente no lo sabía y no sé en realidad cuantos de los que leerán este hilo realmente lo saben, esta experiencia me llevo a publicar este post Robots.txt y su uso con prudencia | Webmaster: Consulta, Comparte y Debate vinculándolo con Contenido Duplicado donde comento algunos detalles extras sobre mi experiencia con Robots.txt y google...

En mi afán de facilitarle la vida al bot, comencé a bloquear algunos parámetros que aparecían en mi web entre ellos me apearece "#" para el cual lo que parece coherente agrego la siguiente línea:

Disallow: /*/#

Resulta que fué un tiró en la nuca!!! aún no se que representa numeral "#" a nivel de robots, pero lo asumí como un caracter más, resulta que esa línea me bloqueó todas las URL del sitio salvo la raíz del dominio al rastreo del los bot's.

Consecuencia: Ya van 2 días sin rastreo y las URL agregadas aparecen con esta descripción: "No se dispone de una descripción de este resultado debido a robots.txt. Más información."

A estar cuidadosos con el uso de Robots.txt

TonyGay · 22 Feb 2013

Y cual es la utilidad real entonces del #?

brunouy · 22 Feb 2013

TonyGay dijo:
Y cual es la utilidad real entonces del #?

Aún no lo investigué, pero lo que digo es: No lo usen en robots.txt

drack2000 · 22 Feb 2013

Que si??? que raro, yo tengo el # en mi robots y no he tenido problemas :distant::distant::distant:

neburor · 22 Feb 2013

no sera mas bien el *

brunouy · 22 Feb 2013

drack2000 dijo:
Que si??? que raro, yo tengo el # en mi robots y no he tenido problemas :distant::distant::distant:

Sorry, la linea es Disallow: /*# o Disallow: /*#* que es lo mismo...

---------- Post agregado en la hora: 22:52 ---------- Anterior post agregado en la hora: 22:47 ----------

neburor dijo:
no sera mas bien el *

Si, el asterisco claramente bloquea todo, el tema que si pones

Disallow: /*#*
Se entiende que queres bloquear cualquier url que contiene en algún lugar # y no es así, bloquea todas las URL, en principio pensé que podrían ser las que tienen numeros, pero bloquea todas...

Hagan la prueba en Webmaster Tools "URL bloqueadas "

Denim · 22 Feb 2013

Disallow: /*#* esta línea en particular bloquea todo el sitio, la única URL rastreable con esta línea es nuestro dominio. Puedes verificarlo incluyéndola en el robots.txt cargado en la sección URL bloqueadas de Google Webmaster Tools, verás que cualquier URL de tu sitio es bloqueada por esa línea.

bluewebmkt · 23 Feb 2013

Utiliza las opciones de query parámeters de GWT y asegúrate tener la canónical en la original.

Manuel de la Fuente · 5 Jul 2013

Jajajajajaja, tremendo FAIL ese que cometiste. 😀

Yo justamente he llegado aquí investigando acerca de lo mismo. Estaba en Google Webmasters Tools probando combinaciones en el modelo de robots.txt que está disponible ahí para intentar bloquear las páginas de comentarios, pero sin importar cuál combinación utilizara no conseguía hacerlo: o se bloquean tanto las páginas de comentarios como los posts, o se desbloquean ambos, pero no se puede bloquear solo uno.

Investigando sobre el tema he terminado leyendo tu experiencia. Jajajajaja, afortunadamente yo he sido más cuidadoso y no grabé ningún cambio en el robots.txt verdadero, sino que cuando vi lo que ocurría con el robots virtual de Webmasters Tools preferí dejarlo como estaba. 😀

Sin embargo, también he llegado a la conclusión de que en WordPress no hace falta intentar bloquear los parámetros de URL. Desde la versión 2.9 WordPress incorpora por defecto la etiqueta canonical en todas las páginas individuales, así que de cualquier manera los buscadores ya saben que esta página:

midominio.com/page/#comment-454

o ésta

midominio.com/page/?whatever

no son más que variaciones de ésta

midominio.com/page/

y no las indexan. Me parece que, incluso en el caso de los parámetros que sí se pueden bloquear desde el robots.txt, es mejor dejarlos desbloqueados y limitarse a dejarle el trabajo a la etiqueta canonical, ya que mientras que el primero solo les indica a los buscadores que no indexen el parámetro, el segundo les indica cuál es la página original, con lo que le transmiten el PageRank que pudieran tener.

Brandon Díaz · 5 Jul 2013

brunouy dijo:
Hola Betas, paso a comentarles un problema que tuve en mi ansia por bloquear contenido duplicado...

Esto, personalmente no lo sabía y no sé en realidad cuantos de los que leerán este hilo realmente lo saben, esta experiencia me llevo a publicar este post Robots.txt y su uso con prudencia | Webmaster: Consulta, Comparte y Debate vinculándolo con Contenido Duplicado donde comento algunos detalles extras sobre mi experiencia con Robots.txt y google...

En mi afán de facilitarle la vida al bot, comencé a bloquear algunos parámetros que aparecían en mi web entre ellos me apearece "#" para el cual lo que parece coherente agrego la siguiente línea:

Disallow: /*/#

Resulta que fué un tiró en la nuca!!! aún no se que representa numeral "#" a nivel de robots, pero lo asumí como un caracter más, resulta que esa línea me bloqueó todas las URL del sitio salvo la raíz del dominio al rastreo del los bot's.

Consecuencia: Ya van 2 días sin rastreo y las URL agregadas aparecen con esta descripción: "No se dispone de una descripción de este resultado debido a robots.txt. Más información."

A estar cuidadosos con el uso de Robots.txt

¡Ay amigo! Jejejeje

La linea:
Disallow: /*/#

Hace exactamente lo mismo que:

Disallow: /*/

Ya que el símbolo Gato #
ES PARA ESTABLECER UN COMENTARIO

Es decir, si tu pones:
User-agent: *
Disallow: /privado/ #Para evitar que rastreen la carpeta privado

Lo que sigue del # es ignorado por los robots

"#" En robots.txt gran error el mío

brunouy

TonyGay

brunouy

drack2000

neburor

brunouy

Denim

bluewebmkt

Manuel de la Fuente

Brandon Díaz

Temas similares