"#" En robots.txt gran error el mío

  • Autor Autor brunouy
  • Fecha de inicio Fecha de inicio
B

brunouy

Beta
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Hola Betas, paso a comentarles un problema que tuve en mi ansia por bloquear contenido duplicado...

Esto, personalmente no lo sabía y no sé en realidad cuantos de los que leerán este hilo realmente lo saben, esta experiencia me llevo a publicar este post Robots.txt y su uso con prudencia | Webmaster: Consulta, Comparte y Debate vinculándolo con Contenido Duplicado donde comento algunos detalles extras sobre mi experiencia con Robots.txt y google...


En mi afán de facilitarle la vida al bot, comencé a bloquear algunos parámetros que aparecían en mi web entre ellos me apearece "#" para el cual lo que parece coherente agrego la siguiente línea:

Disallow: /*/#


Resulta que fué un tiró en la nuca!!! aún no se que representa numeral "#" a nivel de robots, pero lo asumí como un caracter más, resulta que esa línea me bloqueó todas las URL del sitio salvo la raíz del dominio al rastreo del los bot's.

Consecuencia: Ya van 2 días sin rastreo y las URL agregadas aparecen con esta descripción: "No se dispone de una descripción de este resultado debido a robots.txt. Más información."


A estar cuidadosos con el uso de Robots.txt
 
Última edición:
Y cual es la utilidad real entonces del #?
 
Que si??? que raro, yo tengo el # en mi robots y no he tenido problemas :distant::distant::distant:
 
no sera mas bien el *
 
Que si??? que raro, yo tengo el # en mi robots y no he tenido problemas :distant::distant::distant:

Sorry, la linea es Disallow: /*# o Disallow: /*#* que es lo mismo...

---------- Post agregado en la hora: 22:52 ---------- Anterior post agregado en la hora: 22:47 ----------

no sera mas bien el *

Si, el asterisco claramente bloquea todo, el tema que si pones

Disallow: /*#*
Se entiende que queres bloquear cualquier url que contiene en algún lugar # y no es así, bloquea todas las URL, en principio pensé que podrían ser las que tienen numeros, pero bloquea todas...

Hagan la prueba en Webmaster Tools "URL bloqueadas "
 
Disallow: /*#* esta línea en particular bloquea todo el sitio, la única URL rastreable con esta línea es nuestro dominio. Puedes verificarlo incluyéndola en el robots.txt cargado en la sección URL bloqueadas de Google Webmaster Tools, verás que cualquier URL de tu sitio es bloqueada por esa línea.
 
Utiliza las opciones de query parámeters de GWT y asegúrate tener la canónical en la original.
 
Jajajajajaja, tremendo FAIL ese que cometiste. 😀

Yo justamente he llegado aquí investigando acerca de lo mismo. Estaba en Google Webmasters Tools probando combinaciones en el modelo de robots.txt que está disponible ahí para intentar bloquear las páginas de comentarios, pero sin importar cuál combinación utilizara no conseguía hacerlo: o se bloquean tanto las páginas de comentarios como los posts, o se desbloquean ambos, pero no se puede bloquear solo uno.

Investigando sobre el tema he terminado leyendo tu experiencia. Jajajajaja, afortunadamente yo he sido más cuidadoso y no grabé ningún cambio en el robots.txt verdadero, sino que cuando vi lo que ocurría con el robots virtual de Webmasters Tools preferí dejarlo como estaba. 😀

Sin embargo, también he llegado a la conclusión de que en WordPress no hace falta intentar bloquear los parámetros de URL. Desde la versión 2.9 WordPress incorpora por defecto la etiqueta canonical en todas las páginas individuales, así que de cualquier manera los buscadores ya saben que esta página:

midominio.com/page/#comment-454

o ésta

midominio.com/page/?whatever

no son más que variaciones de ésta

midominio.com/page/

y no las indexan. Me parece que, incluso en el caso de los parámetros que sí se pueden bloquear desde el robots.txt, es mejor dejarlos desbloqueados y limitarse a dejarle el trabajo a la etiqueta canonical, ya que mientras que el primero solo les indica a los buscadores que no indexen el parámetro, el segundo les indica cuál es la página original, con lo que le transmiten el PageRank que pudieran tener.
 
Hola Betas, paso a comentarles un problema que tuve en mi ansia por bloquear contenido duplicado...

Esto, personalmente no lo sabía y no sé en realidad cuantos de los que leerán este hilo realmente lo saben, esta experiencia me llevo a publicar este post Robots.txt y su uso con prudencia | Webmaster: Consulta, Comparte y Debate vinculándolo con Contenido Duplicado donde comento algunos detalles extras sobre mi experiencia con Robots.txt y google...


En mi afán de facilitarle la vida al bot, comencé a bloquear algunos parámetros que aparecían en mi web entre ellos me apearece "#" para el cual lo que parece coherente agrego la siguiente línea:

Disallow: /*/#


Resulta que fué un tiró en la nuca!!! aún no se que representa numeral "#" a nivel de robots, pero lo asumí como un caracter más, resulta que esa línea me bloqueó todas las URL del sitio salvo la raíz del dominio al rastreo del los bot's.

Consecuencia: Ya van 2 días sin rastreo y las URL agregadas aparecen con esta descripción: "No se dispone de una descripción de este resultado debido a robots.txt. Más información."


A estar cuidadosos con el uso de Robots.txt

¡Ay amigo! Jejejeje

La linea:
Disallow: /*/#

Hace exactamente lo mismo que:

Disallow: /*/

Ya que el símbolo Gato #
ES PARA ESTABLECER UN COMENTARIO

Es decir, si tu pones:
User-agent: *
Disallow: /privado/ #Para evitar que rastreen la carpeta privado

Lo que sigue del # es ignorado por los robots
 
Atrás
Arriba