Problemas con indexación de páginas bloqueadas por robots.txt en Google

tracid · 24 Nov 2012

Hola, en un blog que tengo google me indexa páginas del tipo ......./feed/ o ...../?share=twitter, /?share=google-plus-1. Estas páginas aparecen al usar el comando site:misitio en google, en la descripción dice que han sido bloqueadas por el robots.txt. Pues bien si voy a WMT y meto cualquier url de esas para ver donde las bloquea el robots, me dice que están bloqueadas, pero cada vez que añado una entrada al blog, se me crean 4,5, o las que sean de esas entradas, a alguien más le ha pasado esto?

Cicklow · 24 Nov 2012

eliminalas desde google webmaster. pr ahi ya las habia indexado antes y todavia no las saco

tracid · 24 Nov 2012

cicklow dijo:
eliminalas desde google webmaster. pr ahi ya las habia indexado antes y todavia no las saco

No, ya las he ido eliminando, no es que estén de antes, es que cada vez que publico una entrada en el blog, se generan solas :S por eso no lo entiendo. Cada día tengo que andar eliminando unas 10 URLS de esas de google a mano

Brandon Díaz · 24 Nov 2012

El robots.txt NO EVITA QUE LAS PAGINAS SEAN INDEXADAS

tracid · 24 Nov 2012

Satanarchist dijo:
El robots.txt NO EVITA QUE LAS PAGINAS SEAN INDEXADAS

Pero si están bloqueadas deberían no aparecer en google no? Porque el resto que me bloquea el robots no salen :S

Brandon Díaz · 24 Nov 2012

tracid dijo:
Pero si están bloqueadas deberían no aparecer en google no? Porque el resto que me bloquea el robots no salen :S

No. Que esten "bloqueadas" por el robots.txt no garantiza que no sean indexadas.
Si esas paginas que dices tienen algun enlace desde tu sitio o algun otro, y el rastreador sigue ese enlace, puede indexar tu pagina

tracid · 24 Nov 2012

Entonces como hago para que no se indexen esas páginas? Quitando lo de compartir que es de donde deben salir esos enlaces? No hay manera de no indexar esas urls?

Claro pero dices "puede" pero por ejemplo las categorías no las tengo indexadas y hay enlaces de ellas por el blog, no entiendo porque unas sí y otras no.

Brandon Díaz · 24 Nov 2012

tracid dijo:
Entonces como hago para que no se indexen esas páginas? Quitando lo de compartir que es de donde deben salir esos enlaces? No hay manera de no indexar esas urls?

Claro pero dices "puede" pero por ejemplo las categorías no las tengo indexadas y hay enlaces de ellas por el blog, no entiendo porque unas sí y otras no.

No lo se, depende como tengas tu sitio. Tal ves algun plugin te funcione..

Y las categorias no las tienes indexadas por que debes tener "noindex" en la meta etiqueta "robots"

shadowhck · 24 Nov 2012

Disallow: /*/feed/
Disallow: /feed/
Disallow: /*/?share=twitter
Disallow: /?share=twitter

- - - Actualizado - - -

No es instantaneo, le toma tiempo a Google eliminar las URL's.

Brandon Díaz · 24 Nov 2012

shadowhck dijo:
Disallow: /*/feed/
Disallow: /feed/
Disallow: /*/?share=twitter
Disallow: /?share=twitter

- - - Actualizado - - -

No es instantaneo, le toma tiempo a Google eliminar las URL's.

Creo que dijo que ya estan bloqueadas por el robots.txt

shadowhck · 24 Nov 2012

Satanarchist dijo:
Creo que dijo que ya estan bloqueadas por el robots.txt

Entonces no hay mas que hacer, como dije: Solo es cuestion de esperar a que Google aga su trabajo.

Brandon Díaz · 24 Nov 2012

shadowhck dijo:
Entonces no hay mas que hacer, como dije: Solo es cuestion de esperar a que Google aga su trabajo.

No.
Cuando pones "Disallow" evitas que las arañas de los buscadores "lean" esa pagina, pero si existen enlaces a la misma puede ser indexada.

En cambio, teniendo la meta etiqueta robots con el valor "noindex" le estas diciendo al buscador que "lea" esa pagina, pero que no la indexe.
Ahora que si usas "noindex,nofollow" ni la "lee" ni la indexa

shadowhck · 24 Nov 2012

Satanarchist dijo:
No.
Cuando pones "Disallow" evitas que las arañas de los buscadores "lean" esa pagina, pero si existen enlaces a la misma puede ser indexada.

En cambio, teniendo la meta etiqueta robots con el valor "noindex" le estas diciendo al buscador que "lea" esa pagina, pero que no la indexe.
Ahora que si usas "noindex,nofollow" ni la "lee" ni la indexa

Re afirmo:

Si bien Google no rastreará ni indexará el contenido de las páginas bloqueadas por robots.txt, sí que indexará las URL que encuentre en otras páginas de la Web. Como consecuencia, la URL de la página y otros datos disponibles públicamente, como el texto de anclaje en enlaces que dirigen al sitio o el título de Open Directory Project (Enlace eliminado), podrían aparecer en los resultados de búsqueda de Google.

Fuente: Cómo bloquear o eliminar páginas con un archivo robots.txt - Ayuda de Herramientas para webmasters de Google

- - - Actualizado - - -

No es necesario usar meta robots...... Yo no los uso, y solo mis posts y categorias son indexadas.

Brandon Díaz · 24 Nov 2012

shadowhck dijo:
Re afirmo:

Fuente: Cómo bloquear o eliminar páginas con un archivo robots.txt - Ayuda de Herramientas para webmasters de Google

- - - Actualizado - - -

No es necesario usar meta robots...... Yo no los uso, y solo mis posts y categorias son indexadas.

La pregunta es, a quien le crees mas, a los de google o a un usuario que dice:

tracid dijo:
Hola, en un blog que tengo google me indexa páginas del tipo ......./feed/ o ...../?share=twitter, /?share=google-plus-1. Estas páginas aparecen al usar el comando site:misitio en google, en la descripción dice que han sido bloqueadas por el robots.txt. Pues bien si voy a WMT y meto cualquier url de esas para ver donde las bloquea el robots, me dice que están bloqueadas, pero cada vez que añado una entrada al blog, se me crean 4,5, o las que sean de esas entradas, a alguien más le ha pasado esto?

Ya las tiene bloqueadas por el robots.txt. Hay muchos casos de paginas indexadas donde en la descripcion dice que "no hay descripcion por que estan bloquedas por robots.txt". Pero eso no garantiza que no sean indexadas, pueden no serlo, pero tambien pueden serlo. Para estar 100% seguros hay que usar "noindex".

Saludos

shadowhck · 24 Nov 2012

Si existieran casos serian porque el usuario a agregado esos valores despues de ser inexadas las paginas al robots.txt, o porque no esta bien creado el archivo robots.txt, primero hay que descartar estas opciones para despues culpar a Google de no seguir al robots.txt. Satanarchist [MENTION=18868]tracid[/MENTION]

Brandon Díaz · 24 Nov 2012

shadowhck dijo:
Si existieran casos serian porque el usuario a agregado esos valores despues de ser inexadas las paginas al robots.txt, o porque no esta bien creado el archivo robots.txt, primero hay que descartar estas opciones para despues culpar a Google de no seguir al robots.txt. Satanarchist tracid

Para aclarar este asunto, cito el mismo documento que tu:

Si bien Google no rastreará ni indexará el contenido de las páginas bloqueadas por robots.txt, sí que indexará las URL que encuentre en otras páginas de la Web. Como consecuencia, la URL de la página y otros datos disponibles públicamente, como el texto de anclaje en enlaces que dirigen al sitio o el título de Open Directory Project (Enlace eliminado), podrían aparecer en los resultados de búsqueda de Google..

Se refiere a que SI INDEXARA las URLs que ENCUENTRE EN OTRAS PAGINAS DE LA WEB. Osease, que tengan enlaces desde otros sitios.

Mas abajo en el mismo documento dice:

Para impedir que aparezca cualquier contenido de una página en el índice de páginas web de Google, incluso si está vinculado a otros sitios, se puede utilizar una metaetiqueta "noindex" o una etiqueta x-robots-tag. Siempre que Googlebot rastree la página, verá la metaetiqueta "noindex" y no incluirá esa página en el índice de páginas web.

La clave es donde dice "incluso si esta vinculado a otros sitios". Osease, incluso si esta referenciado (enlazado) por otros sitios, al usar la metaetiqueta noindex no sera INDEXADO, a diferencia de usar solamente el robots.txt

shadowhck · 24 Nov 2012

Satanarchist dijo:
Para aclarar este asunto, cito el mismo documento que tu:

Se refiere a que SI INDEXARA las URLs que ENCUENTRE EN OTRAS PAGINAS DE LA WEB. Osease, que tengan enlaces desde otros sitios.

Mas abajo en el mismo documento dice:

La clave es donde dice "incluso si esta vinculado a otros sitios". Osease, incluso si esta referenciado (enlazado) por otros sitios, al usar la metaetiqueta noindex no sera INDEXADO, a diferencia de usar solamente el robots.txt

Tenga en cuenta que debido a que tenemos que rastrear la página para ver la etiqueta "noindex", existe una pequeña posibilidad de que Googlebot no vea y respete la metaetiqueta. Si su página sigue apareciendo en los resultados, probablemente se debe a que no hemos rastreado su sitio desde que añadió la etiqueta. (Igualmente, si ha utilizado el archivo robots.txt para bloquear la página, tampoco podremos ver la etiqueta).

En la fuente que cite, queda a discucion porque es un poco confusa la informacion que tiene. En ningun lugar he leido directamente que Teniendo el robots.txt bloqueado a todo un sitio y si un enlace entrante tiene, entonces Google lo indexara?

Brandon Díaz · 24 Nov 2012

shadowhck dijo:
En la fuente que cite, queda a discucion porque es un poco confusa la informacion que tiene. En ningun lugar he leido directamente que Teniendo el robots.txt bloqueado a todo un sitio y si un enlace entrante tiene, entonces Google lo indexara?

PUEDE indexar la pagina a donde el enlace apunta

shadowhck · 24 Nov 2012

Satanarchist dijo:
PUEDE indexar la pagina a donde el enlace apunta

Entonces seria inutil el robots.txt. Generalmente un mismo sitio incluye enlaces a si mismo y muchas veces es tedioso colocar noindex en los enlaces y/o meta robots que pueden ser ingnorados, en cambio en ningun lugar menciona que el robots.txt sea ignorado, a no ser que sea un robot malicioso.

Brandon Díaz · 24 Nov 2012

shadowhck dijo:
Entonces seria inutil el robots.txt. Generalmente un mismo sitio incluye enlaces a si mismo y muchas veces es tedioso colocar noindex en los enlaces y/o meta robots que pueden ser ingnorados, en cambio en ningun lugar menciona que el robots.txt sea ignorado, a no ser que sea un robot malicioso.

No es que sea ignorado, es que su proposito no es evitar la indexacion como tal.

Problemas con indexación de páginas bloqueadas por robots.txt en Google

tracid

Cicklow

tracid

Brandon Díaz

tracid

Brandon Díaz

tracid

Brandon Díaz

shadowhck

Brandon Díaz

shadowhck

Brandon Díaz

shadowhck

Brandon Díaz

shadowhck

Brandon Díaz

shadowhck

Brandon Díaz

shadowhck

Brandon Díaz

Temas similares

Privacidad y transparencia

Privacidad y transparencia