Problemas con indexación de páginas bloqueadas por robots.txt en Google

  • Autor Autor tracid
  • Fecha de inicio Fecha de inicio
T

tracid

Gamma
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Hola, en un blog que tengo google me indexa páginas del tipo ......./feed/ o ...../?share=twitter, /?share=google-plus-1. Estas páginas aparecen al usar el comando site:misitio en google, en la descripción dice que han sido bloqueadas por el robots.txt. Pues bien si voy a WMT y meto cualquier url de esas para ver donde las bloquea el robots, me dice que están bloqueadas, pero cada vez que añado una entrada al blog, se me crean 4,5, o las que sean de esas entradas, a alguien más le ha pasado esto?
 
eliminalas desde google webmaster. pr ahi ya las habia indexado antes y todavia no las saco
 
eliminalas desde google webmaster. pr ahi ya las habia indexado antes y todavia no las saco

No, ya las he ido eliminando, no es que estén de antes, es que cada vez que publico una entrada en el blog, se generan solas :S por eso no lo entiendo. Cada día tengo que andar eliminando unas 10 URLS de esas de google a mano
 
El robots.txt NO EVITA QUE LAS PAGINAS SEAN INDEXADAS
 
Pero si están bloqueadas deberían no aparecer en google no? Porque el resto que me bloquea el robots no salen :S

No. Que esten "bloqueadas" por el robots.txt no garantiza que no sean indexadas.
Si esas paginas que dices tienen algun enlace desde tu sitio o algun otro, y el rastreador sigue ese enlace, puede indexar tu pagina
 
Entonces como hago para que no se indexen esas páginas? Quitando lo de compartir que es de donde deben salir esos enlaces? No hay manera de no indexar esas urls?

Claro pero dices "puede" pero por ejemplo las categorías no las tengo indexadas y hay enlaces de ellas por el blog, no entiendo porque unas sí y otras no.
 
Última edición:
No lo se, depende como tengas tu sitio. Tal ves algun plugin te funcione..

Y las categorias no las tienes indexadas por que debes tener "noindex" en la meta etiqueta "robots"
 
Disallow: /*/feed/
Disallow: /feed/
Disallow: /*/?share=twitter
Disallow: /?share=twitter

- - - Actualizado - - -

No es instantaneo, le toma tiempo a Google eliminar las URL's.
 
Disallow: /*/feed/
Disallow: /feed/
Disallow: /*/?share=twitter
Disallow: /?share=twitter

- - - Actualizado - - -

No es instantaneo, le toma tiempo a Google eliminar las URL's.

Creo que dijo que ya estan bloqueadas por el robots.txt
 
Entonces no hay mas que hacer, como dije: Solo es cuestion de esperar a que Google aga su trabajo.

No.
Cuando pones "Disallow" evitas que las arañas de los buscadores "lean" esa pagina, pero si existen enlaces a la misma puede ser indexada.

En cambio, teniendo la meta etiqueta robots con el valor "noindex" le estas diciendo al buscador que "lea" esa pagina, pero que no la indexe.
Ahora que si usas "noindex,nofollow" ni la "lee" ni la indexa
 

Re afirmo:
Fuente: Cómo bloquear o eliminar páginas con un archivo robots.txt - Ayuda de Herramientas para webmasters de Google

- - - Actualizado - - -

No es necesario usar meta robots...... Yo no los uso, y solo mis posts y categorias son indexadas.
 

La pregunta es, a quien le crees mas, a los de google o a un usuario que dice:


Ya las tiene bloqueadas por el robots.txt. Hay muchos casos de paginas indexadas donde en la descripcion dice que "no hay descripcion por que estan bloquedas por robots.txt". Pero eso no garantiza que no sean indexadas, pueden no serlo, pero tambien pueden serlo. Para estar 100% seguros hay que usar "noindex".

Saludos
 
Si existieran casos serian porque el usuario a agregado esos valores despues de ser inexadas las paginas al robots.txt, o porque no esta bien creado el archivo robots.txt, primero hay que descartar estas opciones para despues culpar a Google de no seguir al robots.txt. Satanarchist [MENTION=18868]tracid[/MENTION]
 

Para aclarar este asunto, cito el mismo documento que tu:


Se refiere a que SI INDEXARA las URLs que ENCUENTRE EN OTRAS PAGINAS DE LA WEB. Osease, que tengan enlaces desde otros sitios.

Mas abajo en el mismo documento dice:


La clave es donde dice "incluso si esta vinculado a otros sitios". Osease, incluso si esta referenciado (enlazado) por otros sitios, al usar la metaetiqueta noindex no sera INDEXADO, a diferencia de usar solamente el robots.txt
 


En la fuente que cite, queda a discucion porque es un poco confusa la informacion que tiene. En ningun lugar he leido directamente que Teniendo el robots.txt bloqueado a todo un sitio y si un enlace entrante tiene, entonces Google lo indexara?
 
En la fuente que cite, queda a discucion porque es un poco confusa la informacion que tiene. En ningun lugar he leido directamente que Teniendo el robots.txt bloqueado a todo un sitio y si un enlace entrante tiene, entonces Google lo indexara?

PUEDE indexar la pagina a donde el enlace apunta
 
PUEDE indexar la pagina a donde el enlace apunta

Entonces seria inutil el robots.txt. Generalmente un mismo sitio incluye enlaces a si mismo y muchas veces es tedioso colocar noindex en los enlaces y/o meta robots que pueden ser ingnorados, en cambio en ningun lugar menciona que el robots.txt sea ignorado, a no ser que sea un robot malicioso.
 

No es que sea ignorado, es que su proposito no es evitar la indexacion como tal.