Problemas con indexación de páginas bloqueadas por robots.txt en Google

  • Autor Autor tracid
  • Fecha de inicio Fecha de inicio
bueno, tengo pruebas, un sitio mio que esta en WordPress, tiene solamente el robots.txt, y no se indexa lo que no quiero que se indexe.

¿Que sitio es?
Pasame alguna URL que NO este indexada y le aventamos unos backlinks a ver que tal.
 
¿Que sitio es?
Pasame alguna URL que NO este indexada y le aventamos unos backlinks a ver que tal.

Hay que hacer la prueba con forobeta mejor, por cuestiones de anonimato lo digo. xD


Ya no se que pensar de Google:

Esto esta en forobeta, y cuando busco "registrarse en forobeta", me aparece esa pagina.
Disallow: /register.php

Lo curioso es que aparece asi:
[h=3]Registrarse - ForoBeta[/h]forobeta.com/register.php Compartir

No se dispone de una descripción de este resultado debido a robots.txt. Más información.
 
A ver, el robots creo que está bien. En los foros de google me dicen que está bien. En WMT meto las url de ese tipo y me pone que están bloqueadas y en google aparecen. No sé si luego google las irá eliminando, pero me parece que no, y por lo que tengo entendido no es bueno que se indexen ya que te penaliza. El plugin que tengo es el de jetpack, que tiene una opción que se llama compartir. En lo referente al robots que me decís:

Disallow: /*/feed/
Disallow: /feed/
Disallow: /*/?share=twitter
Disallow: /?share=twitter

Las dos primeras lineas si que las tengo, las dos últimas no. En el robots puedo poner tb NOINDEX y NOFOLLOW?
 
Tema bastante interesante para debatir:

También tenia esa duda, encontre esto:
Si la página sigue existiendo, utiliza el archivo robots.txt para evitar que Google la rastree. Aunque el archivo robots.txt no permita acceder a una URL, es posible que sigamos indexando la página si encontramos su URL en otro sitio. Sin embargo, no indexaremos la página si está bloqueada en el archivo robots.txt y existe una solicitud de eliminación de URL activa de la misma

Cómo eliminar una página por completo - Ayuda de Herramientas para webmasters de Google

Por otro lado tengo entendido que si colocas noindex y tienes bloqueado por robots.txt el robot no podrá leer la etiqueta, por lo que hay que quitar el robots.txt y dejar solo la metaetiqueta.
 
Pero el noindex lo colocas en la página, no? en el robots no puedes poner noindex...y tal página, o sí?

Además no es algo que afecte a una página en concreto, sino a todas las entradas del blog, si pusiera noindex, no indexaría las entradas no? Ya he leído tantas cosas por ahí y todas distintas que no sé como funciona eso :S
 
Atrás
Arriba