¿Que utilidad tiene robot.txt?

srlemuuur Seguir

Gamma
Verificado por Whatsapp
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Desde
2 Ene 2014
Mensajes
368
Buenas noches,

He estado informandome acerca de este archivo y me ha parecido entender que es para ocultar cierto contenido a los spiders, pero, ¿con que motivo se suele hacer? Que finalidad tiene? No es mejor estar en todos lo navegadores? Es prescindible?
 

Brandon Díaz

Lambda
SEO
Verificación en dos pasos activada
Desde
24 Nov 2011
Mensajes
2.815
Buenas noches,

He estado informandome acerca de este archivo y me ha parecido entender que es para ocultar cierto contenido a los spiders, pero, ¿con que motivo se suele hacer? Que finalidad tiene? No es mejor estar en todos lo navegadores? Es prescindible?

1. No es para ocultar contenido a las arañas de los buscadores... es para indicarles que contenido no deberían rastrear. Sin embargo esto no impide que lo puedan indexar si hay enlaces apuntando a dicho contenido.

2. Al indicarle que contenido no rastrear puedes canalizar el rastreo a otras partes del sitio... lo cual es útil, pues esas arañas no tienen todo el tiempo del mundo para rastrear tooodas las páginas de tu sitio... normalmente solo rastrean hasta cierto punto (ese "punto" esta definido básicamente por el PageRank que tienes (Enlace eliminado)) y es mejor no hacerlos desperdiciar su tiempo con contenido que no es prioritario para ti, por ejemplo, las paginaciones de tu contenido (/page/2, /page/3, etc)

3. ¿A qué te refieres con estar en todos los navegadores?

4. Sí... pero hasta cierto punto. Si tienes un sitio web grande es imprescindible usarlo bien
 

srlemuuur

Gamma
Verificado por Whatsapp
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Desde
2 Ene 2014
Mensajes
368
1. No es para ocultar contenido a las arañas de los buscadores... es para indicarles que contenido no deberían rastrear. Sin embargo esto no impide que lo puedan indexar si hay enlaces apuntando a dicho contenido.

2. Al indicarle que contenido no rastrear puedes canalizar el rastreo a otras partes del sitio... lo cual es útil, pues esas arañas no tienen todo el tiempo del mundo para rastrear tooodas las páginas de tu sitio... normalmente solo rastrean hasta cierto punto (ese "punto" esta definido básicamente por el PageRank que tienes (Enlace eliminado)) y es mejor no hacerlos desperdiciar su tiempo con contenido que no es prioritario para ti, por ejemplo, las paginaciones de tu contenido (/page/2, /page/3, etc)

3. ¿A qué te refieres con estar en todos los navegadores?

4. Sí... pero hasta cierto punto. Si tienes un sitio web grande es imprescindible usarlo bien

3. Fallo mio, Navegadores = Buscadores

Ajam, entonces si estas empezando a construir un sitio es mejor prescindir de el hasta que la web se haga grande y desperdicie el tiempo de estos spiders. Gracias.

¿Existen mas ficheros de este tipo que abarquen otras funciones?
 

Brandon Díaz

Lambda
SEO
Verificación en dos pasos activada
Desde
24 Nov 2011
Mensajes
2.815
3. Fallo mio, Navegadores = Buscadores

Ajam, entonces si estas empezando a construir un sitio es mejor prescindir de el hasta que la web se haga grande y desperdicie el tiempo de estos spiders. Gracias.

¿Existen mas ficheros de este tipo que abarquen otras funciones?

Oh ya. Veras, ese archivo solo les indica que no deben rastrear, mas no que NO deben indexar.

Y nope, no dije eso. En ningún caso sería mejor prescindir de el.

Muchos sistemas como Wordpress y Prestashop traen ya ficheros robots.txt predeterminados, para que los buscadores no rastreen ciertas carpetas del sitio. Puedes usarlos para eso y para evitar el rastreo de cualquier página de tu sitio... además, puedes también indicar un mapa de sitio en formato XML desde ese mismo archivo.

¿De este tipo? Hmm no, el robots.txt es único. Aunque hay algo similar que se utiliza para lo mismo que el robots.txt y para otras funciones más, pero página por página: La meta etiqueta robots.

<meta name="robots" content="...." />
 
Última edición:

srlemuuur

Gamma
Verificado por Whatsapp
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Desde
2 Ene 2014
Mensajes
368
Oh ya. Estarás, ese archivo solo les indica que no deben rastrear, mas no que NO deben indexar.

Y nope, no dije eso. En ningún caso sería mejor prescindir de el.

Muchos sistemas como Wordpress y Prestashop traen ya ficheros robots.txt predeterminados, para que los buscadores no rastreen ciertas carpetas del sitio. Puedes usarlos para eso y para evitar el rastreo de cualquier página de tu sitio... además, puedes también indicar un mapa de sitio en formato XML desde ese mismo archivo.

¿De este tipo? Hmm no, el robots.txt es único. Aunque hay algo similar que se utiliza para lo mismo que el robots.txt y para otras funciones más, pero página por página: La meta etiqueta robots.

<meta name="robots" content="...." />

Aclarado, gracias
 

Facundo

Xi
Desde
15 Abr 2009
Mensajes
4.432
Por favor, ten en cuenta 📝 que si deseas hacer un trato 🤝 con este usuario, está baneado 🔒.
Un ejemplo claro:

Tenés un sistema con un panel de administración, por una cuestión de seguridad, no te conviene que e indexen las rutas de administración (Ejemplo, carpeta "admin") por lo que es ahí (robots.txt) en donde bloqueás para que los buscadores no indexen.


Saludos!
 

Brandon Díaz

Lambda
SEO
Verificación en dos pasos activada
Desde
24 Nov 2011
Mensajes
2.815
Si llegaras a tener un caso como el que expone Facundo yo preferiría agregar a cada página de dicho Panel la meta etiqueta:

<meta name="robots" content="noindex" />

Así te asegurarías de que no serán indexadas... pues aunque las tengas bloqueadas en el robots.txt pueden serlo
 

georgebena

Kappa
Programador
Verificación en dos pasos activada
Verificado por Whatsapp
¡Ha verificado su Paypal!
Verificado por Binance
Desde
20 Dic 2013
Mensajes
2.621
es algo importante el robot.txt, para mi lo utilizo en google analytics para algunas estadísticas personalizadas
 

Facundo

Xi
Desde
15 Abr 2009
Mensajes
4.432
Por favor, ten en cuenta 📝 que si deseas hacer un trato 🤝 con este usuario, está baneado 🔒.
Si llegaras a tener un caso como el que expone Facundo yo preferiría agregar a cada página de dicho Panel la meta etiqueta:

<meta name="robots" content="noindex" />

Así te asegurarías de que no serán indexadas... pues aunque las tengas bloqueadas en el robots.txt pueden serlo


Igual, si uno quiere seguridad posta, bloquearía por .htaccess todas las IP´s salvo nuestro bloque para esa sección :p
 

supercordobes

Zeta
Programador
Verificación en dos pasos activada
Verificado por Whatsapp
Desde
2 Sep 2011
Mensajes
1.506
Como te dijeron sirve para orientar a los buscadores dentro de tu sitio. Con respecto a la parte de seguridad hay que tener cuidado ... porque si bien le informas a los buscadores que partes sensibles de tu sitio no quieres que se indexen, también es información publica que puede ser usada por los hackers para ver donde meterse y hacer pruebas. Acá tienes una nota al respecto: Un informático en el lado del mal: Hacking driven by Robots.txt
 
Arriba