Problema con robots.txt en Google Webmaster Tool

  • Autor Autor xaiborweb
  • Fecha de inicio Fecha de inicio
xaiborweb

xaiborweb

Programador
No recomendado
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
hola compañeros del foro

bueno es que estoy muy preocupado por algo que recientemente me esta pasando ayer entre a mi panel de webmaster tool
y me apareció una alerta de google

Se han detectado incidencias graves relacionadas con el estado de tu sitio
me dice que el archivo robots.txt esta bloqueando paginas importantes
Googlebot se encuentra bloqueado para peliculas-movies.net


y miro el robots.txt que me aparecía en google y era este
HTML:
User-agent: *
Disallow: /

y lo único raro que e echo es
1) yo antes no tenia ningún archivo robots.txt físico en la raíz pero wordpress crea un robots.txt virtual el cual era este
HTML:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
pero me esta indexando este directorio Enlace eliminado y no lo quería indexar así que me cree un archivo robots.txt físico con estas lineas
HTML:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /stream/
en el cual quería bloquear el directorio stream

2) implemente cloudflare en mi dominio con el cual camufle mis dns y ademas cachee mi sitio
3) implemente el plugin wp super cache para cachear todo el html de mi sitio el cual me modifico mi archivo htacces a modo que me quedara así:
HTML:
<IfModule mod_rewrite.c>
RewriteEngine On
</IfModule>   
LimitRequestBody 10240000  


# BEGIN WPSuperCache
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
#If you serve pages from behind a proxy you may want to change 'RewriteCond %{HTTPS} on' to something more sensible
AddDefaultCharset UTF-8
RewriteCond %{REQUEST_URI} !^.*[^/]$
RewriteCond %{REQUEST_URI} !^.*//.*$
RewriteCond %{REQUEST_METHOD} !POST
RewriteCond %{QUERY_STRING} !.*=.*
RewriteCond %{HTTP:Cookie} !^.*(comment_author_|wordpress_logged_in|wp-postpass_).*$
RewriteCond %{HTTP:X-Wap-Profile} !^[a-z0-9\"]+ [NC]
RewriteCond %{HTTP:Profile} !^[a-z0-9\"]+ [NC]
RewriteCond %{HTTP_USER_AGENT} !^.*(2.0\ MMP|240x320|400X240|AvantGo|BlackBerry|Blazer|Cellphone|Danger|DoCoMo|Elaine/3.0|EudoraWeb|Googlebot-Mobile|hiptop|IEMobile|KYOCERA/WX310K|LG/U990|MIDP-2.|MMEF20|MOT-V|NetFront|Newt|Nintendo\ Wii|Nitro|Nokia|Opera\ Mini|Palm|PlayStation\ Portable|portalmmm|Proxinet|ProxiNet|SHARP-TQ-GX10|SHG-i900|Small|SonyEricsson|Symbian\ OS|SymbianOS|TS21i-10|UP.Browser|UP.Link|webOS|Windows\ CE|WinWAP|YahooSeeker/M1A1-R2D2|iPhone|iPod|Android|BlackBerry9530|LG-TU915\ Obigo|LGE\ VX|webOS|Nokia5800).* [NC]
RewriteCond %{HTTP_user_agent} !^(w3c\ |w3c-|acs-|alav|alca|amoi|audi|avan|benq|bird|blac|blaz|brew|cell|cldc|cmd-|dang|doco|eric|hipt|htc_|inno|ipaq|ipod|jigs|kddi|keji|leno|lg-c|lg-d|lg-g|lge-|lg/u|maui|maxo|midp|mits|mmef|mobi|mot-|moto|mwbp|nec-|newt|noki|palm|pana|pant|phil|play|port|prox|qwap|sage|sams|sany|sch-|sec-|send|seri|sgh-|shar|sie-|siem|smal|smar|sony|sph-|symb|t-mo|teli|tim-|tosh|tsm-|upg1|upsi|vk-v|voda|wap-|wapa|wapi|wapp|wapr|webc|winw|winw|xda\ |xda-).* [NC]
RewriteCond %{HTTP:Accept-Encoding} gzip
RewriteCond %{HTTPS} on
RewriteCond %{DOCUMENT_ROOT}/wp-content/cache/supercache/%{SERVER_NAME}/$1/index-https.html.gz -f
RewriteRule ^(.*) "/wp-content/cache/supercache/%{SERVER_NAME}/$1/index-https.html.gz" [L]

RewriteCond %{REQUEST_URI} !^.*[^/]$
RewriteCond %{REQUEST_URI} !^.*//.*$
RewriteCond %{REQUEST_METHOD} !POST
RewriteCond %{QUERY_STRING} !.*=.*
RewriteCond %{HTTP:Cookie} !^.*(comment_author_|wordpress_logged_in|wp-postpass_).*$
RewriteCond %{HTTP:X-Wap-Profile} !^[a-z0-9\"]+ [NC]
RewriteCond %{HTTP:Profile} !^[a-z0-9\"]+ [NC]
RewriteCond %{HTTP_USER_AGENT} !^.*(2.0\ MMP|240x320|400X240|AvantGo|BlackBerry|Blazer|Cellphone|Danger|DoCoMo|Elaine/3.0|EudoraWeb|Googlebot-Mobile|hiptop|IEMobile|KYOCERA/WX310K|LG/U990|MIDP-2.|MMEF20|MOT-V|NetFront|Newt|Nintendo\ Wii|Nitro|Nokia|Opera\ Mini|Palm|PlayStation\ Portable|portalmmm|Proxinet|ProxiNet|SHARP-TQ-GX10|SHG-i900|Small|SonyEricsson|Symbian\ OS|SymbianOS|TS21i-10|UP.Browser|UP.Link|webOS|Windows\ CE|WinWAP|YahooSeeker/M1A1-R2D2|iPhone|iPod|Android|BlackBerry9530|LG-TU915\ Obigo|LGE\ VX|webOS|Nokia5800).* [NC]
RewriteCond %{HTTP_user_agent} !^(w3c\ |w3c-|acs-|alav|alca|amoi|audi|avan|benq|bird|blac|blaz|brew|cell|cldc|cmd-|dang|doco|eric|hipt|htc_|inno|ipaq|ipod|jigs|kddi|keji|leno|lg-c|lg-d|lg-g|lge-|lg/u|maui|maxo|midp|mits|mmef|mobi|mot-|moto|mwbp|nec-|newt|noki|palm|pana|pant|phil|play|port|prox|qwap|sage|sams|sany|sch-|sec-|send|seri|sgh-|shar|sie-|siem|smal|smar|sony|sph-|symb|t-mo|teli|tim-|tosh|tsm-|upg1|upsi|vk-v|voda|wap-|wapa|wapi|wapp|wapr|webc|winw|winw|xda\ |xda-).* [NC]
RewriteCond %{HTTP:Accept-Encoding} gzip
RewriteCond %{HTTPS} !on
RewriteCond %{DOCUMENT_ROOT}/wp-content/cache/supercache/%{SERVER_NAME}/$1/index.html.gz -f
RewriteRule ^(.*) "/wp-content/cache/supercache/%{SERVER_NAME}/$1/index.html.gz" [L]

RewriteCond %{REQUEST_URI} !^.*[^/]$
RewriteCond %{REQUEST_URI} !^.*//.*$
RewriteCond %{REQUEST_METHOD} !POST
RewriteCond %{QUERY_STRING} !.*=.*
RewriteCond %{HTTP:Cookie} !^.*(comment_author_|wordpress_logged_in|wp-postpass_).*$
RewriteCond %{HTTP:X-Wap-Profile} !^[a-z0-9\"]+ [NC]
RewriteCond %{HTTP:Profile} !^[a-z0-9\"]+ [NC]
RewriteCond %{HTTP_USER_AGENT} !^.*(2.0\ MMP|240x320|400X240|AvantGo|BlackBerry|Blazer|Cellphone|Danger|DoCoMo|Elaine/3.0|EudoraWeb|Googlebot-Mobile|hiptop|IEMobile|KYOCERA/WX310K|LG/U990|MIDP-2.|MMEF20|MOT-V|NetFront|Newt|Nintendo\ Wii|Nitro|Nokia|Opera\ Mini|Palm|PlayStation\ Portable|portalmmm|Proxinet|ProxiNet|SHARP-TQ-GX10|SHG-i900|Small|SonyEricsson|Symbian\ OS|SymbianOS|TS21i-10|UP.Browser|UP.Link|webOS|Windows\ CE|WinWAP|YahooSeeker/M1A1-R2D2|iPhone|iPod|Android|BlackBerry9530|LG-TU915\ Obigo|LGE\ VX|webOS|Nokia5800).* [NC]
RewriteCond %{HTTP_user_agent} !^(w3c\ |w3c-|acs-|alav|alca|amoi|audi|avan|benq|bird|blac|blaz|brew|cell|cldc|cmd-|dang|doco|eric|hipt|htc_|inno|ipaq|ipod|jigs|kddi|keji|leno|lg-c|lg-d|lg-g|lge-|lg/u|maui|maxo|midp|mits|mmef|mobi|mot-|moto|mwbp|nec-|newt|noki|palm|pana|pant|phil|play|port|prox|qwap|sage|sams|sany|sch-|sec-|send|seri|sgh-|shar|sie-|siem|smal|smar|sony|sph-|symb|t-mo|teli|tim-|tosh|tsm-|upg1|upsi|vk-v|voda|wap-|wapa|wapi|wapp|wapr|webc|winw|winw|xda\ |xda-).* [NC]
RewriteCond %{HTTPS} on
RewriteCond %{DOCUMENT_ROOT}/wp-content/cache/supercache/%{SERVER_NAME}/$1/index-https.html -f
RewriteRule ^(.*) "/wp-content/cache/supercache/%{SERVER_NAME}/$1/index-https.html" [L]

RewriteCond %{REQUEST_URI} !^.*[^/]$
RewriteCond %{REQUEST_URI} !^.*//.*$
RewriteCond %{REQUEST_METHOD} !POST
RewriteCond %{QUERY_STRING} !.*=.*
RewriteCond %{HTTP:Cookie} !^.*(comment_author_|wordpress_logged_in|wp-postpass_).*$
RewriteCond %{HTTP:X-Wap-Profile} !^[a-z0-9\"]+ [NC]
RewriteCond %{HTTP:Profile} !^[a-z0-9\"]+ [NC]
RewriteCond %{HTTP_USER_AGENT} !^.*(2.0\ MMP|240x320|400X240|AvantGo|BlackBerry|Blazer|Cellphone|Danger|DoCoMo|Elaine/3.0|EudoraWeb|Googlebot-Mobile|hiptop|IEMobile|KYOCERA/WX310K|LG/U990|MIDP-2.|MMEF20|MOT-V|NetFront|Newt|Nintendo\ Wii|Nitro|Nokia|Opera\ Mini|Palm|PlayStation\ Portable|portalmmm|Proxinet|ProxiNet|SHARP-TQ-GX10|SHG-i900|Small|SonyEricsson|Symbian\ OS|SymbianOS|TS21i-10|UP.Browser|UP.Link|webOS|Windows\ CE|WinWAP|YahooSeeker/M1A1-R2D2|iPhone|iPod|Android|BlackBerry9530|LG-TU915\ Obigo|LGE\ VX|webOS|Nokia5800).* [NC]
RewriteCond %{HTTP_user_agent} !^(w3c\ |w3c-|acs-|alav|alca|amoi|audi|avan|benq|bird|blac|blaz|brew|cell|cldc|cmd-|dang|doco|eric|hipt|htc_|inno|ipaq|ipod|jigs|kddi|keji|leno|lg-c|lg-d|lg-g|lge-|lg/u|maui|maxo|midp|mits|mmef|mobi|mot-|moto|mwbp|nec-|newt|noki|palm|pana|pant|phil|play|port|prox|qwap|sage|sams|sany|sch-|sec-|send|seri|sgh-|shar|sie-|siem|smal|smar|sony|sph-|symb|t-mo|teli|tim-|tosh|tsm-|upg1|upsi|vk-v|voda|wap-|wapa|wapi|wapp|wapr|webc|winw|winw|xda\ |xda-).* [NC]
RewriteCond %{HTTPS} !on
RewriteCond %{DOCUMENT_ROOT}/wp-content/cache/supercache/%{SERVER_NAME}/$1/index.html -f
RewriteRule ^(.*) "/wp-content/cache/supercache/%{SERVER_NAME}/$1/index.html" [L]
</IfModule>

# END WPSuperCache




# BEGIN WordPress
#RewriteBase /
RewriteRule ^index\.php$ - [L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]
#OTRO BORRAR
# END WordPress

antes si me mostraba bien google webmaster tool mi robots.txt virtual
pero ahora hice estos cambios en el mismo día y no se cual sea el problema

hice una prueba en google webmaster tool la cual era Explorar como Google y me

Así es cómo el robot de Google ha recuperado la página.
URL: Enlace eliminado
Fecha: viernes, 22 de marzo de 2013 07:21:30 GMT-07:00
Tipo de robot de Google: Web
Tiempo de descarga (en milisegundos): 782
Es posible que el contenido de la página que se muestra esté truncado. Para obtener más información sobre los límites de obtención de datos, consulta el artículo del Centro de asistencia sobre la herramienta Explorar como Google.

seguido de los primeros 100kb de código

y la verdad no se si eso que me sise de que el contenido de la página que se muestra esté truncado es algo malo y a que se deba esto.

bueno muchachos espero me puedan echar una mano que realmente estoy preocupado por este problema y ya no se como solucionarlo 🙂

saludos y gracias 🙂
 
no es automatico... si cambiaste el robot hoy, tarda en actualizarte en el WMT.
 
no es automatico... si cambiaste el robot hoy, tarda en actualizarte en el WMT.

gracias pro tu respuestas pero no me entendiste antes no tenia robot.txt físico en la raíz de mi dominio y aun así google me mostraba un robots.txt y en mi dominio también mira Enlace eliminado

averigue sobre eso y resulta que wordpress te crea un robots.txt virtual pero quise bloquear un directorio a google así que dije pues me creo un robots.txt físico y le agrego lo mismo lo mismo que me mostraba el virtual mas una linea mas que me bloquee el directorio que quería bloquear así que eso hice y me quedo un robots.txt asi

HTML:
User-agent: *
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /stream/

y ya en la tarde del mismo día cuando google me fue a indexar se encontró con el cambio pero no lo reconoció el robots.txt como lo había dejado si no que me mostraba en el panel de webmaster este robots.txt

HTML:
User-agent: *
Disallow: /

y pues esa era mi pregunta que por que motivo google no reconoce un robots.txt físico en mi dominio pero si uno virtual que yo no puedo controlar ?
ya que del susto elimine el robots.txt físico que había creado le pedí a google que me indexara y volvió todo a la normalidad pero sin bloquear el directorio que quería bloquear y pues no me agrada mucho la idea de hacerlo desde el panel de webmaster si no desde el robots.txt

espero me aya explicado con claridad y gracias por responder saludos 🙂
 
Agrega:

En el robots.txt

Y limpia la cache de CloudFlare.

---------- Post agregado el 22-mar-2013 hora: 13:21 ----------

WordPress genera un robots.txt virtual en caso de no existir.

---------- Post agregado el 22-mar-2013 hora: 13:23 ----------

En tus headers aparece:
Server:cloudflare-nginx
CF-Cache-Status:HIT

Lo que significa que cada que cambies el robots.txt, tienes que limpiar la cache en CloudFlare.
 
Agrega:


En el robots.txt

Y limpia la cache de CloudFlare.

---------- Post agregado el 22-mar-2013 hora: 13:21 ----------

WordPress genera un robots.txt virtual en caso de no existir.

---------- Post agregado el 22-mar-2013 hora: 13:23 ----------

En tus headers aparece:


Lo que significa que cada que cambies el robots.txt, tienes que limpiar la cache en CloudFlare.

muchas gracias brother lo estibe mirando y si parece que ese era el problema estoy a la espera de que google vuelva para confirmar
y una ultima pregunta brother

es bueno tener un robotstxt así de sencillo como este
HTML:
User-agent: *
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /stream/

o es mas efectivo para normas seo uno por ejemplo como estos :

http://forobeta.com/wordpress/157041-robots-txt-wordpress.html
http://forobeta.com/wordpress/106643-fichero-robots-txt-wordpress.html

que pena desviar un poco el tema pero te agradecería si me das tu opinión saludos y gracias 🙂

confirmo la solución cundo google vuelva a indexarme 🙂
 
muchas gracias brother lo estibe mirando y si parece que ese era el problema estoy a la espera de que google vuelva para confirmar
y una ultima pregunta brother

es bueno tener un robotstxt así de sencillo como este
HTML:
User-agent: *
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /stream/

o es mas efectivo para normas seo uno por ejemplo como estos :

http://forobeta.com/wordpress/157041-robots-txt-wordpress.html
http://forobeta.com/wordpress/106643-fichero-robots-txt-wordpress.html

que pena desviar un poco el tema pero te agradecería si me das tu opinión saludos y gracias 🙂

confirmo la solución cundo google vuelva a indexarme 🙂

Todo depende de lo que necesites.

El mio es el siguiente:
User-agent: *
Allow: /
Allow: /wp-login.php?redirect_to=
Disallow: /acerca-de/
Disallow: /wp-admin/
Disallow: /?s=no-results
Disallow: /*/?replytocom=
Disallow: /wp-content/themes/.../functions/.../....html

User-agent: Yandex
Disallow: /

User-agent: sistrix
Disallow: /

User-agent: MJ12bot
Disallow:

User-agent: Googlebot
Allow: /
Disallow: /wp-content/
Disallow: /wp-content/*
Allow: /wp-content/themes/..../estilos.css
Allow: /wp-content/themes/..../images/
Allow: /wp-content/themes/..../images/*
Disallow: /categoria/sin-categoria/
Disallow: /?taxonomy
Disallow: /?taxonomy*
Disallow: /?term=
Disallow: /?term=*
Disallow: /?iframe=
Disallow: /?iframe=*

User-agent: Googlebot-Image
Disallow: /
Disallow: /*

User-agent: Adsbot-Google
Allow: /?s=
Allow: /
Allow: /*

User-agent: HTTrack
Disallow: /
Sitemap: http://www.example.com/sitemap.xml.gz

En donde use [....] es para proteger datos privados. xD
 
Última edición:
Atrás
Arriba