
Dinero Infinito
Gamma
Verificado por Whatsapp
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Tengo un proyecto web con cientos de miles de páginas. Tengo también Cloudflare entre medias para evitar bots de mierda y ataques.
La cosa es que ahora google ya no deja modificar la velocidad del crawler y te comes con patatas la que a él le salga de los huevos. En su documentación dice que si detecta error 500, 503 o 429 durante el crawleo lo toma como un indicador de que debe reducir la frecuencia de rastreo.
El problema: que con Cloudflare, cuando el origin host está saturado y no responde, Cloudflare tira error 502. Por lo que no satisface los requisitos de Google, que son error 500, 503 o 429. Tampoco puedo cambiar el código de respuesta. Esto hace que cada vez que google me rastrea las páginas enseguida me satura el servidor, lee error 502 y pasa de volver a intentar crawlear las restantes. Se me van acumulando
Se os ocurre alguna solución?
developers.google.com
La cosa es que ahora google ya no deja modificar la velocidad del crawler y te comes con patatas la que a él le salga de los huevos. En su documentación dice que si detecta error 500, 503 o 429 durante el crawleo lo toma como un indicador de que debe reducir la frecuencia de rastreo.
El problema: que con Cloudflare, cuando el origin host está saturado y no responde, Cloudflare tira error 502. Por lo que no satisface los requisitos de Google, que son error 500, 503 o 429. Tampoco puedo cambiar el código de respuesta. Esto hace que cada vez que google me rastrea las páginas enseguida me satura el servidor, lee error 502 y pasa de volver a intentar crawlear las restantes. Se me van acumulando
Se os ocurre alguna solución?


Reducir la frecuencia de rastreo de Google | Centro de la Búsqueda de Google | Documentation | Google for Developers
Si la frecuencia de rastreo de Google sobrecarga el servidor, consulta este documento para saber cómo reducirla y evitar que los robots rastreen tu sitio.
