¿Es muy costoso hacer web scraping cada segundo o minuto?

bacanzito · 31 Oct 2024

Sí, hacer scraping cada segundo puede volverse costoso a largo plazo debido a varios factores:

Costo de infraestructura: Hacer una solicitud HTTP cada segundo, 24/7, suma más de 2.5 millones de solicitudes al mes, lo que requiere una infraestructura robusta. Usar servidores en la nube (como AWS, GCP o Azure) o proxies escalables puede ser costoso.
Gestión de IPs y proxies: Muchos sitios web bloquearán un volumen tan alto de solicitudes desde la misma IP. Usar proxies rotativos confiables que eviten bloqueos es caro, especialmente si necesitas velocidad y disponibilidad continua.
Desafíos anti-scraping: Los sitios suelen implementar CAPTCHAs, firewalls y otros sistemas para frenar el scraping frecuente. Servicios como ScrapingBee, Zyte, y otras soluciones que evitan estos bloqueos con IA y proxies dedicados aumentan el costo.
Mantenimiento de código y cambios en la web: Las páginas suelen cambiar de estructura, y mantener un scraper operativo requiere tiempo o pagar una solución que se adapte automáticamente.

y las herramientas impulsadas por IA para hacer scraping con poco o ningún esfuerzo es muy limitado en su plan gratis 🤣

Octoparse (con IA para reconocimiento automático):
- Octoparse es una plataforma visual que usa IA para entender y extraer datos automáticamente. Puedes simplemente señalar lo que necesitas, y Octoparse reconoce patrones automáticamente.
- La versión gratuita permite hacer scraping con limitaciones de capacidad, ideal para proyectos pequeños.
DataMiner:
- DataMiner es una extensión de navegador que facilita la extracción de datos sin necesidad de código. Usa IA para reconocer patrones en tablas, listas y secciones repetitivas.
- Su plan gratuito permite hacer un número limitado de scrapings al mes y es ideal para datos en tiempo real en páginas simples.
Browse AI:
- Browse AI permite “entrenar” un bot de scraping mostrándole ejemplos específicos de datos que quieres extraer. Usa IA para reconocer patrones en los datos y puede programarse para hacer scraping de manera recurrente.
- Ofrece un plan gratuito con límite de páginas y frecuencia de scraping.
Zyte (antes conocido como ScrapingHub):
- Zyte ofrece una plataforma de scraping impulsada por IA que te ayuda a navegar obstáculos como CAPTCHAs y bloqueos, lo cual puede ahorrarte mucho tiempo en scraping complejo.
- Su plan gratuito permite probar herramientas como el "Smart Proxy Manager" que rota IPs automáticamente.
Diffbot:
- Diffbot utiliza visión artificial para analizar y estructurar datos de páginas web automáticamente. Detecta si una página es un artículo, perfil, producto, etc., y extrae información detallada sin configuración previa.
- Tiene una API gratuita limitada, ideal para empezar o probar scraping automatizado.
PhantomBuster:
- PhantomBuster es una plataforma que ofrece "Phantoms," scripts prediseñados y automáticos para hacer scraping en diferentes plataformas y sitios (como LinkedIn, Twitter).
- Permite programar tareas recurrentes y manejar datos complejos con un plan gratuito que cubre scraping básico.

DrAwesome · El Domingo a la(s) 16:49

Justo he pasado la tarde scrapeando y he tenido que gastar creditos de APis de scraping para poder sortear las barreras de cloudfare que ya son muchas. Antes servían navegadores como Selenium, pero con el tema anti bots es una locura.

Yo animo a hacer vibecoding aunque no sepas mucho código antes que usar herramientas no-code. Es mucho más eficiente.

¿Es muy costoso hacer web scraping cada segundo o minuto?

bacanzito

DrAwesome