Hola (soy compañerA)
Ufff, me preguntas por mi pasión. Escribiría libros sobre esto. La extracción de datos es mi vida
😵😵😛
Para scrapear utilizo TODO
😀😀y si algo no existe, me lo invento y/o lo programo.
Personalmente, nunca se me ha resistido nada de lo que he querido extraer.
Si te gusta JS, y es lo que quieres y vas a aprender, podrás scrapear todo lo que quieras. Bueno, NodeJs
Yo empezaría por instalar Xampp, NodeJs y Puppetter en mi PC y ta vas practicando.
Ahora bien...
Si lo que buscas es conocimiento:
@moon-ra te ha contestado correctamente. Aunque hay cosas que es mejor hacerlas de otras maneras. Python está muy bien, pero yo solo lo uso en contadas ocasiones. Me muevo mejor en Js. Aunque cada proyecto es distinto. Y tú has dicho que vas a dedicar más a JS.
Y lo que sí o sí tienes que aprender y desenvolverte bien es con las DevTools de los navegadores. Eso que te sale cuando haces click derecho en una página y eliges "inspeccionar". Esto te va a ser imprescindible.
Si lo que buscas es extraer datos de verdad:
Lo más fácil: EXCEL, sí, Excel. Si la web se deja, claro. Abres el sitemap de la web, copias y pegas en una hoja de excel. Con una macro en VBA se recorren todas las urls, cargando el DOM y extrayendo los datos necesarios. Más fácil imposible.
UIVISION, y no te líes tanto. Según mi experiencia, el 50% de los trabajos lo puedes realizar con UIVision, que es una extensión de chrome. Su versión gratuita es más que suficiente para casi todo. Y tienes que escribir muy poco código, incluso nada de código. El compañero que ha iniciado este hilo pedía unos datos de más de 10.000 páginas que se extraerán en automático visitando las páginas una a una de forma desatendida, entregando la extracción en un sencillo archivo csv.
SCRAMINGFROG, lo uso para páginas gigantes, en un 20% de los trabajos. Hay que conocerlo bien para configurarlo en cada proyecto. Es de pago, y algunas conjuntas del foro lo tienen en su lista, por lo que es barato usarlo. La versión free es limitada, pero funcional para aprender. Extrae lo que sea de cualquier web, si los datos no están excesivamente protegidos.
OCTOPARSE o SCRAPINGSTORM en sus versiones de pago, los uso poco, un 5% de los trabajos, para trabajos más difíciles. Tienen buen apoyo para las que somos blackhateras
😎
Y para el resto, aquellos trabajos duros de verdad, hago programación propia, principalmente con Puppetter que me gusta mucho con NodeJs, y en ocasiones PhantomJs o CasperJs. También Phyton, e incluso PHP.
Todo depende del proyecto, de lo que quiero extraer, y de si ya hice trabajos parecidos y, por lo tanto, tengo rutinas elaboradas anteriormente, que pueda reutilizar con poco trabajo.
Por eso te dije que uso TODO. Siempre depende del proyecto a atacar y de los datos que queremos extraer.
Saludos!