B
Beto87
Beta
Programador
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Pues como dice el titulo hoy les enseñare a usar un poco esta gran librería llamada Jsoup Para lo cual desarrollaremos una pequeña aplicación en java la cual nos permitirá poder obtener los títulos de los post que se encuentran en la home de Taringa.
Que es jsoup:
para quienes no lo saben daré una pequeña explicación sobre que es la librería jsoup.
Es un parser HTML. Que permite la extracción de información desde sitios web y se caracteriza por soportar DOM, CSS y métodos estilo JQuery para la selección de los datos a extraer.
Cosas a utilizar:
Paso 1: Iniciamos Netbeans y creamos un nuevo proyecto (en mi caso lo llame "Ejemplo Jsoup")
Paso 2: Agregamos la la librería Jsoup (previamente descargada) a nuestro proyecto
Paso 3: vamos a importar las clases que utilizaremos, esto con el fin de tener una buena practica de programación, ademas de ser necesario para utilizar las funciones de dicha librería. estas son la que agregaremos:
Quedando de esta manera.
Paso 4: Ahora iniciamos con un try catch esto con el fin de cachar los errores en caso de que se generen al compilar el proyecto
Paso 5: Ahora si manos a la obra, vamos a comenzar por crear una instancia de Document para poder hacer la llamada al método de conexión y así poder jalar todo el home de taringa(quedando así).
Explicacion corta
Paso 6: Ahora vamos a usar el metodo select Elements para poder limpiar el home y poder mostrar solamente los nombres y urls del mismo.
Explicacion corta
El código nos debe quedar así
Paso 7: Ahora con un bucle for vamos a obtener los nombres y urls de los mensajes que se encuentran en la home de Taringa.
Explicaicon corta
Paso 8: Probamos el código y si todo salio perfecto deberíamos obtener una respuesta similar a esta.
Click aqui para descargar el codigo fuente del proyecto
Pues eso es todo y espero que sea de utilidad para algunos de ustedes.
Saludos y suerte
Que es jsoup:
para quienes no lo saben daré una pequeña explicación sobre que es la librería jsoup.
Es un parser HTML. Que permite la extracción de información desde sitios web y se caracteriza por soportar DOM, CSS y métodos estilo JQuery para la selección de los datos a extraer.
Cosas a utilizar:
- Netbeans IDE
- Java (No hace falta mencionarlo)
- Librería Jsoup Versión 1.8.2
- Conexión a Internet (esta de mas decirlo)
Paso 1: Iniciamos Netbeans y creamos un nuevo proyecto (en mi caso lo llame "Ejemplo Jsoup")

Paso 2: Agregamos la la librería Jsoup (previamente descargada) a nuestro proyecto


Paso 3: vamos a importar las clases que utilizaremos, esto con el fin de tener una buena practica de programación, ademas de ser necesario para utilizar las funciones de dicha librería. estas son la que agregaremos:
- import org.jsoup.Jsoup;
- import org.jsoup.nodes.Document;
- import org.jsoup.nodes.Element;
- import org.jsoup.select.Elements;
Quedando de esta manera.

Paso 4: Ahora iniciamos con un try catch esto con el fin de cachar los errores en caso de que se generen al compilar el proyecto

Paso 5: Ahora si manos a la obra, vamos a comenzar por crear una instancia de Document para poder hacer la llamada al método de conexión y así poder jalar todo el home de taringa(quedando así).
Explicacion corta
- .timeout(10000) = tiempo de espera en mili segundos en caso de que el sitio tarde en responder.
- .get() = realizar la conexión para poder obtener el home.

Paso 6: Ahora vamos a usar el metodo select Elements para poder limpiar el home y poder mostrar solamente los nombres y urls del mismo.
Explicacion corta
- Elements = nos permite convertir en elementos la respuesta recibida y así manipularla mejor
- Select = nos permite realizar una búsqueda en modo de Query dentro del elemento que previamente convertimos (utilizando las etiquetas en las que se encuentra lo que buscamos).

El código nos debe quedar así

Paso 7: Ahora con un bucle for vamos a obtener los nombres y urls de los mensajes que se encuentran en la home de Taringa.
Explicaicon corta
- for = con este bucle vamos a recorrer todos los elementos que se encuentran dentro de la respuesta que obtuvimos, pero debemos especificar que es lo que queremos obtener.
- nombre.text = Aqui indicamos que solo queremos sacar el texto que se encuentra dentro del link
- nombre.attr("href") = Aqui indicamos que queremos el url

Paso 8: Probamos el código y si todo salio perfecto deberíamos obtener una respuesta similar a esta.

Click aqui para descargar el codigo fuente del proyecto
Pues eso es todo y espero que sea de utilidad para algunos de ustedes.
Saludos y suerte
Última edición: