como scrapear el titulo de un post?

  • Autor Autor adpays
  • Fecha de inicio Fecha de inicio

adpays

Dseda
Verificado
Verificación en dos pasos activada
Verificado por Whatsapp
Verificado por Binance
Hola, quiero scrapear el titulo de varias URLS y poner los titulos en una lista, como hago eso?
 
Con js podes hacer un fetch a cada url y sacar el titulo
 
Lo puedes realizar con el lenguaje que dominas.
Si la web no tiene ninguna seguridad, lo puedes realizar con php.
Al realizar un scrapping, pon un temporizador, para que no te detecte como bot.
 
Ya va, pero ¿Has hecho alguna vez web scrapping o primera vez? Si es primera vez, ponte a ver tutoriales. En YT hay bastantes. Lo que puedo decirte es que hasta con Excel puedes hacer esa tarea, solo ten presente que no siempre los títulos de los posts son h1. En Blogger por ejemplo son h2, y no se si es el único caso.
En cuanto a librerias, en Python puedes usar bs4, en R está rvest, en js está cheerio y así por el estilo.
 
Js con Node lo haces en unos minutos.
 
con papel y lápiz, en su defecto un bolígrafo (invento argentino)

 
Con Bun.js o Node.js (dependiendo la version de este), puedes hacer algo tan simple como esto, para scrapear los titulos de un sitio.

JavaScript:
const req = await fetch("https://www.youtube.com/watch?v=M0qMgoChzGI");
const html = await req.text();
const title = html.match(/title/gm);
console.log(title);
 
Puedes hacerlo con un bot de telegram creado en python, hay muchos tutoriales en internet . Si no entiendes, puedes escribirme yo te ayudo.
 
En PHP es ultra fácil, copiar y pegar...

PHP:
<?php
    function page_title($url) {
        $fp = file_get_contents($url);
        if (!$fp)
            return null;

        $res = preg_match("/<title>(.*)<\/title>/siU", $fp, $title_matches);
        if (!$res)
            return null;

        $title = preg_replace('/\s+/', ' ', $title_matches[1]);
        $title = trim($title);
        return $title;
    }

    echo page_title("https://www.forobeta.com/");
?>