Extraer todas las URLs de una web con cURL (PHP)

  • Autor Autor zcriptz
  • Fecha de inicio Fecha de inicio
zcriptz

zcriptz

1
Ómicron
Programador
Verificación en dos pasos activada
Verificado por Whatsapp
Suscripción a IA
Deberán hacerle un require a esta clase que hice: https://forobeta.com/php/715225-clase-curl-php.html

PHP:
<?php

require_once('cURL.php');

$cURL = new cURL('cookies.txt', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'); 
$urls = $cURL->getURLs('https://forobeta.com')->URLs[0];

print_r($urls);

?>

Este código saca todas las URLs que hay en el index de ForoBeta, simplemente cambiando la URL las tomará de otra.

(Si es una web más complicada quizás deban poner ciertas cabeceras)

Resultado:
 
Última edición:
Esta muy muy bien el código gracias por colaborar con los nuevos programadores y contribuir con la comunidad espero noo te haya tomado mucho tiempo hacerlo 🙂🙂
 
gracias buen aporte
 
Sigue funcionando, lo estoy usando para:
 
una pregunta los user agent se puede usar cualquiera ejemplo el de tu navegador yo lo puedo usar ejemplo las ip no se pueden falsificar que yo sepa
 
gracias por el aporte bro 😎
 
una pregunta los user agent se puede usar cualquiera ejemplo el de tu navegador yo lo puedo usar ejemplo las ip no se pueden falsificar que yo sepa
Puedes usar lo que quieras, incluso inventar. Pero eso le da información al sitio y podría responder distinto según el agente (si es un celular o un desktop por ejemplo).
También podrías usar el de googlebot u otro robot, pero hoy si usas eso y tu ip no está en la lista de ips de google por ejemplo, algunos sitios lo detectan y te bloquean
Lo más sano puede ser en efecto, usar el de algún navegador que tengas instalado
 
Puedes usar lo que quieras, incluso inventar. Pero eso le da información al sitio y podría responder distinto según el agente (si es un celular o un desktop por ejemplo).
También podrías usar el de googlebot u otro robot, pero hoy si usas eso y tu ip no está en la lista de ips de google por ejemplo, algunos sitios lo detectan y te bloquean
Lo más sano puede ser en efecto, usar el de algún navegador que tengas instalado
gracias por la informacion
 
Muy buena, gracias por el aporte !
 
Pregunta: Se puede reemplazar
PHP:
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
por esto
PHP:
$_SERVER['HTTP_USER_AGENT']
 
Pregunta: Se puede reemplazar
PHP:
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
por esto
PHP:
$_SERVER['HTTP_USER_AGENT']
no


$_SERVER['HTTP_USER_AGENT']

esto obtiene el user agent osea no creo que se pueda usar en este caso
 
Pregunta: Se puede reemplazar
PHP:
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
por esto
PHP:
$_SERVER['HTTP_USER_AGENT']

Si, se puede.

no


$_SERVER['HTTP_USER_AGENT']

esto obtiene el user agent osea no creo que se pueda usar en este caso

Estás equivocado, si se puede.
 
Atrás
Arriba