Ayuda con extracion de url desde un archivo

  • Autor Autor Franyer Rivas
  • Fecha de inicio Fecha de inicio
Franyer Rivas

Franyer Rivas

1
Pi
Verificado
Verificación en dos pasos activada
Verificado por Whatsapp
¡Ha verificado su Paypal!
Verificado por Binance
Suscripción a IA
saludos,
ando buscando algún programa o script que me ayude a extraer las url de un archivo de texto o html
las mismas están en un documento el cual las clasifica de esta forma

URL,Title,Anchor Text,etc,etc,etc

ejemplo

http://google.com,buscador,google es dios,etc,etc,etc

deseo unicamente del documento extraer la url ( http://google.com )
manualmente seria una tortura xD
tengo entendido que es posible crear expresiones regulares en php para completar lo que necesito, y de hecho ando estudiando un poco ese capitulo pero no tengo mucho tiempo como para ponerme a estudiar y practica/error y me gustaría saber si hay un código que conozcan que me simplifique las horas de estudio
me es indiferente si el código me arroja el resultado en pantalla o exporta la información en un archivo de texto etc

Post date: si ya se , es Extracción no extracion , me comí una c 😛
 
Última edición:
Intenta algo así:

PHP:
<?php
$string = 'Tengo una url escrita aca http://url.com';
function buscar($text,$regex)
{
	preg_match_all($regex,$text,$resultado, PREG_PATTERN_ORDER);
	return ($resultado) ? 'Encontrado' : 'No encontrado';
}
echo buscar($string,'~([http]|[https][file]|[ftp]|[irc])://([www]|[])(.*).([com]|[net]|[info]|[org])~i');
?>
 
Deseas sacar una url específica o todas las URL sin anchor text, etc.?

Si deseas sacar todas las URL sin la información adicional

PHP:
<?php
$f=file("documento.txt");
foreach($f as $linea){
   $arr=explode(",",$linea);  //separa la linea por comas y las guarda en un arreglo.
   echo $arr[0];                  //el índice cero sería la URL
}

?>
 
Última edición:
navegando un poco encontré este enlace URL Extractor: Find, sort, and format URLs from arbitrary text
y me funciono pero igual voy a practicar con los códigos que me han suministrado para crear el mio propio y añadirle algunas funciones adicionales que pienso pueden ser útiles para otros
gracias por su aporte
 
navegando un poco encontré este enlace URL Extractor: Find, sort, and format URLs from arbitrary text
y me funciono pero igual voy a practicar con los códigos que me han suministrado para crear el mio propio y añadirle algunas funciones adicionales que pienso pueden ser útiles para otros
gracias por su aporte

PHP:
<?php
$A = file_get_contents('file.txt'); //leemos el file
$B = preg_split("|[\r\n]+|i", $A, -1, PREG_SPLIT_NO_EMPTY); //creamos un array de los saltos del lineas

foreach(B as $C){ //recorremos el array
 $D = explode(',',$C); //obtenemos el 1 valor del campo separando por , (comas)
 echo $C[0]; //mostramos por pantalla la url.
}
?>

Para que funcione necesitas que esten uno abajo del otro ejemplo
url,texto,etc,etc
url,texto,etc,etc
url,texto,etc,etc
url,texto,etc,etc
url,texto,etc,etc
.....

saludos!
 
PHP:
<?php
$A = file_get_contents('file.txt'); //leemos el file
$B = preg_split("|[\r\n]+|i", $A, -1, PREG_SPLIT_NO_EMPTY); //creamos un array de los saltos del lineas

foreach(B as $C){ //recorremos el array
 $D = explode(',',$C); //obtenemos el 1 valor del campo separando por , (comas)
 echo $C[0]; //mostramos por pantalla la url.
}
?>

Para que funcione necesitas que esten uno abajo del otro ejemplo
url,texto,etc,etc
url,texto,etc,etc
url,texto,etc,etc
url,texto,etc,etc
url,texto,etc,etc
.....

saludos!
si exactamente así se encuentran los datos es un informe que genera site explorer sobre la URL de un dominio
es que tengo un dominio de hace años al que en sus tiempos hice mucho Black hat xD y deseo limpiarlo un poco de esos enlaces ya que con el pinguino ya esa termina no funciona
pero son muchas URL y como es la cuenta Free no te permite editar el modo de exportación de datos
gracias por el código
 
puede que sea insensatas lo que diga pero si al txt lo salvas como csv, y lo abrís en exel, no te tendría que crear una columna por cada campo? con eso podrías copiar las columnas que te interesan y borrar las otras
 
Atrás
Arriba