Ayuda con extracion de url desde un archivo

Franyer Rivas Seguir
Seguidores
16

1
Pi
Verificado
Verificación en dos pasos activada
Verificado por Whatsapp
¡Ha verificado su Paypal!
Verificado por Binance
Suscripción a IA
Desde
11 Ago 2010
Mensajes
5.614
saludos,
ando buscando algún programa o script que me ayude a extraer las url de un archivo de texto o html
las mismas están en un documento el cual las clasifica de esta forma

URL,Title,Anchor Text,etc,etc,etc

ejemplo

http://google.com,buscador,google es dios,etc,etc,etc

deseo unicamente del documento extraer la url ( http://google.com )
manualmente seria una tortura xD
tengo entendido que es posible crear expresiones regulares en php para completar lo que necesito, y de hecho ando estudiando un poco ese capitulo pero no tengo mucho tiempo como para ponerme a estudiar y practica/error y me gustaría saber si hay un código que conozcan que me simplifique las horas de estudio
me es indiferente si el código me arroja el resultado en pantalla o exporta la información en un archivo de texto etc

Post date: si ya se , es Extracción no extracion , me comí una c :p
 
Última edición:

Lopezito

Zeta
Diseñador
Verificación en dos pasos activada
Verificado por Whatsapp
Desde
13 Dic 2011
Mensajes
1.515
Intenta algo así:

PHP:
<?php
$string = 'Tengo una url escrita aca http://url.com';
function buscar($text,$regex)
{
	preg_match_all($regex,$text,$resultado, PREG_PATTERN_ORDER);
	return ($resultado) ? 'Encontrado' : 'No encontrado';
}
echo buscar($string,'~([http]|[https][file]|[ftp]|[irc])://([www]|[])(.*).([com]|[net]|[info]|[org])~i');
?>
 

olal28

Gamma
Programador
Verificado por Whatsapp
Desde
8 Dic 2009
Mensajes
432
Deseas sacar una url específica o todas las URL sin anchor text, etc.?

Si deseas sacar todas las URL sin la información adicional

PHP:
<?php
$f=file("documento.txt");
foreach($f as $linea){
   $arr=explode(",",$linea);  //separa la linea por comas y las guarda en un arreglo.
   echo $arr[0];                  //el índice cero sería la URL
}

?>
 
Última edición:

Franyer Rivas

1
Pi
Verificado
Verificación en dos pasos activada
Verificado por Whatsapp
¡Ha verificado su Paypal!
Verificado por Binance
Suscripción a IA
Desde
11 Ago 2010
Mensajes
5.614
navegando un poco encontré este enlace URL Extractor: Find, sort, and format URLs from arbitrary text
y me funciono pero igual voy a practicar con los códigos que me han suministrado para crear el mio propio y añadirle algunas funciones adicionales que pienso pueden ser útiles para otros
gracias por su aporte
 

Cicklow

Admin
Dseda
Verificado
Verificación en dos pasos activada
Verificado por Whatsapp
¡Ha verificado su Paypal!
Suscripción a IA
Desde
30 May 2011
Mensajes
1.101
navegando un poco encontré este enlace URL Extractor: Find, sort, and format URLs from arbitrary text
y me funciono pero igual voy a practicar con los códigos que me han suministrado para crear el mio propio y añadirle algunas funciones adicionales que pienso pueden ser útiles para otros
gracias por su aporte

PHP:
<?php
$A = file_get_contents('file.txt'); //leemos el file
$B = preg_split("|[\r\n]+|i", $A, -1, PREG_SPLIT_NO_EMPTY); //creamos un array de los saltos del lineas

foreach(B as $C){ //recorremos el array
 $D = explode(',',$C); //obtenemos el 1 valor del campo separando por , (comas)
 echo $C[0]; //mostramos por pantalla la url.
}
?>

Para que funcione necesitas que esten uno abajo del otro ejemplo
url,texto,etc,etc
url,texto,etc,etc
url,texto,etc,etc
url,texto,etc,etc
url,texto,etc,etc
.....

saludos!
 

Franyer Rivas

1
Pi
Verificado
Verificación en dos pasos activada
Verificado por Whatsapp
¡Ha verificado su Paypal!
Verificado por Binance
Suscripción a IA
Desde
11 Ago 2010
Mensajes
5.614
PHP:
<?php
$A = file_get_contents('file.txt'); //leemos el file
$B = preg_split("|[\r\n]+|i", $A, -1, PREG_SPLIT_NO_EMPTY); //creamos un array de los saltos del lineas

foreach(B as $C){ //recorremos el array
 $D = explode(',',$C); //obtenemos el 1 valor del campo separando por , (comas)
 echo $C[0]; //mostramos por pantalla la url.
}
?>

Para que funcione necesitas que esten uno abajo del otro ejemplo
url,texto,etc,etc
url,texto,etc,etc
url,texto,etc,etc
url,texto,etc,etc
url,texto,etc,etc
.....

saludos!
si exactamente así se encuentran los datos es un informe que genera site explorer sobre la URL de un dominio
es que tengo un dominio de hace años al que en sus tiempos hice mucho Black hat xD y deseo limpiarlo un poco de esos enlaces ya que con el pinguino ya esa termina no funciona
pero son muchas URL y como es la cuenta Free no te permite editar el modo de exportación de datos
gracias por el código
 

Voldemorth

No recomendado
¡Usuario con pocos negocios! ¡Utiliza siempre saldo de Forobeta!
Desde
10 Ene 2012
Mensajes
927
puede que sea insensatas lo que diga pero si al txt lo salvas como csv, y lo abrís en exel, no te tendría que crear una columna por cada campo? con eso podrías copiar las columnas que te interesan y borrar las otras
 
Arriba