Tutorial: Autopost + Generar Contenido

  • Autor Autor Cicklow
  • Fecha de inicio Fecha de inicio
Siempre trayendo muy buena info, tenia años sin notar a este antiguo mod que ahora, es Admin haha. No soy fanático de la redacción automatizada por los destrozos que hace semánticamente, pero me gusta mucho los aportes que haces.
Saludos.
 
Siempre trayendo muy buena info, tenia años sin notar a este antiguo mod que ahora, es Admin haha. No soy fanático de la redacción automatizada por los destrozos que hace semánticamente, pero me gusta mucho los aportes que haces.
Saludos.
jeje. en realidad no hace "semanticamente" nada... solo extrae post de dominios caducados y los pone en tu blog.
 
Vamos a hacerle unas modificaciones al script (las cuales no colocare en el zip, tendran que editarlas ustedes).
Esta modificacion nos servira para sitios que tienen muchas url en webarchive, pero sin contenido. Evitamos estar esperando que busque (por ejemplo) en mas de 1000 url contenido y no encuentra nada.
Abrimos scrapearticle.py y editamos la funcion
Python:
def create_article_file(self)
y la cambiamos a
Python:
def create_article_file(self) -> bool:
le indicamos a la funcion que de ahora en mas tiene que regresar un valor booleano (1 o 0, true o false)
le indicamos al if de si no hay articulo que regrese 1
Python:
        if article is None:
            return 1
y al final de la funcion, regresamos 0
Python:
return 0
Quedando:
1663109440780.webp

Ahora editamos main.py y buscamos:
Python:
for domain in domains:
y abajo de eso colocamos una variable en 0, la cual nos servirá de contador de contenidos no descargables. (osea que no encontro post/contenido, dentro de la url)
Python:
for domain in domains:
                           xxx = 0
ahora buscamos:
Python:
            article = scrapearticle.ScrapeArticle(url, domain)
            article.create_article_file()
y lo cambiamos por
Python:
                article = scrapearticle.ScrapeArticle(url, domain)
                aacc = article.create_article_file()
                if(aacc == 1):
                    xxx = xxx + 1
                else:
                    xxx = 0

                if(xxx >= 10):
                    xxx = 0
                    print("--- Salimos por cantidad\n")
                    break
Lo que hacemos aca es ver si la url escaneada tiene un articulo descargable, si no tiene, sumamos 1 a nuestro contador, si tiene, lo volvemos a 0. Si el contador llega a 10, nos vamos a otro sitio web del listado.
Eso se puede editar, esta asi armado a proposito para que ustedes sean quienes lo mejoren (simplificando variables, acomodando mejor el codigo, etc).
1663110266247.webp


La idea de todo esto no es que venga todo de arriba, sino que les sirva para aprender tambien.
asi se veria nuestro script funcionando:
1663110219742.webp

el cual logro descargar algunos post, pero luego de 10 url escaneadas sin poder descargar nada, salio a otro dominio
 
Gran aporte, madre mía la verdad cada vez que entro a un post encuentro pura chicha , gracias de nuevo y un saludo
 

no entendi nada xD SOLO pude con la priemra esta no se como se hace tego winds 11 xD​

2- Descargar / instalar Scraper / editar Scraper​

Para esto utilizaremos el git de: https://github.com/eneiromatos/NebulaExpiredArticleHunter/ el cual nos permite descargar los post de los dominios caducados (usa el cache de web archive)
Una ves descargado en nuestro dispositivo, abrimos la consola, nos dirigimos a donde extrajimos el contenido del zip (ejemplo C:\Users\Cicklow\Desktop\NebulaExpiredArticleHunter\) y ponemos el comando:
 
PS C:\Users\XXX> https://github.com/eneiromatos/NebulaExpiredArticleHunter/
https://github.com/eneiromatos/NebulaExpiredArticleHunter/ : El término
'https://github.com/eneiromatos/NebulaExpiredArticleHunter/' no se reconoce como nombre de un cmdlet, función, archivo
de script o programa ejecutable. Compruebe si escribió correctamente el nombre o, si incluyó una ruta de acceso,
compruebe que dicha ruta es correcta e inténtelo de nuevo.
En línea: 1 Carácter: 1
+ CategoryInfo : ObjectNotFound: (https://github....dArticleHunter/:String) [], CommandNotFoundException
+ FullyQualifiedErrorId : CommandNotFoundException
 
PS C:\Users\XXX> https://github.com/eneiromatos/NebulaExpiredArticleHunter/
https://github.com/eneiromatos/NebulaExpiredArticleHunter/ : El término
'https://github.com/eneiromatos/NebulaExpiredArticleHunter/' no se reconoce como nombre de un cmdlet, función, archivo
de script o programa ejecutable. Compruebe si escribió correctamente el nombre o, si incluyó una ruta de acceso,
compruebe que dicha ruta es correcta e inténtelo de nuevo.
En línea: 1 Carácter: 1
+ CategoryInfo : ObjectNotFound: (https://github....dArticleHunter/:String) [], CommandNotFoundException
+ FullyQualifiedErrorId : CommandNotFoundException
tenes que descargar el zip del git: https://github.com/eneiromatos/NebulaExpiredArticleHunter/archive/refs/heads/master.zip
-.-'
 
No quieran todo en bandeja de plata, deben de leer detenidamente el tutorial... y hacerlo por ustedes mismos...
si no cuando van a aprender, aunque sea deben de esforzarse.
 
Sigue funcionando esto?
 
Buen tutorial. Gracias.
 
Atrás
Arriba