Riesgo de penalización al subir scraping masivo de URLs

  • Autor Autor Usuario eliminado 27864
  • Fecha de inicio Fecha de inicio
U

Usuario eliminado 27864

Hola forobetas, verán llevo unas semanas creando un scraping masivo y ya lo tengo listo pero ando dudando mucho de si google me penalizara o no.

He escogido 10 webs de películas y series como lo es plusdede y gnula y lo que hará mi script cuando lo inicie es rastrear absolutamente TODA la web y sacar toda la informacion tanto la ficha como todos los enlaces y los guardará en una base de datos.

Lo que sucede es que estimo un total de 2 millones de páginas tanto de las películas como de las series y sus correspondientes episodios.

¿Creen que si de golpe subo mi web con esa cantidad de paginas Google me penalizara?

Muchas gracias necesito saberlo antes de iniciarlo.
 
Pues claro que te va a penalizar...

Enviado desde mi IPhone 8 mediante Tapatalk
 
No dejare de penalizarte que es diferente.
 
Te recomiendo ejecutar el script, guardar las películas/series en la base de datos pero no publicarlas todas de golpe. Puedes, por ejemplo, dejarlas en estado borrador, y luego ejecutar otro script que vaya publicando 10 o 20 por día, así parecerá más natural. @sim
 
¿Algo mas de informacion por favor? he visto gente que de golpe sube un proyecto con +50 mil paginas, por que 50 mil y no 2 millones?




No he entendido nada de lo que has dicho.

Lo que dije que si que te penalizaran, pero si dice que otros suben cincuenta mil link de golpe y no lo penalizan entonces intentantalo, según lo que he visto, he visto personas baneada hasta subiendo cien, pero dale subelo, nada un placer, seguimos hablando luego.

- - - Actualizado - - -

Claro baneado en google, en las posiciones, que de eso es que estamos hablando, tenlo por seguro que haciendo eso caerá en el abismo del infierno en tu posicionamiento pero vuelvo y te digo, intententalo, es tu creencia q funcionara, ademas no tiene nada que perder.
 

Entonces sería imposible llegar a mi meta, una serie como juego de tronos tiene la pagina principal (1) y tiene 67 episodios + la pagina de los actores, directores y escritores que suman otras 20 páginas más, ves a lo que voy?
 
Hola sim,

No, para nada, No penaliza que subas de forma masiva contenido a tu propio sitio web...
Y lo digo por experiencia, trabajé en un proyecto donde subimos 60 millones de post en 1 día...
Contenido 100% original y no tuvimos problemas de ningún tipo!

Lo que sí penaliza, que generes de forma masiva backlinks a tu sitio web (que no es tu caso)...
O que tengas contenido duplicado en tu sitio web ¿Dices que el Script toma el texto de otros sitios? ¡Cuidado con eso!

Antes de compromete el dominio principal, yo haría pruebas en un subdominio, por ejemplo:
https://prueba.tusitio.com/

Suerte con tu proyecto amigo!

Saludos,
Hugo
 
Última edición:
te va penalizar pero va tardar unos meses no sera de golpe 😛8:
 
Si el contenido es original no le veo ningún problema a la cantidad que suba. Ahora bien, si me parecía imposible 2.000.000 de páginas en un día de contenido original, no me puedo imaginar cómo alguien puede subir 60.000.000 de páginas de contenido que se pueda considerar 100% original (Y supongo que de una calidad mínima), en un día, o dos, o en un mes.



Enviado mediante Tapatalk
 

Muchas gracias compañero, el script que he diseñado no crea 2 copias de la misma ficha y si la encuentra no la agrega por lo que contenido duplicado no es problema, la verdad es que ando algo estresado ya que despues de un arduo trabajo creándolo ni se me paso por la cabeza de que google me podia joder vivo.

Are exactamente eso, crearlo en un subdominio y crear otro script como dijo [MENTION=174361]Federico Caruso[/MENTION] y automatizarlo para que valla publicando unas 20 mil paginas diariamente y veremos que sucede.

Gracias a todos.

- - - Actualizado - - -


Haber no es subir 2 millones en 1 dia, es abrir un proyecto con unas 2 millones de paginas y mandar el sitimaps y eso...
 

Claro amigo! Tengo mucha experiencia con esto, lo mejor es probar en un subdominio primero, y hasta, subirlo de a poco como dice [MENTION=174361]Federico Caruso[/MENTION]... Pero si nosotros pudimos hacerlo con 60 millones de post, imagino que no habrá problemas con 2 millones, el tema, es estar al día con las reglas de Google... porque esa subida masiva que puse de ejemplo, fue hace más de 2 años (No creo que haya cambiado mucho hoy)
 

De acuerdo compañero, ya os contare como ha ido de aquí a unos meses.
 
Nose yo tengo una web de casi 3000 post, cree otro dominio de la misma tematica y pase todos los post al dominio, al final me llego un mensaje de que era copia de otra web

Enviado desde mi SM-J701M mediante Tapatalk
 
medio vi los otros cometarios pero realmente google no te penalizara as la prueba coje un domain cualquier y sube todoo de golpe y veras google penaliza si por contenido duplicado pero revisa en google cuantas webs de peliculas y series tienen la misma sinopsis ? pues casi ninguno la capia porque la genera de imdb 🙂
 
Si penaliza, no de golpe si haces unos truquitos, lo que sí penaliza es el contenido duplicado.
 
Última edición:
Mi recomendación es que te pongas a trabajar en contenido 100% tuyo y no de los demás.
Fácil aquí ya vieron tu post los dueños de las paginas que dijiste, pueden bloquear los reproductores y te dejan sin ellos.

Me ha tocado lidiar con gente como tu que se dedica a robar el contenido. PERO bueno, lo único que se es que no te penalizan al instante, si no después. Saludos.
 
Nose yo tengo una web de casi 3000 post, cree otro dominio de la misma tematica y pase todos los post al dominio, al final me llego un mensaje de que era copia de otra web

Enviado desde mi SM-J701M mediante Tapatalk

Es por que tienes el mismo contenido y posiblemente la misma estructura de web.


Así es, en relación a las sinopsis es prácticamente igual en todas, aunque lo mio es muy diferente ya he cogido una web de habla inglesa que tiene una estructura de links y un catalogo muy extenso bastante cómodo y lo que hago es automáticamente coge la ficha saca el articulo y mediante la api de DeepL Translator lo traduce a español y obtengo prácticamente un 100% de originalidad o eso me pone aqui Plagiarism Checker - A Free Online Plagiarism Detector 😀

Si penaliza, no de golpe si haces unos truquitos, lo que sí penaliza es el contenido duplicado.

Desde que abrí este post me he encontrado con muchísimos proyectos que suben de golpe más de 1 millón de páginas y sin problemas incluso un miembro de este foro me dijo que unió mas de 50 paginas en 1 y salio con mas de 4 millones de urls y a dia de hoy esta perfectamente posicionada, por lo que de penalizar porque tengas muchas urls no creo que sea cierto.


1.- En temas de Warez (Peliculas y series) NADIE tiene contenido original, y los enlaces los roban unos a los otros.
2.- Ami nadie me bloquea y aunque lo quieran no podrán, ¿bloquear reproductor de qué? ¿Powvideo? ¿StreamCloud? lo único que pueden hacer es "encriptar" la url y aun asi no les serviria de una mierda incluso uno de los que rastreo gnula.se tiene autentificacion por reCaptcha en cada enlace y da absolutamente igual.
3.- Para llorar aquí, NO.

Gracias a todos los que me ayudaron, el scrapeo del contenido va por el 30% más o menos y ya ha obtenido alrededor de 250k de urls en total por lo que estimo que serán muchas menos, ya os dire como fue 😀
 

Como te digo si haces unos truquitos, al ser seo blackhat está sobrevalorada la web, si no lo vale tarde o temprano el algoritmo de google lo pone en su lugar. Google son los propios usuarios 😉.