Solución de errores 404 en WordPress

Kafre · 11 Nov 2012

Hola a todos.
Tenia una web estatica que la pase a wordpress. Para que coincidieran las direcciones modifique los enlaces permanentes de forma que las urls de los articulos del blog quedasen como estaban en la estatica. (Estructura personalizada : /%postname%.htm )

w ww.misitio.com/nombre-articulo.htm

El caso es que en la herramientas para webmaster de Google me muestra mas de 1200 errores de pagina no encontrada siempre con el directorio /page de por medio:

w ww.misitio.com/page/nombre-articulo.htm
w ww.misitio.com/category/nombrecategoria/page/nombre-articulo.htm

¿Cual puede ser el problema?¿Como lo podria solucionar para que no de estos errores de rastreo?

skamasle · 11 Nov 2012

Será que la estructura de las URLs debería ser:

/page/%postname%.htm

¿Como tenias las URLS antes? pasanos un ejemplo.

Kafre · 11 Nov 2012

skamasle dijo:
Será que la estructura de las URLs debería ser:

/page/%postname%.htm

¿Como tenias las URLS antes? pasanos un ejemplo.

El blog funciona perfectamente con la estructura www.misitio.com/%postname%.htm
El blog siempre ha funcionado perfectamente y los articulos se indexan bien bajo esas urls.

Es solo el webmaster tool de google el que se empeña en buscar y marcar como errores urls con el directorio /page/ de por medio que no existen (ni siquiera se trata de contenido duplicado).

He pensado en utilizar disallow: /page en el robots.txt, pero qntes me gustaria saber de donde puede venir el problema de que google intente indexar esas urls que no existen.

SoloNegocios · 11 Nov 2012

Kafre dijo:
El blog funciona perfectamente con la estructura www.misitio.com/%postname%.htm
El blog siempre ha funcionado perfectamente y los articulos se indexan bien bajo esas urls.

Es solo el webmaster tool de google el que se empeña en buscar y marcar como errores urls con el directorio /page/ de por medio que no existen (ni siquiera se trata de contenido duplicado).

He pensado en utilizar disallow: /page en el robots.txt, pero qntes me gustaria saber de donde puede venir el problema de que google intente indexar esas urls que no existen.

Es lo mejor que puedes hacer muchas veces Wordpress + un Plugin de Cache se vuelve loco por un instante y te salen esas URLs raras en el sitio pero al rato se corrigen, lastima que el robot de Google es tan rapido que se las coge todas xD

Me paso varias veces con W3 Total Cache no se porque pero dejaba de Cachear bien y me tocaba limpiar toda la Cache para que todo volviera a la normalidad y por eso decidí darle Disallow a muchas cosas que no servían:

Disallow: /?s=
Disallow: /search/
Disallow: /s/
Disallow: /?paged=
Disallow: /*/?paged=
Disallow: /*/*/?paged=
Disallow: /*/*/*/?paged=
Disallow: /comment-subscriptions
Disallow: /*?iframe=true
Disallow: /*/*?iframe=true
Disallow: /*/*/*?iframe=true
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
Disallow: /*/page/$
Disallow: /*/*/page/$
Disallow: /*/pages/$
Disallow: /*/*/pages/$

Aunque ya no he tenido problemas con W3 Total Cache parece que fue un error al pasar el VPS a Nginx

skamasle · 11 Nov 2012

Kafre dijo:
El blog funciona perfectamente con la estructura Enlace eliminado
El blog siempre ha funcionado perfectamente y los articulos se indexan bien bajo esas urls.

Es solo el webmaster tool de google el que se empeña en buscar y marcar como errores urls con el directorio /page/ de por medio que no existen (ni siquiera se trata de contenido duplicado).

He pensado en utilizar disallow: /page en el robots.txt, pero qntes me gustaria saber de donde puede venir el problema de que google intente indexar esas urls que no existen.

Lo que yo digo es que el not found, viene por que tus URLS anteiores tenian el /page/ en el enlace, así que en ese caso lo que tendrías que hacer es una redirección para que google no te penalice.

Pero bueno el disallow esta bien, a google le gustará, pero.. si tus urls tenian el page antes, tus visitas llegarán desde google a un 404 mientras google te des indexa todo.

frN13 · 11 Nov 2012

SoloNegocios dijo:
Es lo mejor que puedes hacer muchas veces Wordpress + un Plugin de Cache se vuelve loco por un instante y te salen esas URLs raras en el sitio pero al rato se corrigen, lastima que el robot de Google es tan rapido que se las coge todas xD

Me paso varias veces con W3 Total Cache no se porque pero dejaba de Cachear bien y me tocaba limpiar toda la Cache para que todo volviera a la normalidad y por eso decidí darle Disallow a muchas cosas que no servían:

Disallow: /?s=
Disallow: /search/
Disallow: /s/
Disallow: /?paged=
Disallow: /*/?paged=
Disallow: /*/*/?paged=
Disallow: /*/*/*/?paged=
Disallow: /comment-subscriptions
Disallow: /*?iframe=true
Disallow: /*/*?iframe=true
Disallow: /*/*/*?iframe=true
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
Disallow: /*/page/$
Disallow: /*/*/page/$
Disallow: /*/pages/$
Disallow: /*/*/pages/$

Aunque ya no he tenido problemas con W3 Total Cache parece que fue un error al pasar el VPS a Nginx

una pregunta... yo tengo muchos errores de duplicado asi:

/page34/?s=etc
/page46/?s=etc
/page57/?s=etc
y muchas mas...

lo correcto seria poner en el robots: Disallow /*/?s= no?

Kafre · 11 Nov 2012

skamasle dijo:
Lo que yo digo es que el not found, viene por que tus URLS anteiores tenian el /page/ en el enlace, así que en ese caso lo que tendrías que hacer es una redirección para que google no te penalice.

Pero bueno el disallow esta bien, a google le gustará, pero.. si tus urls tenian el page antes, tus visitas llegarán desde google a un 404 mientras google te des indexa todo.

Pero es que el blog nunca ha tenido la estructura de url con el /page/

Justo despues de instalar wordpress, lo primero que hice antes de nada fue personalizar los enlaces permanentes para que quedaran solo con el "nombrearticulo.html"

El usuario nunca se encuentra con un error 404 por que "/nombrearticulo.html" es la unica estructura que siempre ha existido en el blog y la que indexa google en su indice. Como digo, el blog funciona perfectamente de cara al usuario.

El problema es que ademas de indexar las url´s correctas, es como si google quisiera indexar tambien el blog por duplicado bajo la estructura "/page/nombrearticulo.htm" que en ningun momento ha existido (con los consiguientes 404).

Probare con usar disallow en el robots.txt

InformaticaPC · 11 Nov 2012

Es que esas URL's te las crea Wordpress automáticamente a no ser que las bloquees en robots.txt...

dominio.com/mi-post/feed
dominio.com/category/mi-post
dominio.com/categoria1/categoria2/mi-post
dominio.com/tag/mi-post
...

Kafre · 13 Nov 2012

Al final era un error tonto por mi culpa.
Al pasar los articulos de la web estatica a wordpress, lo hice copiando directamente el codigo html y se me colaron muchos enlaces con la url relativa. Y claro, cuando el articulo se ve desde la raiz los enlaces van perfectos. Pero cuando los enlaces aparecen en la paginacion de page, category o tag, pues dan error. Me va a tocar revisarlos uno a uno. :ambivalence:

De todas formas, ¿sois partidarios de colocar Disallow en robots.txt a los directorios de tag, categorias, archives o page o no hace falta?
Yo les tengo puesto no index en el All in One SEO, pero tambien he leido que teniendo activado lo de Canonical URLs pues no haria falta. ¿Vosotros como lo teneis puesto?

InformaticaPC · 13 Nov 2012

Ups me acabo de dar cuenta de que me expliqué mal antes: bloquear las URL's en robots es para impedir que se indexen (WP las creará igualmente)

Enviado desde mi MT11i usando Tapatalk 2

mikimoney · 16 May 2014

yo tambien tengo el mismo problema , google indexa paginas o post que ya no existen en mi blog por que? no lo entiendo esos post lo elimine hace mas de 1 año pero se siguen indexando porque? no lo entiendo .... que plugin me recomiendan usar? en wordpress?

Solución de errores 404 en WordPress

Kafre

skamasle

Kafre

SoloNegocios

skamasle

frN13

Kafre

InformaticaPC

Kafre

InformaticaPC

mikimoney

Temas similares