Explorá

Paso a paso / 8 min de lectura

Cómo evitar que Google indexe URLs innecesarias de WordPress

search

La indexación de URLs innecesarias por parte de Google puede realmente bajar el puntaje SEO general de tu sitio. También es negativo para el negocio, ya que puede parecer poco profesional según el contenido de la página. Por lo tanto, necesitas encontrar una forma de evitar que Google indexe las URLs innecesarias de WordPress.

Todos los motores de búsqueda organizan los resultados a través de la “indexación”. Esto es beneficioso en la mayoría de los casos, ya que brinda exposición a tu sitio de WordPress. Pero en otros casos, pueden indexar URLs que querés ocultar de los resultados de búsqueda. Una de las razones más comunes para que esto suceda son las instalaciones de WordPress que no han sido personalizadas para SEO.

Las instalaciones predeterminadas de WordPress incluyen una cantidad significativa de plantillas vacías. A pesar de esto, son rastreables e indexables en los resultados de Google por defecto. Tener un montón de páginas vacías indexadas no es ideal para el negocio ni para las calificaciones generales de SEO.

En este artículo, vamos a explorar qué puede rastrear e indexar Google detrás de escena y aprenderemos cómo evitar que Google indexe páginas no deseadas utilizando Yoast SEO. Esta guía es válida tanto para instalaciones nuevas como para sitios web ya establecidos.

Cómo Google rastrea e indexa tus páginas de WordPress

“Rastrear” e “indexar” a menudo se usan de manera intercambiable. En realidad, son términos diferentes pero relacionados.

Rastrear significa seguir los enlaces dentro de una página, y luego seguir los enlaces en las páginas vinculadas hasta que no queden más enlaces por seguir. Un “spider” es un programa diseñado para hacer esto. El spider de Google se llama Googlebot.

Indexar, por otro lado, significa almacenar y organizar la información encontrada en páginas, ya sea que hayan sido rastreadas o no. Las páginas indexadas aparecen en los resultados de búsqueda de Google.

Podés prevenir que una página sea rastreada por varios medios, pero eso no detiene inmediatamente que Googlebot capture el enlace y lo agregue a los resultados de las páginas.

Cómo saber qué está indexando Google de tu sitio WordPress

No siempre es claro de inmediato qué páginas específicas de tu sitio WordPress está indexando Googlebot. Puede que necesites verificar manualmente cuáles páginas están siendo indexadas.

Una de las formas más simples de verificar todas las URLs que Googlebot está indexando de tu sitio es ir a Google.com y escribir esto en la barra de búsqueda:

site:tu-dominio

Ejemplo: site:wcanvas.com

La palabra clave site: restringe los resultados de búsqueda a las páginas de ese dominio. Es importante no dejar espacios en blanco entre el : y el .com.

sitemap

Si realizás esta prueba y los resultados contienen enlaces que no querés que Googlebot indexe, necesitás bloquear a Googlebot de indexar esas páginas para mejorar el SEO de todo tu sitio.

Otra opción es visitar el sitemap de tu sitio yendo a tu-dominio.com/sitemap.xml y comenzar a seguir manualmente los enlaces.

A veces vas a encontrar páginas de autores, etiquetas y otros contenidos que carecen de un diseño web adecuado. No querés que estas páginas aparezcan en los resultados de búsqueda.

Ahora vamos a profundizar en cómo evitar que aparezcan.

Cómo evitar que Google indexe tus páginas de WordPress usando Yoast SEO

Ahora que has identificado las páginas que no querés que Googlebot indexe, vamos a utilizar el plugin Yoast SEO para ocultar estas páginas de los motores de búsqueda. Seguí estos pasos:

Iniciá sesión en tu sitio de WordPress para acceder a tu panel de control.

Accedé a la barra lateral y navegá hasta la entrada o página que querés excluir de los resultados de Google.

article

Una vez en la entrada o página, expandí la sección ‘Avanzado’. Buscá la opción “¿Permitir a los motores de búsqueda mostrar este Post en los resultados de búsqueda?” y cambialo a “No.” Esto bloqueará a Googlebot y otros rastreadores web de indexar la página.

serach-engine-config

Publicá o actualizá la entrada para confirmar el cambio.

setting

Para verificar que estos cambios están en efecto, todo lo que necesitás hacer es revisar tu sitemap. La página no debería estar allí.

Tené en cuenta que las páginas pueden tardar en desindexarse, así que si todavía la ves en tu sitemap, no significa necesariamente que los cambios no funcionaron.
Por otro lado, si querés excluir varias páginas en bloque, podrías considerar usar un filtro. Explorá esta documentación de Yoast SEO para aprender más sobre el filtrado en masa.

¿Cómo deshabilitar el índice de Google en todo tu sitio?

Existen 2 métodos principales para deshabilitar el índice de Google en todo tu sitio de WordPress: usando la función incorporada en Configuración > Lectura y editando el archivo robots.txt manualmente. Vamos a explorar ambos.

Método #1: Configurar la Configuración de Lectura

La forma más sencilla de evitar que Google indexe tu sitio es ir a Configuración > Lectura. Una vez allí, marcá la casilla que dice Desalentar a los motores de búsqueda para que indexen este sitio.

La interfaz de Configuración > Lectura en WordPress. La flecha apunta a una configuración para evitar que tu sitio aparezca en los resultados de los motores de búsqueda

Después de marcar la casilla, recordá hacer clic en el botón Guardar cambios.

Método #2: Editar el Archivo robots.txt

robots.txt es un archivo de texto disponible en las carpetas de tu sitio web. Lo usás para emitir comandos que indican a los rastreadores de motores de búsqueda (como Googlebot) qué recursos de tu sitio pueden acceder.

El archivo robots.txt te permite especificar qué directorios, subdirectorios, URLs o archivos no querés que los motores de búsqueda rastreen. Además, podés usarlo para evitar que Google indexe todo tu sitio.

Existen múltiples maneras de editar robots.txt, pero creemos que la más sencilla es usando Yoast SEO. Ve a Yoast SEO > Herramientas y hacé clic en Editor de Archivos.

La sección de Herramientas en Yoast SEO. La flecha apunta a la función de Editor de Archivos

Una vez en la función de Editor de Archivos, deberías ver un cuadro de texto con el contenido del archivo robots.txt.

La función de Editor de Archivos en Yoast SEO, mostrando el contenido del archivo robots.txt

Si querés que todos los motores de búsqueda eviten indexar tu sitio, deberías incluir los siguientes comandos:

User-agent: *
Disallow: /

Este código indica a todos los rastreadores de motores de búsqueda (incluyendo el de Google) que eviten indexar tu sitio. Después de editar el archivo, debería verse algo así:

La función de Editor de Archivos en Yoast SEO, mostrando el contenido del archivo robots.txt

¿Qué pasa si no tenés Yoast SEO?

Si no tenés Yoast SEO, la alternativa es usar cPanel o FTP.

Podés conectarte a tu servidor web utilizando tus credenciales FTP (tu cuenta de hosting debería proporcionarlas) o a través de cPanel. Para ingresar a tu cuenta de cPanel, hacelo desde el panel de control de tu cuenta de hosting o dirigite a tu-nombre-de-dominio.com/cpanel.

Independientemente de la herramienta que uses, navegá hasta la carpeta public_html de tu servidor (a veces denominada simplemente public).

La interfaz de FileZilla. Hay carpetas y archivos individuales tanto en la máquina local (izquierda) como en el servidor remoto (derecha)

Una vez en la carpeta public_html, buscá el archivo robots.txt. Hacé clic derecho sobre él y seleccioná Ver/Editar para editar el archivo.

La interfaz de FileZilla. El usuario hizo clic derecho en el archivo robots.txt y está seleccionando la opción Ver/Editar del menú desplegable resultante

Necesitás agregar los siguientes comandos al archivo robots.txt para deshabilitar la indexación de Google en tu sitio de WordPress.

User-agent: *
Disallow: /

¿Por qué querrías evitar que Google indexe algunas de tus páginas de WordPress?

Como hemos explorado en este post, puede que quieras desindexar algunas páginas de tu sitio de WordPress de Google, incluso si es temporariamente. Hay muchas razones para esto. Estas son algunas de las más comunes:

Tu sitio web está sin terminar

Cuando todavía estás probando el sitio, no querés que nadie más que tu equipo tenga acceso a él. Utilizar entornos de prueba de WordPress mantendrá el avance en privado.

Es una página restringida

Páginas restringidas como las de solo por invitación o páginas de descarga con acceso limitado para ebooks dirigidos a audiencias específicas no deberían aparecer en los resultados de búsqueda.

Sitios de prueba duplicados

Los sitios duplicados para pruebas y testeo del sitio de producción deberían permanecer fuera de los resultados de búsqueda.

Contenidos duplicados

Si tenés el mismo contenido ofrecido a los visitantes en diferentes formas, asegurate de que no todos estén indexados, ya que Google penaliza tu ranking SEO general si tenés contenido duplicado. 

Contenido que vas a actualizar más adelante

Si uno de tus posts está desactualizado, pero planeás actualizarlo en el futuro, puede ser mejor desindexarlo hasta que lo actualices.

Reflexiones finales

Si tenés un sitio de WordPress y querés mejorar su SEO, deberías tomarte unas horas para bucear en profundidad en las páginas que Google está rastreando e indexando para filtrar aquellas que dañan tu SEO general.

Esta acción debería ser parte de una estrategia general para potenciar el SEO de tu sitio de WordPress, no la única.

Sabemos que no es bueno para el negocio tener páginas rotas, restringidas o vacías anunciadas para que todo el mundo las vea, y deberías tomarte el tiempo para desindexarlas. Pero por sí sola, no te convertirá en una estrella a los ojos de Google a menos que esté acompañada de otras estrategias.

Tomá esto como uno de los primeros pasos de un plan a largo plazo para potenciar el SEO de tu sitio de WordPress.

Si encontraste útil este post, leé nuestro blog y explorá nuestros recursos para más ideas y guías.