Explorá

WordPress Seo / 9 min de lectura

Guía de robots.txt de WordPress: qué es y cómo usarlo

seo

Si sos desarrollador o tenés experiencia trabajando con sitios web, probablemente hayas escuchado sobre un archivo llamado robots.txt.

robots.txt existe en la mayoría de los sitios web. Emite instrucciones para que los rastreadores de motores de búsqueda como el Googlebot de Google las sigan. Este archivo determina cuáles de las URLs de tu sitio web serán rastreadas e indexadas por los bots.

Aprender a optimizar el archivo robots.txt de tu sitio web es una excelente manera de mejorar la calificación de SEO general de tu sitio. Lo mejor de todo es que no necesitas tener un conocimiento profundo de desarrollo web para aprovechar sus beneficios.

Este artículo funcionará como una introducción a robots.txt. Vas a aprender:

  • Qué es robots.txt y los beneficios de optimizarlo.
  • Dónde se encuentra robots.txt en tu instalación de WordPress.
  • Cómo editar robots.txt.
  • Los comandos que podés emitir en robots.txt.
  • Cómo verificar si robots.txt está funcionando como se espera.
  • Las limitaciones de robots.txt.

Vamos a meternos de lleno.

¿Qué es el archivo robots.txt?

robots.txt es un archivo de texto disponible en las carpetas de tu sitio web. Desde el robots.txt, podés emitir comandos que les dicen a los rastreadores de motores de búsqueda qué recursos de tu sitio pueden acceder.

robots.txt te permite especificar qué directorios, subdirectorios, URLs o archivos no querés que los motores de búsqueda rastreen.

¿Cuáles son los beneficios de editar el archivo robots.txt de WordPress?

La razón principal para usar y optimizar robots.txt es aprovechar los beneficios de SEO. Un archivo robots.txt optimizado puede mejorar el posicionamiento general de SEO de tu sitio web.

Si no usás robots.txt, de forma predeterminada los bots pueden rastrear e indexar cada página de tu sitio web. Esto puede ser excelente para algunos, pero la mayoría de los sitios web tienen al menos algo de contenido duplicado, vacío u otros tipos de contenido no amigable para SEO.

Es una buena práctica evitar que estas páginas sean rastreadas y aparezcan en los resultados de búsqueda. Sin embargo, robots.txt no impide que el rastreador de Google (o cualquier otro) muestre las páginas de tu sitio web en los resultados de búsqueda. Incluso si bloqueás una página para que no sea rastreada mediante robots.txt, puede aparecer en los resultados de búsqueda si están enlazadas interna o externamente.

Si querés evitar que una página aparezca en los resultados de búsqueda, necesitás tanto desautorizarla en robots.txt como evitar manualmente que aparezca en las búsquedas usando un gestor de SEO como Yoast SEO.

Optimizar robots.txt ayudará a que los rastreadores web exploren tu sitio web de manera más eficiente, mejorando el SEO general de tu sitio.

Optimizar tu archivo robots.txt mejora tu presupuesto de rastreo

El presupuesto de rastreo es la cantidad de tiempo y recursos que un rastreador web dedica a tu sitio web. Cuanto mayor sea el presupuesto, más URLs explorará un rastreador web. Cuanto menor sea el presupuesto, menos URLs explorará.

Rastrear e indexar cuesta tiempo y potencia informática, ambos recursos limitados. Como resultado, querés que los rastreadores web exploren solo las páginas que querés impulsar en los motores de búsqueda y que ignoren todas las páginas que no querés impulsar.

Optimizar tu archivo robots.txt destacará contenido de alta calidad, reducirá la visibilidad de contenido de baja calidad (en términos de SEO) y evitará que los recursos de tu servidor se vean abrumados por demasiadas solicitudes.

Ahora que conocés lo básico del archivo robots.txt, avancemos a encontrarlo y editarlo.

¿Dónde está el archivo robots.txt de WordPress? ¿Cómo accedés a él?

WordPress genera automáticamente el archivo robots.txt. Se encuentra en el dominio raíz de tu directorio, y podés encontrarlo ingresando a tu página de inicio y añadiendo “/robots.txt” al final de la URL. Por ejemplo, https://wcanvas.com/robots.txt.

config

Importante: Solo podés visualizar robots.txt en este directorio, no editarlo.

¿Cómo editar y optimizar robots.txt en WordPress?

Existen varias maneras de editar el archivo robots.txt. Nuestros desarrolladores siempre utilizan una de dos opciones: usar el plugin Yoast SEO o crear un archivo de texto llamado “robots” y subirlo al directorio raíz de WordPress.

Usando Yoast SEO

La forma más sencilla de editar el archivo robots.txt es mediante el uso de plugins. Nuestro plugin preferido para este propósito es Yoast SEO. El proceso es rápido y fácil.

Primero, tenés que activar las funciones avanzadas del plugin. Podés hacerlo desde el panel de administración: Yoast SEOFunciones. Una vez en la pestaña de funciones, activá la opción de Páginas de configuración avanzadas.

config

Una vez que hayas habilitado los ajustes avanzados, andá a Yoast SEOHerramientas y clickeá en Editor de archivos.

config

Tendrás la opción de crear un archivo robots.txt si no tenés uno ya.

create-file

Ahora podés editar libremente robots.txt y guardar los cambios.

config

Creá un archivo “robots.txt” y subilo al directorio raíz de tu WordPress

En los raros casos en que no tuvimos acceso a Yoast SEO, creamos un archivo .txt llamado “robots” y lo subimos al directorio raíz de la instalación de WordPress.

Abrí cualquier editor de texto y creá un archivo con las directivas y sintaxis que deseás.

Usamos dos métodos principales para subirlo: el Administrador de Archivos en cPanel y aplicaciones FTP.

Subir robots.txt usando cPanel

  1. Accedé a tu Administrador de Archivos de cPanel y dirigite al directorio de instalación de WordPress, usualmente public_html.
  2. En la barra de herramientas superior, clickeá en Subir, y el archivo estará ahora en el directorio raíz.

Subir robots.txt usando FTP

  1. Conectáte al sitio web de tu sitio usando una aplicación FTP como FileZilla.
  2. Navegá hasta tu directorio raíz (de nuevo, será public_html).
  3. Simplemente arrastrá y soltá el archivo en el directorio raíz.

Comandos de robots.txt

El archivo robots.txt emite instrucciones para que los rastreadores sepan qué partes de tu sitio deben rastrear. Los tres comandos principales son:

  • user-agent: se refiere al rastreador de los motores de búsqueda. El objetivo de tus comandos robots.txt es dirigir estos rastreadores. Podés emitir comandos dirigidos a rastreadores específicos o a todos los rastreadores.
  • disallow: indica al agente de usuario no acceder, rastrear o indexar una URL, directorio o subdirectorio en particular.
  • allow: opuesto a disallow. Indica que el contenido debe ser accesado, rastreado e indexado.

Recordá que los comandos de allow y disallow solo se aplicarán al agente de usuario especificado en la línea anterior a ellos. Se pueden incluir varias líneas de disallow para cada agente de usuario.

Comandos más usados en robots.txt

Indicaciones para un bot específico:

User-agent: [nombre del bot]

//Ejemplo
User-agent: Googlebot

Indicaciones para todos los bots:

User-agent: *

Agregá un asterisco (*). Cualquier comando bajo esta línea se aplica a todos los rastreadores que siguen los enlaces en tu sitio web.

Permitir el acceso total a todos los rastreadores:

User-agent: *

Disallow:

De manera diferente, hacer esto sería no usar el archivo robots.txt o dejarlo vacío.

Bloquear todo el sitio web para que no sea rastreado e indexado usando un “/”:

Disallow: /

Bloquear un directorio y su contenido:

Disallow: /nombre_del_directorio_aqui/

Desautorizar una página web específica:

Disallow: /direccion_de_la_pagina_aqui

Bloquear todas las imágenes en el sitio web:

User-agent: *

Disallow: /

Bloquear una imagen específica:

User-agent: Googlebot-Image

Disallow: /imagen/secreta.jpeg

Desautorizar un tipo de archivo específico:

User-agent: *

Disallow: /*.png$

Ninguna imagen .png será rastreada e indexada.

Bloquear una secuencia de caracteres usando un asterisco:

User-agent:

Disallow: /directorio-secreto*/

Bloquear URLs que terminan en un conjunto específico de caracteres agregando el símbolo “$” al final:

User-agent: *

Disallow: /*.pdf

Desautorizar un bot específico:

User-agent: [nombre del bot]

Disallow: /

Permitir el rastreo para un bot específico mientras bloquea a todos los demás:

User-agent: [nombre del bot]

Disallow:

User-agent: *

Disallow: /

¿Cómo verificar si mi archivo robots.txt está funcionando correctamente para Google?

Podés verificar si tu archivo está configurado correctamente usando la herramienta de prueba de robots.txt en Google Search Console. Con esta prueba, podés ver cómo lo leerá Googlebot, permitiéndote detectar errores potenciales. 

Para usar la herramienta, andá a Rastreo > Probador de robots.txt en el panel izquierdo de Google Search Console. Ingresá las URLs que querés probar en la barra inferior. 

Te mostrará dos resultados: Permitido (la URL no está bloqueada) o Bloqueado (e indicará el comando que bloquea la URL).

test

Limitaciones del archivo robots.txt

Aunque este archivo puede ser muy útil para vos, también tiene algunas limitaciones que deberías conocer.

  1. Este archivo no garantiza que Google no indexe el contenido bloqueado ya que los motores de búsqueda descubren las páginas a través de enlaces. Si hay enlaces internos a las páginas bloqueadas, los bots probablemente las rastreen e indexen de todas formas. Deberías bloquear la indexación incluyendo una etiqueta noindex o proteger la página con contraseña para evitar la indexación.
  2. Diferentes rastreadores interpretan la sintaxis de robots.txt de diferentes maneras. La mayor atención se centra en Google, ya que es abrumadoramente popular. Sin embargo, puede ser necesario investigar cómo otros motores de búsqueda interactúan con robots.txt para optimizarlo para la mayor cantidad de motores posible.
  3. Algunos rastreadores pueden no seguir en absoluto los comandos en robots.txt.

Conclusiones

Si tenés contenido específico que querés que los rastreadores eviten o excluyan de los resultados de búsqueda, vale la pena dedicar tiempo a configurar los comandos apropiados en el archivo robots.txt de tu sitio web.

El beneficio último de optimizar tu archivo robots.txt es mejorar tu presupuesto de rastreo. Al evitar que los bots rastreen e indexen publicaciones y páginas específicas, asegurás que los motores de búsqueda tengan suficientes recursos para todas las páginas que querés impulsar.

Finalmente, recordá que, aunque (la mayoría) de los rastreadores seguirán las indicaciones de tu archivo, esto no garantiza que el contenido no pueda ser indexado por otros medios. Si querés que una página específica quede fuera de los resultados de búsqueda, usá la etiqueta noindex en su lugar.

Si encontraste útil este artículo, visitá nuestro blog para más ideas y guías de WordPress.