¿Qué es el archivo Robots.txt en un dominio?

Si posee un sitio web y se preocupa por la salud de SEO de su sitio, debe familiarizarse con el archivo robots.txt de su dominio. Lo creas o no, es un número inquietantemente alto de personas que inician rápidamente un dominio, instalan un sitio web rápido de WordPress y nunca se molestan en hacer nada con su archivo robots.txt.

Esto es peligroso. Un archivo robots.txt mal configurado puede destruir la salud de SEO de su sitio y dañar cualquier posibilidad que tenga para aumentar su tráfico..

¿Qué es el archivo Robots.txt??

los Robots.txt el archivo tiene un nombre apropiado porque es esencialmente un archivo que enumera las directivas de los robots web (como los robots de los motores de búsqueda) sobre cómo y qué pueden rastrear en su sitio web. Este ha sido un estándar web seguido de sitios web desde 1994 y todos los principales rastreadores web se adhieren al estándar.

El archivo se almacena en formato de texto (con una extensión .txt) en la carpeta raíz de su sitio web. De hecho, puede ver el archivo robot.txt de cualquier sitio web simplemente escribiendo el dominio seguido de /robots.txt. Si lo intentas con groovyPost, verás un ejemplo de un archivo robot.txt bien estructurado.

El archivo es simple pero efectivo. Este archivo de ejemplo no distingue entre robots. Los comandos son emitidos a todos los robots usando el Agente de usuario: * directiva. Esto significa que todos los comandos que lo siguen se aplican a todos los robots que visitan el sitio para rastrearlo.

Especificación de rastreadores web

También puede especificar reglas específicas para rastreadores web específicos. Por ejemplo, puede permitir que Googlebot (el rastreador web de Google) rastree todos los artículos en su sitio, pero tal vez desee impedir que el rastreador web ruso Yandex Bot rastree artículos en su sitio que tengan información despectiva sobre Rusia.

Hay cientos de rastreadores web que recorren Internet en busca de información sobre sitios web, pero aquí se enumeran los 10 más comunes que deberían preocuparle..

Googlebot: Buscador de Google
Bingbot: El motor de búsqueda Bing de Microsoft
Sorber: Buscador de Yahoo
DuckDuckBot: DuckDuckGo motor de búsqueda
Baiduspider: Motor de búsqueda chino Baidu
YandexBot: Motor de búsqueda ruso Yandex
Exabot: Motor de búsqueda francés Exalead
Facebot: El robot rastreador de Facebook
ia_archiver: Web crawler de Alexa
MJ12bot: Gran base de datos de indexación de enlaces

Tomando el ejemplo del escenario anterior, si desea permitir que Googlebot indexe todo lo que se encuentra en su sitio, pero desea bloquear a Yandex para que no indexe el contenido de su artículo en ruso, agregaría las siguientes líneas a su archivo robots.txt.

Usuario-agente: googlebot No permitir: No permitir: / wp-admin / No permitir: /wp-login.php

Usuario-agente: yandexbot No permitir: No permitir: / wp-admin / No permitir: /wp-login.php No permitir: / rusia /

Como puede ver, la primera sección solo impide que Google rastree su página de inicio de sesión de WordPress y las páginas administrativas. La segunda sección bloquea a Yandex de la misma, pero también de toda el área de su sitio donde ha publicado artículos con contenido anti-Rusia..

Este es un ejemplo simple de cómo puede usar el Rechazar Comando para controlar rastreadores web específicos que visitan su sitio web.

Otros comandos de Robots.txt

No permitir no es el único comando al que tiene acceso en su archivo robots.txt. También puede usar cualquiera de los otros comandos que dirijan cómo un robot puede rastrear su sitio.

Rechazar: Le dice al agente de usuario que evite rastrear URL específicas o secciones completas de su sitio.
Permitir: Le permite ajustar con precisión las páginas o subcarpetas específicas de su sitio, incluso si es posible que haya rechazado una carpeta principal. Por ejemplo, puede rechazar: / about /, pero luego permitir: / about / ryan /.
Retraso de rastreo: Esto le dice al rastreador que espere xx cantidad de segundos antes de comenzar a rastrear el contenido del sitio.
Sitemap: Proporcione a los motores de búsqueda (Google, Ask, Bing y Yahoo) la ubicación de sus sitemaps XML.

Ten en cuenta que los bots solamente Escuche los comandos que ha proporcionado cuando especifique el nombre del bot..

Un error común que cometen las personas es no permitir áreas como / wp-admin / de todos los bots, pero luego especifique una sección de googlebot y solo rechazar otras áreas (como / sobre /).

Dado que los bots solo siguen los comandos que especifique en su sección, debe reformular todos los otros comandos que ha especificado para todos los bots (usando el * agente de usuario).

Rechazar: El comando utilizado para indicar a un agente de usuario que no rastree una URL concreta. Solo se permite una línea "No permitir:" para cada URL.
Permitir (Solo aplicable para Googlebot): El comando para decirle a Googlebot que puede acceder a una página o subcarpeta aunque su página principal o subcarpeta no esté permitida.
Retraso de rastreo: Cuántos segundos debe esperar un rastreador antes de cargar y rastrear el contenido de la página. Tenga en cuenta que Googlebot no reconoce este comando, pero la velocidad de rastreo se puede configurar en la Consola de búsqueda de Google.
Mapa del sitio: Se utiliza para indicar la ubicación de un mapa de sitio (s) XML asociado con esta URL. Tenga en cuenta que este comando solo es compatible con Google, Ask, Bing y Yahoo.

Tenga en cuenta que robots.txt está destinado a ayudar a los robots legítimos (como los robots de los motores de búsqueda) a rastrear su sitio de manera más efectiva..

Hay muchos rastreadores infames que están rastreando su sitio para hacer cosas como raspar direcciones de correo electrónico o robar su contenido. Si quiere probar y usar su archivo robots.txt para evitar que los rastreadores rastreen algo en su sitio, no se preocupe. Los creadores de esos rastreadores generalmente ignoran todo lo que has puesto en tu archivo robots.txt.

¿Por qué no permitir nada??

Conseguir que el motor de búsqueda de Google rastree la mayor cantidad de contenido de calidad posible en su sitio web es una preocupación primordial para la mayoría de los propietarios de sitios web..

Sin embargo, Google solo gasta un limitado presupuesto de rastreo y tasa de rastreo en sitios individuales. La tasa de rastreo es la cantidad de solicitudes por segundo que Googlebot realizará en su sitio durante el evento de rastreo..

Más importante es el presupuesto de rastreo, que es la cantidad de solicitudes totales que Googlebot realizará para rastrear su sitio en una sesión. Google "gasta" su presupuesto de rastreo al enfocarse en áreas de su sitio que son muy populares o que han cambiado recientemente.

No estás ciego a esta información. Si visita las Herramientas para webmasters de Google, puede ver cómo el rastreador maneja su sitio..

Como puede ver, el rastreador mantiene su actividad en su sitio bastante constante todos los días. No rastrea todos los sitios, sino solo aquellos que considera los más importantes..

¿Por qué dejar que Googlebot decida qué es importante en su sitio, cuando puede usar su archivo robots.txt para decirle cuáles son las páginas más importantes? Esto evitará que Googlebot pierda tiempo en páginas de poco valor en su sitio.

Optimizando su presupuesto de rastreo

Las Herramientas para webmasters de Google también le permiten verificar si Googlebot está leyendo bien su archivo robots.txt y si hay errores.

Esto le ayuda a verificar que ha estructurado su archivo robots.txt correctamente.

¿Qué páginas debes rechazar de Googlebot? Es bueno para su sitio SEO no permitir las siguientes categorías de páginas.

Páginas duplicadas (como páginas fáciles de imprimir)
Páginas de agradecimiento siguiendo pedidos basados en formularios.
Formularios de pedido o consulta de información.
Páginas de contacto
Páginas de acceso
Páginas de "ventas" de imanes de plomo

No ignore su archivo Robots.txt

El mayor error que cometen los nuevos propietarios de sitios web es ni siquiera mirar su archivo robots.txt. La peor situación podría ser que el archivo robots.txt en realidad está bloqueando su sitio, o áreas de su sitio, para que no sean rastreados en absoluto.

Asegúrese de revisar su archivo robots.txt y asegúrese de que esté optimizado. De esta manera, Google y otros motores de búsqueda importantes "ven" todas las cosas fabulosas que ofrecen al mundo con su sitio web.