Qué son los archivos robots.txt?

Robots.txt es un archivo de texto plano que debe ser implementado en tu página web. Ya que este le dice a las arañas como Googlebot si estos deberían acceder a ciertas rutas, o archivos.

Aquí un ejemplo del contenido de un archivo robots.txt

User-agent: *
Disallow: /folder/
Disallow: /file.html
Disallow: /image.png

Ejemplos básicos de robots.txt

Acceso completo a todas las rutas de tu página web a todos las arañas que escanean sitios web ( Google, Yahoo, Bing, Yandex, etc. )

User-agent: *
Disallow: 

Boqueo completo a todas las rutas de tu página web a todos las arañas que escanean sitios web.

User-agent: *
Disallow: /

Bloqueo a una ruta en especifico.

User-agent: *
Disallow: /folder/

Bloqueo a un una ruta identificada como un archivo.

User-agent: *
Disallow: /misdatospersonales.docx

Por que deberías aprender acerca de los robots.txt

  • El uso incorrecto de los robots.txt puede afectar tu ranking en las buscadores.
  • Los robots.txt definen como las arañas de los buscadores miran e interactúan con tu página web.
  • Google recomienda implementar robots.txt para rankear páginas web.

Te dejo un enlace para que sepas mas de esto: Herramientas Guías de Google.

Las arañas de los buscadores

Lo primero que una araña como Googlebot busca en una página web, es la ruta: https://mipaginaweb.com/robots.txt

Esto es por que es necesario saber a que rutas esta permitido ingresar y a cuales no. Es decir, solo si robots.txt concede el permiso Googlebot va a continuar rastreando las páginas internas.

En caso de que consideres que hay una ruta que no debe visualizarse en los buscadores, entonces debe estar especificado en robots.txt

Cómo saber si tengo o no robots.txt

En realidad solo es ingresar en tu navegador una ruta como la siguiente:

https://mipaginaweb.com/robots.txt

Esta ruta, debería de mostrar en pantalla cierta información en texto plano.

Necesito el archivo robots.txt en mi página web?

No todas las páginas web necesitan robots.txt, ya que solo son directivas para los buscadores como Google.

Razones por las que no requieres de robots.txt

  • El contenido de tu página web no debe ser mostrado en buscadores como Google.
  • Tu página web, aun se encuentra en desarrollo y no deseas aun que tus usuarios de encuentren.
  • Deseas que los usuarios ingresen a tu página web, directamente por una ruta y no a través de un buscador.

Términos a saber para implementar robots.txt

User-agent

Esta directiva indica que la configuración que vas a declarar esta dirigida para una araña especifica o usando ” * ” señalamos que lo declarado aplica para todos los robots.

User-agent: Googlebot

Decimos que las reglas siguientes, serán solo para Googlebot.

User-agent: *

Decimos que las reglas siguientes, serán para todas las arañas de todos los buscadores.

Disallow:

Esta directiva especifica que rutas no deben ser mostradas en buscadores como Google.

Por ejemplo, en caso de una página web que desea mantener en privado la ruta: https://mipaginaweb.com/fotosprivadas. La directiva iría como lo siguiente:

User-agent: *
Disallow: /fotosprivadas

Con esto claramente estamos diciendo: No muestres esto en las búsquedas de Google, Yahoo, Bing y otros.

Allow

Esta es una directiva que ayuda a romper en cierta manera una regla.

Como el ejemplo anterior en la cual no deseábamos que se muestren nuestras fotos privadas. Sin embargo hay una foto viral que queremos que figure en Google.

Entonces iría de la siguiente manera:

User-agent: *
Disallow: /fotosprivadas
Allow: /fotosprivadas/fotoviral.jpg

Con estos tres términos básicos podrás definir un archivo de texto plano y subirlo a tu servidor web.

No olvides que debe estar en la ruta: https://mipaginaweb.com/robots.txt

Así mismo te dejo una herramienta https://technicalseo.com/tools/robots-txt/ para que verifiques si un contenido de tu página web esta bloqueado.

Me despido dejándote también un enlace a: Que es Cache-Control? Para que sepas mas de las cabeceras HTTP. Gracias.