Saltar a contenido

Robots

Otro estándar de la Web es el conocido como robots.txt. Este define el comportamiento de los "robots indexadores" de los motores de búsqueda dentro de las páginas web.

Para usarlo, basta con definir un archivo robots.txt en la raiz de la página web, y especificar las directivas de comportamiento.

Directivas

Directiva Significado
all No hay restricciones de indexación ni presentación de contenido. Es el valor por defecto.
noindex No se muestra ni esta página ni un enlace "en caché" de los resultados de búsqueda.
nofollow No se siguen los enlaces de esta página.
none Equivalente a noindex, nofollow.
noarchive No se muestra ningún enlace "en caché" en los resultados de búsqueda.
nosnippet No se muestra ningún fragmento en los resultados de búsqueda de esta página.
noodp No se utilizan metadatos del proyecto Open Directory para los títulos o fragmentos que se muestran en esta página.
notranslate No se ofrece una traducción de esta página en los resultados de búsqueda.
noimageindex No se indexan las imágenes de esta página.
unavailable_after:X No se muestra esta página en los resultados de búsqueda después de la fecha y hora especificadas en formato RFC 850.

Etiquetas meta

Se crea una etiqueta meta en la cabecera del documento con el siguiente contenido:

<meta name="robots" content="noindex,nofollow"/>

robots.txt

Se permite especificar los directorios a los que no pueden acceder los robots. Por ejemplo, si sólo se quiere permitir el acceso al robot de Google, el contenido del archivo sería:

User-agent: Google
Disallow:

User-agent: *
Disallow: /

Última actualización: 11 de febrero de 2022