Cuando estamos desarrollando un nuevo proyecto, a veces se nos olvida poner el dichoso robots.txt con Disallow: * para los buscadores no lo indexen. Y para cuando nos damos cuenta, ya es tarde: Ya aparece en Google.
La opción más rápida es ir a nuestra cuenta de Webmaster Tools y hacer una solicitud para eliminarlo del índice, pero esto lo hará temporalmente. Si pasado un tiempo el enlace sigue siendo público, este volverá a aparecer. Si por ejemplo es una categoría o una familia, sus hijos seguirán apareciendo.
Para eliminarlo completamente deberemos añadir el archivo robots.txt:
User-agent: * Disallow: / Disallow: /nombre_de_familia Disallow: /nombre_de_un_archivo.ext Allow: /nombre_de_una_carpeta |
Adicionalmente, podemos añadir el META-TAG en nuestro HTML:
<META NAME=»ROBOTS» CONTENT=»NOINDEX, NOFOLLOW» />
Hay otra opción que nos puede venir bien, y es el añadir a los Headers de las peticiones HTTP una cabecera que le indique al buscador que el contenido no quieres que aparezca en los resultados. Esto nos puede servir para ayudarnos a establecer un método por defecto para desbloquear nuestro sitio y no tener que mantener la etiqueta META
Basta con añadir al fichero .htaccess:
Header set X-Robots-Tag "noindex, nofollow" |
Con esto, ya tenemos todo nuestro sitio blindado a la espera de la «buena fé» de los buscadores de internet.