Anda di halaman 1dari 2

Explicamos el porqu del archivo robots.txt y como se construye dicho archivo. En este artculo vamos a explicar el archivo robots.

txt, pero antes que nada tenemos que comentar lo que son los robots y qu funcin cumplen dentro de la red de redes. Un robot es un programa ms o menos complicado que se dedica a rastrear nuestras pginas web y guardar su contenido en una base de datos y seguir los enlaces que tengamos a otras pginas web. Esto nos beneficia pero tambin nos puede perjudicar, ya que a veces no nos conviene que se indexen ciertas pginas de nuestras webs. Actualmente los robots actan de tal forma que lo primero que hacen es buscar en la raz de nuestra pgina si tenemos un archivo llamado robots.txt, si lo encuentra lo lee y sigue las directrices que en l se encuentran, si no lo encuentra empieza a rastrear toda la web. Por este tema es importante crear bien este archivo y pensar que pginas queremos que sean rastreadas y cules no, ya que las que no sean rastreadas no sern indexadas en los navegadores. Crear el archivo robots.txt Este archivo es muy fcil de construir tan solo tienes que saber ciertas pautas y podrs hacerlo sin problema. robots.txt puede construirse para que se aplique solo a los robots de determinados buscadores. Pasamos a escribir un ejemplo para ir explicando las posibilidades: User-agent: * # aplicable a todos los robots Disallow: / # impide la indexacion de todas las paginas En este ejemplo los robots no podran indexar ninguna pagina del dominio. User-agent lo que nos dice es a que robots se les aplica las caractersticas que le siguen debajo. Si usamos el * estamos diciendo que esas reglas son aplicables para todos los robots. Pero tambin podemos hacerlo para determinados robots, como ves en el siguiente ejemplo: User-agent: lycra User-agent: BadBot Disallow: / En este ejemplo los robots lucra y BadBot tendra prohibida la indexacin de cualquier pagina del dominio. El disallow nos dice los archivos o carpetas que queremos que no sean indexadas. De esta forma podramos hacer un archivo como este: User-agent: * Disallow: /tmp/prueba.html Disallow: /logs Este ejemplo lo que hara sera prohibir la indexacin de la carpeta logs y el archive prueba.html a todos los robots. Con esto ya podramos realizar un archivo robots.txt perfectamente vlido, pero tambin existen trminos para determinar en qu horas queremos que esos robots rastreen nuestras pginas. La

forma de construirlo es la siguiente: Visit-time: 0300-0400 #esta opcin obligara a rastrear las paginas solo de 3 am a 4 am Recuerda que las horas siempre se colocan en Greenwitch Por otro lado podemos decirle que indexe una pgina o varias cada equis tiempo, para ello se utiliza la siguiente sintaxis: Request-rate: 1/30 Siendo el 1 el nmero de documentos a rastrear y el 30 el tiempo que transcurre entre un rastreo y el siguiente. Es importante saber que no puedes dejar lneas en blanco ya que no funcionaria, el robots dejara de leer en el momento que encuentra la lnea en blanco. Otro aspecto que no he comentado antes pero que habris notado es que los comentarios ser realizan utilizando la #. Un ejemplo completo seria el siguiente: User-agent: * Disallow: /tmp/prueba.html Disallow: /logs Visit-time: 0300-0400 Esto permitir a todos los robots rastrear todas las paginas menos prueba.html y la carpeta logs, adems solo podran indexar de 3 de la maana a 4. Espero que esta ayuda sobre el archivo robots.txt haya resultado ilustradora.

Anda mungkin juga menyukai