Ir a: Definiciones de la etiqueta XML Caracteres de escape de entidad Uso de archivos del ndice de Sitemaps Otros formatos de Sitemap Ubicacin del archivo de Sitemap Validacin de su Sitemap Ampliacin del protocolo Sitemaps Informacin para los rastreadores del motor de bsqueda Este documento describe el esquema XML para el protocolo Sitemap. El formato del protocolo Sitemap consta de etiquetas XML. Todos los valores de datos de un Sitemap deben incluir caracteres de escape de entidad. El propio archivo debe estar codificado en UTF-8. El Sitemap debe: Comenzar con una etiqueta de apertura <urlset> y terminar con una de cierre </urlset>. Especificar el espacio de nombres (protocolo estndar) en la etiqueta urlset. Incluir una entrada <url> para cada direccin URL como una etiqueta XML principal. Incluir una entrada secundaria <loc> para cada etiqueta principal <url>.
Las dems etiquetas son opcionales. La compatibilidad de estas etiquetas opcionales puede variar en funcin del motor de bsqueda. Consulte la documentacin especfica de cada uno de ellos para obtener informacin detallada. Adems, todas las direcciones URL de un Sitemap deben proceder de un nico host, como www.example.com o store.example.com. Para obtener ms detalles, consulte Ubicacin de archivos de Sitemap
Pgina 1 de 9
2.048 caracteres. Fecha de la ltima modificacin del archivo. Esta fecha debe encontrarse en formato Fecha y hora de W3C. Este formato le permite omitir la parte referente a la hora, si as lo desea, y utilizar AAAA-MM-DD. <lastmod> opcional Tenga en cuenta que esta etiqueta es independiente de la cabecera If-Modified-Since (304) que puede mostrar el servidor y que los motores de bsqueda pueden utilizar la informacin de ambas fuentes de forma diferente. Frecuencia con la que puede cambiar esta pgina. Este valor proporciona informacin general a los motores de bsqueda y es posible que no se corresponda exactamente con la frecuencia de rastreo de la pgina. Valores aceptados: <changefreq> opcional always hourly daily weekly monthly yearly never
El valor "always" (siempre) debe utilizarse para describir documentos que cambian cada vez que se obtiene acceso a ellos. El valor "never" (nunca) debe utilizarse para describir direcciones URL archivadas. Tenga en cuenta que el valor de esta etiqueta se considera una sugerencia y no una orden. A pesar de que los rastreadores de motores de bsqueda puedan tener en cuenta esta informacin a la hora de tomar decisiones, pueden rastrear pginas marcadas "hourly" (cada hora) con menor frecuencia de lo que indica la marca, as como rastrear pginas marcadas "yearly" (cada ao) con ms asiduidad. Asimismo, pueden rastrear peridicamente pginas marcadas "never" (nunca) para poder manejar los cambios inesperados que se produzcan en ellas. La prioridad de esta direccin URL es relativa con respecto a las dems URL de su sitio. Los valores vlidos abarcan desde 0,0 a 1,0. Este valor no afecta a la comparacin de sus pginas con respecto a las de otros sitios; nicamente permite informar a los motores de bsqueda de las pginas que considera ms importantes para los rastreadores. La prioridad predeterminada de una pgina es 0,5. <priority> opcional Tenga en cuenta que la prioridad que asigne a la pgina no suele influir en la posicin de sus URL en las pginas de resultados de los motores de bsqueda. Los motores de bsqueda pueden utilizar esta informacin para elegir entre varias URL del mismo sitio, de modo que puede emplear esta etiqueta para incrementar las probabilidades de que sus pginas ms importantes se incluyan en un ndice de bsqueda. Asimismo, tenga en cuenta que la asignacin de alta prioridad a todas las URL de su sitio probablemente no le servir de ayuda, dado que la prioridad es relativa y slo se utiliza para elegir entre las distintas URL de su sitio.
Volver al principio
Pgina 2 de 9
Adems, todas las direcciones URL (incluida la de su Sitemap) deben contener caracteres de escape y estar codificadas de modo que el servidor Web en el que se encuentran las pueda leer. No obstante, si emplea cualquier tipo de script, herramienta o archivo de registro para generar sus direcciones URL (cualquier mtodo a excepcin de la escritura a mano), esto se suele hacer automticamente. Asegrese de que sus direcciones URL se ajustan al estndar RFC-3986 para direcciones URI, al estndar RFC-3987 para direcciones IRI y al estndar XML. A continuacin se incluye un ejemplo de una direccin URL que emplea un carcter no ASCII (), as como un carcter que necesita escape de entidad (&): http://www.example.com/mlat.php&q=name A continuacin se encuentra la misma URL, con codificacin ISO-8859-1 (para su alojamiento en un servidor que utiliza esa codificacin) y la URL con caracteres de escape: http://www.example.com/%FCmlat.php&q=name A continuacin se encuentra la misma URL, con codificacin UTF-8 (para su alojamiento en un servidor que utiliza esa codificacin) y la URL con caracteres de escape: http://www.example.com/%C3%BCmlat.php&q=name A continuacin encontrar la misma URL, pero tambin caracteres de escape de entidad: http://www.example.com/%C3%BCmlat.php&q=name
Pgina 3 de 9
<lastmod>2004-12-23T18:00:15+00:00</lastmod> <priority>0.3</priority> </url> <url> <loc>http://www.example.com/catalog?item=83&desc=vacation_usa</loc> <lastmod>2004-11-23</lastmod> </url> </urlset> Volver al principio
La etiqueta opcional <lastmod> tambin est disponible para archivos de ndice de Sitemap. Nota: Un archivo de ndice de Sitemap slo puede especificar Sitemaps que se encuentren en la misma ubicacin que el archivo de ndice de Sitemap. Por ejemplo, http://www.susitio.es/sitemap_index.xml puede incluir Sitemaps en http://www.susitio.es, pero no en http://www.ejemplo.es o http://suhost.susitio.es. Igual que ocurre con los Sitemaps, el archivo de ndice de su Sitemap debe estar codificado en UTF-8.
Pgina 4 de 9
Volver al principio
Feed de distribucin
Puede proporcionar feeds RSS (Real Simple Syndication) 2.0 o Atom 0.3 o 1.0. Por lo general, si su sitio ya cuenta con un feed de distribucin, utilizar nicamente este formato. Tenga presente que este mtodo puede que no permita a los motores de bsqueda conocer todas las URL del sitio, ya que el feed puede que slo proporcione informacin sobre las URL recientes, aunque no obstante, los motores de bsqueda pueden utilizar esta informacin para averiguar sobre otras pginas del sitio durante los procesos normales de rastreo siguiendo los enlaces internos de las pginas del feed. Asegrese de que el feed se encuentre en el directorio de nivel ms alto que desea que rastreen los motores de bsqueda. Los motores de bsqueda extraen la informacin del feed como sigue: El campo <link> indica la URL campo de fecha de modificacin (el campo <pubDate> en feeds RSS y <modified> en feeds Atom) indica cundo se modific la URL por ltima vez. El uso del campo de fecha de ltima modificacin es opcional.
Archivo de texto
Puede proporcionar un archivo de texto simple que incluya una URL por lnea. El archivo de texto debe cumplir las siguientes directrices: El archivo de texto debe contener una URL en cada lnea. Las URL no pueden incluir nuevas lneas incrustadas. Debe especificar las URL completas, incluido http://. Cada archivo de texto puede contener un mximo de 50.000 direcciones URL y no superar los 10 MB (10.485.760 bytes). Si su sitio incluye ms de 50.000 direcciones URL, puede dividir la lista en varios archivos de texto y agregarlos por separado.
Pgina 5 de 9
El archivo de texto debe utilizar codificacin UTF-8. Puede especificarlo cuando guarde el archivo; por ejemplo, en la aplicacin Bloc de notas, la opcin se encuentra en el men Codificacin del cuadro de dilogo Guardar como. El archivo de texto debe contener exclusivamente la lista de URL. El archivo de texto no debe contener informacin ni en el encabezado ni en el pie de pgina. Si lo desea, puede comprimir su archivo de texto de Sitemap con gzip para reducir sus requisitos de ancho de banda. Al archivo de texto le puede poner el nombre que desee. Asegrese de que sus direcciones URL se ajustan al estndar RFC-3986 para direcciones URI y al estndar RFC-3987 para direcciones IRI Cargue el archivo de texto en el directorio de nivel ms alto en el que desee que los buscadores rastreen y asegrese de que no especifica URL de archivos de texto ubicados en un directorio de nivel superior.
A continuacin se muestran unas entradas de ejemplo del archivo de texto. http://www.example.com/catalog?item=1 http://www.example.com/catalog?item=11
Volver al principio
Pgina 6 de 9
www.host1.com con archivo de Sitemap sitemap-host1.xml www.host2.com con archivo de Sitemap sitemap-host2.xml www.host3.com con archivo de Sitemap sitemap-host3.xml Adems, desea colocar los tres Sitemaps en un nico host: www.sitemaphost.com. As, las direcciones URL del Sitemap sern: http://www.sitemaphost.com/sitemap-host1.xml http://www.sitemaphost.com/sitemap-host2.xml http://www.sitemaphost.com/sitemap-host3.xml De forma predeterminada, eso provocar un error de "envo cruzado", ya que est intentando enviar direcciones URL de www.host1.com a travs de un Sitemap hospedado en www.sitemaphost.com (y lo mismo ocurre con los otros dos host). Una forma de evitar este error es demostrar que posee (es decir, que tiene autoridad para modificar archivos) www.host1.com. Puede hacerlo mediante la modificacin del archivo robots.txt en www.host1.com de modo que apunte al Sitemap de www.sitemaphost.com. En este ejemplo, el archivo robots.txt en http://www.host1.com/robots.txt incluira la lnea "Sitemap: http://www.sitemaphost.com/sitemap-host1.xml". Al modificar el archivo robots.txt en www.host1.com y hacer que apunte al Sitemap de www.sitemaphost.com, ha demostrado de forma implcita que posee www.host1.com. En otras palabras, quien controla el archivo robots.txt en www.host1.com confa en que el Sitemap de http://www.sitemaphost.com/sitemaphost1.xml incluye direcciones URL de www.host1.com. Es posible repetir el mismo proceso para los otros dos host. Ahora puede enviar los Sitemaps de www.sitemaphost.com. Cuando el archivo robots.txt de un host concreto, por ejemplo http://www.host1.com/robots.txt, apunta a un Sitemap o al ndice de un Sitemap de otro host, se espera que todas las direcciones URL de los Sitemaps de destino, como http://www.sitemaphost.com/sitemap-host1.xml, pertenezcan al host al que se apunta. Esto se debe a que, como ya se ha indicado anteriormente, se espera que un Sitemap slo incluya direcciones URL de un nico host. Volver al principio
Validacin de su Sitemap
Los siguientes esquemas XML definen los elementos y atributos que pueden aparecer en su archivo de Sitemap. Puede descargar este esquema desde cualquiera de los siguientes vnculos: Para Sitemaps: http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd Para archivos de ndice de Sitemap: http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd Existen varias herramientas que le pueden ayudar a validar la estructura de su Sitemap segn este esquema. Puede encontrar una lista de herramientas tiles para XML en las siguientes ubicaciones: http://www.w3.org/XML/Schema#Tools http://www.xml.com/pub/a/2000/12/13/schematools.html Para poder validar su archivo de Sitemap o su archivo de ndice de Sitemap en funcin de un esquema, el archivo XML necesitar cabeceras adicionales, tal y como se muestra a continuacin. Sitemap: <?xml version='1.0' encoding='UTF-8'?> <urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> ... </url> </urlset> Archivo de ndice de Sitemap: <?xml version='1.0' encoding='UTF-8'?> <sitemapindex xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
Pgina 7 de 9
Los motores de bsqueda podrn obtener su Sitemap y poner las URL a disposicin de sus rastreadores.
Pgina 8 de 9
Volver al principio
Exclusin de contenido
El protolo Sitemap permite indicar a los motores de bsqueda qu contenido se quiere indexar. Para indicar a los motores de bsqueda el contenido que no quiere indexar, utilice un archivo robots.txt o la etiqueta meta. Para obtener ms informacin sobre cmo excluir contenido de los motores de bsqueda, visite la pgina robotstxt.org.
Pgina 9 de 9