Anda di halaman 1dari 64

El lenguaje HTML:

comprender y respetar
los
estándares W3C
Introducción

En esta unidad analizaremos brevemente la historia y la evolución del


lenguaje HTML y las diferencias de éste con respecto al XHTML.
De este modo, será posible distinguir las características de los
distintos lenguajes de marcado, sus requisitos y los estándares de
referencia que la marca (X)HTML debe respetar en la realización de
cada documento para la red pública.
Introducción al lenguaje HTML
La mayoría de los sitios web están escritos en código HTML.
Desde el primer uso de este lenguaje de marcado, por parte del físico
Tim Berners-Lee en el 1991, se han desarrollado distintas versiones
de HTML.
El prototipo de este lenguaje fue desarrollado en los laboratorios del
CERN, siglas del Consejo Europeo para la Investigación Nuclear, con
el fin de distribuir e intercambiar información de una manera más
efectiva, mediante un sistema de hipertextos.
Por este motivo, fue desarrollado un primer “lenguaje de marca”
llamado SGML (Standard Generalized Markup Language, en
español Estándar de Lenguaje de Marcado Generalizado): la base de
los futuros HTML y HTML 2.0.
En este prototipo de lenguaje de marcado se introdujeron algunos
elementos y marcas de base como por ejemplo p, h1-h6 y ancla (a).
En 1994, la Mosaic Communication presentó el navegador conocido
como Netscape. El mayor aporte de esta compañía, al desarrollo del
web, fue introducir nuevas extensiones al lenguaje HTML de base,
cuya finalidad era mejorar la “presentación” y el “diseño” de los
documentos presentes en la red, compatibles obviamente sólo con el
navegador Netscape.
Posteriormente, en 1996 Microsoft lanzó su navegador: Internet
Explorer 3.0, desarrollando una versión propia y actualizada del
lenguaje HTML aptaa IE 3.0.
En 1996, luego de la formación del World Wide Web Consortium
(W3C), Consorcio internacional que produce recomendaciones para
la World Wide Web, se estableció un estándar HTML de referencia,
para un mayor desarrollo web: el HTML 3.2.
Esta primera versión HTML certificada a nivel global, representa aún
hoy el estatus del lenguaje HTML, ya que incluye la mayor parte de
los elementos y atributos de presentación conocidos y ya vistos en la
introducción del primer Módulo.
Las versiones HTML 4.0 y 4.01, elaboradas en 1999, fueron
desarrolladas para establecer un nuevo estándar de accesibilidad y,
sobretodo, para separar la “presentación” de las páginas web de su
contenido: una división dirigida a mejorar el uso general de los sitios
presentes en la red.
Según este nuevo estándar de referencia, la mayor parte de la
visualización gráfica deberá ser confiada a las Hojas de Estilo a
Cascada (CSS).
Las versiones 4.0 y 4.01 de HTML constituyen actualmente las
versiones de lenguaje de marcado de mayor uso, fácilmente
accesibles a todas las personas que navegan en la red.
Además es importante recordar que existen tres versiones específicas
del HTML 4.01: 1) Transitional, 2) Strict e 3) Frameset.

El HTML 4.01 en tres aspectos


No obstante la elaboración de nuevos estándares de referencia
relativos al HTML y a las Hojas de Estilo a Cascada (CSS), ya en
1999 existían en red millones de páginas web realizadas con
codificaciones HTML precedentes, y según los nuevos estándares, ya
obsoletas.
Dada la imposibilidad de modificar todos los materiales ya presentes
en red, adecuándolos a los nuevos estándares, fueron elaboradas
distintas versiones HTML, para obviar eventuales problemas de
incompatibilidad y accesibilidad de “viejos” contenidos en la web, no
conforme a los nuevos parámetros W3C.
1) HTML Transitional
En este tipo de documentos se pueden usar todas las etiquetas de
todas las versiones de HTML. Usar esta variante de HTML no es lo
más recomendable porque podemos usar etiquetas obsoletas que
podrían dejar de funcionar en las próximas versiones de los
navegadores. Este es el estándar más usado, porque combina la
posibilidad de usar etiquetas más antiguas y etiquetas más modernas,
de forma que podamos aspirar a una mejor visualización en la mayor
parte de los navegadores.
La versión HTML Transitional incluye la mayor parte de los
elementos de presentación del HTML actualmente conocidos y
utilizados. Esta opción de lenguaje “de paso” se puso a disposición de
los diseñadores web para acercarlos gradualmente a los nuevos
estándares y agilizar la introducción de nuevos navegadores e
instrumentos de desarrollo.
Los elementos de presentación (como por ej. center) y algunos
atributos HTML (como por ej. bgcolor y align) se señalan como ya
obsoletos o “en desuso”, destinados a ser completamente removidos
en las nuevas versiones HTML.
2) HTML 4.01 Strict
Esta versión, al contrario de la anterior, no permite el uso de los
elementos y atributos ya “en desuso”, según los estándares de
referencia del HTML 4.01.

3) HTML Frameset
Esta tercera versión HTML fue elaborada para describir el contenido
de los documentos estructurados en frame.
Los marcos, permiten una subdivisión de la ventana del navegador
en más ventanas, donde cada una visualiza diferentes documentos
HTML. Las estructuras definidas como marco se construyen
mediante un documento HTML específico, de tipo frameset, que
sirve para definir la estructura y el contenido de cada uno de los
marcos.
Los documentos de tipo frameset son diferentes de los documentos
normales en lenguaje HTML, ya que utilizan un elemento frameset en
lugar del normal elemento body.
Actualmente, por motivos de uso y accesibilidad, los frameset se
utilizan raramente y justamente por este motivo no los tomaremos en
consideración durante este curso, dedicado principalmente a las
actuales tendencias en el campo del web design.
Conocer el DTD
Según los estándares de referencia actuales, durante la creación de
una estructura (X)HTML es oportuno determinar su “definición”
específica o mejor dicho su Document Type Definition (DTD, siglas
en inglés que significan Definición del Tipo de Documento ).
Tal especificación se emplea normalmente al inicio de cada
documento (X)HTML para identificar un modelo de documento
único, reconocido a nivel global por quien utiliza un mismo lenguaje
de marca.
Ejemplo de DTD para un documento HTML 4.01 Transitional

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"


http://www.w3.org/TR/html4/loose.dtd>

Ejemplo de DTD para un documento XHTML 1.0 Transitional

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"


"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
Una codificación DTD es un conjunto de normas, obligaciones y
restricciones que se deben seguir al crear un documento de un
determinado tipo. Sirve para indicar y definir las etiquetas que se
pueden utilizar, los atributos de cada etiqueta y el tipo de valores que
puede tener cada atributo.
Según la norma actual del W3C, hoy se utilizan tres versiones
diferentes de DTD, correspondientes a los distintos tipos de lenguaje
HTML 4.01: Transitional DTD, Strict DTD y Frameset DTD.
El siguiente ejemplo muestra sólo una pequeña parte de una
codificación completa DTD HTML 4.01, que define a los elementos
p y h1–h6 junto con los otros atributos asociables a estos.
Ejemplo de un documento DTD
El lenguaje XHTML
El lenguaje XHTML es muy similar al lenguaje HTML. De hecho,
XHTML no es más que una adaptación de HTML al lenguaje XML.
El lenguaje HTML se limita a aquellos tipos de contenido que pueden
ser “descritos”, es decir, que contienen principalmente elementos de
texto, imágenes, vídeo, etc. Para visualizar y compartir a nivel global
los contenidos de distinto tipo es necesario utilizar un lenguaje de
marca más especializado, ya que el lenguaje HTML original era muy
permisivo en su sintaxis.
Por este motivo el W3C ha elaborado un lenguaje de marca
específico: el XML (Lenguaje de Marcas Extensible, Extensible
Markup Language ).
XML es un lenguaje de marcas que ofrece un formato para la
descripción de datos estructurados. Mediante su uso los autores
pueden crear un lenguaje de marca personalizado, adecuado a la
información que quieren compartir en red.
Utilizando un lenguaje XML será, por lo tanto, posible insertar de
forma autónoma nuevos elementos de marca. Es decir, XML no
posee etiquetas prefijadas con anterioridad.
Además, es posible en un documento individual usar distintos
lenguajes de marca de tipo XML.
El lenguaje HTML de uso más común comprende el uso de un
conjunto preestablecido de elementos y de una sintaxis común para la
“descripción” y el formato de las páginas web, en cambio, el lenguaje
XML se emplea para crear nuevos elementos de marca, útiles para la
descripción de documentos siempre distintos.
Creando singularmente nuevos elementos es difícil controlar la
efectiva accesibilidad y uso de aquellos contenidos realizados en
XML.
De hecho, los navegadores deben poder reconocer los nuevos
elementos de marca introducidos y al mismo tiempo entender por qué
algunos elementos comunes han sido sustituidos u omitidos.
Es exactamente por este motivo que las reglas de uso de la marca
XML son más rígidas que aquellas seguidas durante la creación de un
documento HTML normal.
Ejemplo de la estructura base de un documento XML
<?xml version="1.0" encoding="UTF-8"?> // versión del lenguaje y codificación estándar
<alumno academiamañana>
<alumno webdesign>
<nombre>Jorge</nombre>
<apellido>Rojas</apellido>
<lugar de nacimiento>Valencia</lugar de nacimiento>
<fecha de nacimiento>10/02/1971</fecha de nacimiento>
</alumno webdesign>
<alumno webdesign>
<nombre>Juan</nombre>
<apellido>Fuentes</apellido>
<lugar de nacimiento>Madrid</lugar de nacimiento>
<fecha de nacimiento>23/05/1985</fecha de nacimiento>
</alumno webdesign>
</alumno academiamañana>
Reescribir el HTML
Para favorecer un uso conjunto de más lenguajes de marca en un
único documento, el W3C ha elaborado el XHTML: una versión re-
elaborada del lenguaje HTML, que tiene en consideración las rígidas
reglas de uso de la marca XML.
Una primera versión del lenguaje XHTML, la llamada “1.0”, resulta
idéntica al lenguaje HTML 4.01.

En efecto los dos lenguajes comparten los mismos elementos de


marca y los mismos atributos. También para el XHTML 1.0 tenemos
los mismos tres tipos de DTD relativos al HTML 4.01: Transitional,
Strict e Frameset.

Sintaxis XHTML
La principal diferencia entre HTML y XHTML es que este último es
un lenguaje de tipo XML, donde el uso de una sintaxis correcta es
fundamental. Por ejemplo, cada elemento debe ser siempre encerrado
en la etiqueta apropiada y correctamente anidado, mientras los
atributos deben ser siempre encerrados por comillas dobles.
Más allá de las nuevas reglas sintácticas, el XHTML agrega más
características específicas, propias de un lenguaje de tipo XML, no
necesarias para el uso del lenguaje HTML 4.01.
Los siguientes puntos comprenden todos los requisitos para una
correcta elaboración de un documento de tipo XHTML.
Algunos de estos requisitos, presentan importantes diferencias
respecto a las características propias de un documento HTML
normal.
• Los elementos y los atributos siempre se escriben en
minúscula
En HTML los elementos y los atributos no son case-sensitive. Por lo
tanto, es posible escribir la etiqueta en mayúscula o minúscula, sin
perjudicar la estructura del documento: <html> = <HTML>.
En XHTML los elementos y los atributos son case-sensitive: <html>
≠ <HTML>. Por lo tanto, para ser correctamente interpretados, los
atributos y los elementos deben siempre ser insertados en letras
minúsculas.
Los valores de los atributos, sin embargo, no deben ser
necesariamente escritos en letras minúsculas, a menos que la lista de
valores predefinida para un determinado atributo especifique lo
contrario.
• Todos los elementos deben ser cerrados
Como fue mencionado en la introducción al HTML, es posible omitir
la etiqueta de cierre de algunos elementos. En XHTML esto no es
posible.
Cada etiqueta de apertura debe ser “terminada” por la etiqueta de
cierre apropiada.
Esta regla se extiende en XHTML también a los denominados
elementos vacíos.
Por lo tanto, también aquellos elementos como <br>, <hr> e <img>
deben ser cerrados.
Por ejemplo, mientras en HTML el elemento <br> puede ser
utilizado sin etiqueta de cierre, ya que no encierra ningún contenido,
en XHTML tal etiqueta deberá siempre aparecer del siguiente modo:
<br/ > como fue ya mencionado en la unidad inicial.
Del mismo modo, también los otros elementos vacíos deberán
siempre ser cerrados, insertando un slash antes del paréntesis de
cierre:
Ejemplo. <img/ >, <hr/ >.
• Los valores de los atributos se encierran con comillas dobles
Mientras en HTML algunos valores de un atributo pueden no estar
encerrados en comillas dobles, en XHTML tales valores deben
siempre ser entrecomillados del siguiente modo: atributo="valor".
Además, antes de acceder al valor de un atributo, se eliminan todos
los espacios en blanco que se encuentran antes y después del valor.
Ej. <elemento atributo="valor"> ≠ <elemento atributo=" valor ">

• Todos los atributos deben tener valores explícitos


En XHTML no se pueden minimizar los atributos, es decir, todos
deben tener un valor asignado.
• Los elementos deben ser anidados correctamente
En XHTML es fundamental respetar la correcta anidación (etiquetas
dentro de otras etiquetas) de los varios elementos, según un criterio
jerárquico. Es obligatorio que se cierren antes las etiquetas que se
abrieron después, es decir, no se puede alterar el orden de apertura y
cierre de las etiquetas.

Ejemplo de anidación correcto en XHTML


<p>Mi perro es <em>negro</em></p>
Ejemplo de anidación incorrecto en XHTML
<p>Mi perro es <em>negro</p></em>

• Utilizar siempre la entidad de carácter nominal para la


inserción de caracteres especiales.
Todos los caracteres especiales (es. <, >, e &), que veremos en detalle
en la unidad sucesiva, deben ser representados con su codificación de
carácter nominal o de nombre y no con aquella de tipo numérico.
Tal codificación específica es necesaria también para los valores de
los atributos y los títulos de los documentos XHTML.
Estructura correcta:
<img src="olivercompany.jpg" alt="Oliver &amp; Company" />

Estructura incorrecta:
<img src="olivercompany.jpg" alt="Oliver & Company" />

• Utilización de id en lugar del atributo name como


identificador
En el lenguaje XHTML, el atributo id sustituye al atributo name,
cuando se utiliza como identificador.
De hecho, el atributo name, está en desuso y ya no se utiliza en
asociación a la mayor parte de los elementos (X)HTML.

• Los script deben encerrarse en la sección CDATA


Utilizando XHTML es necesario colocar los eventuales script en una
sección del documento específica, llamada CDATA, para que puedan
ser interpretados correctamente.
Ej.
<script type="type/javascript">
<![CDATA[ Los programas JavaScript son insertados aquí ] ]>
</script>

• Restricciones adicionales de anidación


HTML tiene algunas reglas de base relativas a la anidación de los
distintos elementos de marca. Por ejemplo, no es oportuno poner un
elemento p dentro de otra etiqueta p, o no se debería insertar un
elemento a nivel de bloque dentro de un elemento en línea.
Por su parte, en XHTML existen reglas adicionales que tienen como
finalidad permitir que las etiquetas sean interpretadas
correctamente.
1. El elemento ancla no debe contener otros elementos anclas.
2. El elemento pre no debe contener elementos img, object, big,
small, sub o sup.
3. El elemento button no debe contener los elementos: input,
select, textarea, label, button, form, fieldset, iframe e isindex .
4. Los form no deben contener otros elementos form.
Espacio nominal o de nombres (namespace) e idioma
Ya que el XML permite el uso de más lenguajes dentro de un mismo
documento, es posible que se verifique una sobreposición de los
nombres de los elementos.
Por ejemplo, un elemento “a” podría ser al mismo tiempo un
elemento “ancla” del lenguaje (X)HTML o un eventual elemento
“answer” abreviado, insertado a nivel individual como un nuevo
instrumento de marca. Utilizando el XML namespace, es posible
especificar el tipo de documento creado con el fin de no se verifiquen
errores de interpretación al momento de la visualización final.
Un namespace es una convención establecida en XML para
identificar únicamente el lenguaje usado por un determinado
documento.
Para los documentos XHTML, el xmlns debe ser identificado como
XHTML, utilizando el identificador único para todos los documentos
XHTML, como se destaca en la siguiente estructura .
En un documento XHTML el elemento HTML, a la base de la
estructura del documento, debe ser escrito del siguiente modo:
<html xmlns="http://www.w3.org/1999/xhtml"
lang="en" xml:lang="en">
El atributo xmlns esta por XML namespace.
Los atributos lang y xml:lang representan dos modos para especificar
el idioma de un documento (X)HTML. El valor de estos dos
atributos está constituido por un código abreviado del idioma,
compuesto por dos o tres letras (ej. en, como en el ejemplo anterior).
Es posible visualizar una lista completa de los códigos de idioma en
el siguiente link: http://www.loc.gov/standards/iso639-2/php/code_list.php
Los estándares W3C y los navegadores
No sólo los desarrolladores de sitios tienen que respetar los
estándares comunes en la realización de documentos para la web,
dichos estándares deben también ser respetados por quiénes
desarrollan los navegadores. Los navegadores de nueva generación
deben adaptarse al estándar común establecido por el W3C y, al
mismo tiempo, permitir una correcta visualización de todos aquellos
contenidos ya presentes en red.
Para hacer ambas operaciones, los navegadores pueden operar según
dos modos distintos:
• El modo estándar sigue las reglas establecidas para una correcta
interpretación y visualización del HTML 4.01 y del XHTML 1.0.
• El modo “quirks” o de “peculiaridades” permite a los
navegadores visualizar también aquellos documentos realizados
con una marca errada o no conforme a los estándares. El problema
del uso de este modo es que los distintos navegadores tienen
diversas modalidades de visualización de páginas de este tipo. Por
lo tanto, los mismos documentos podrán ser interpretados y
visualizados cada vez en modo diferente.
Al momento de crear documentos para la web, según los estándares
W3C, es posible comunicar a los navegadores de utilizar
directamente el modo estándar para su interpretación y visualización.
Para comunicar esto es necesario declarar el tipo de documento.
Declarar el tipo de documento
Para declarar el tipo de documento es necesario comunicar al
navegador, en una declaración al inicio del documento, denominada
DOCTYPE, la versión (X)HTML utilizada en la creación del
documento.
Los documentos (X)HTML inician siempre con una declaración
DOCTYPE, relativa al tipo de documento en objeto, con el fin de que
éste sea considerado válido según los estándares comunes.
Mientras al principio ésta declaración podía ser fácilmente omitida,
ahora en el ámbito del desarrollo de los sitios web modernos, es
necesario incluir siempre una declaración DOCTYPE al inicio de
cada documento.
El ejemplo siguiente representa una declaración DOCTYPE que
indica que el documento en objeto fue realizado de acuerdo a las
reglas del HTML 4.01 Strict DTD.
La declaración DOCTYPE debe ser incluida antes de la etiqueta de
apertura <html>
Ejemplo de declaración DOCTYPE

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"


"http://www.w3.org/TR/HTML4.01/strict.dtd">
<html>
...resto del documento...
Ahora veremos los componentes singulares de esta declaración
El símbolo <! comunica al navegador que lo que sigue constituye una
declaración relativa al tipo de documento (un documento de tipo
HTML en este caso) y no un elemento del lenguaje HTML.
La parte PUBLIC "-//W3C//DTD HTML 4.01//EN" indica que éste
es un documento DTD publicado por el W3C, que la DTD describe la
versión 4.01 del HTML y que el idioma utilizado en la DTD es el
inglés.
Finalmente en la declaración aparece el URL relativo a la versión
Strict DTD que sirve como identificador único para aquellos
navegadores que no pueden interpretar otras versiones.
Declaraciones DOCTYPE disponibles
Durante la creación de un documento (X)HTML conforme a los
estándares W3C es suficiente insertar la declaración DOCTYPE
inicial, simplemente copiando una entre aquellas actualmente
disponibles. Utilizando software específicos para el web-authoring,
como por ejemplo Adobe Dreamweaver, también es posible que tales
declaraciones se agreguen de forma automática en la creación de cada
documento.
Es posible visualizar la lista completa de las declaraciones en el
siguiente link: www.w3.org/QA/2002/04/valid-dtd-list.html.
A continuación se enuncian las declaraciones DOCTYPE más
comunes y de mayor utilización según el lenguaje de marcado de
referencia.
• Para HTML Strict
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd">
• Para HTML Transitional
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/html4/loose.dtd">

• Para HTML Frameset


<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Frameset//EN"
"http://www.w3.org/TR/html4/frameset.dtd">
• Para XHTML 1.0 Strict
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">

• Para XHTML 1.0 Transitional


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

• Para XHTML 1.0 Frameset


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Frameset//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-frameset.dtd">
¿Cuál declaración entre aquellas más comúnmente utilizadas se debe
insertar en los documentos (X)HTML apenas creados?
Aprendiendo un lenguaje de marca por primera vez es oportuno
utilizar elementos y atributos no obsoletos, conforme a los estándares
W3C actuales. Por lo tanto, es posible en este caso, hacer referencia a
una “Declaración” HTML 4.01 versión Strict.
Por otra parte, cuando se tiene que administrar páginas web ya
creadas anteriormente, conviene utilizar una “Declaración” de tipo
transitional, ya que algunos elementos del lenguaje utilizado podrían
no respetar los actuales estándares W3C.
HTML o XHTML?
El XHTML constituye sin duda, el futuro del lenguaje de marca
utilizado en el desarrollo de los sitios web.
Los navegadores de futura generación serán ampliamente
compatibles con este lenguaje de marcado.
Es posible ya desde ahora, utilizar directamente este lenguaje de
marca en la creación de nuestros documentos.
Sus precisos requisitos sintácticos hacen que este lenguaje sea más
“legible” mediante el uso de distintos dispositivos.
Muchos aparatos portátiles, como por ejemplo los teléfonos celulares
y los PDA utilizan el XHTML como codificación estándar. Por lo
tanto, las páginas realizadas exclusivamente según los criterios del
XHTML serán más faciles de usar mediante estos dispositivos.
Debido a que se trata de un lenguaje de tipo XML, en los documentos
individuales XHTML es posible combinar los distintos lenguajes
XML.
El XHTML constituye el lenguaje del futuro, en el ámbito del
desarrollo de la red, durante este curso serán tomadas en
consideración sobretodo las rígidas reglas de marca del XHTML.
No obstante, tal elección, es necesario recordar que actualmente el
lenguaje HTML es universalmente soportado.
Otra ventaja de utilizar directamente una rígida sintaxis XHTML es
que será útil también durante el uso de aquellos software dedicados al
web-authoring, ya que sugieren automáticamente partes de la
estructura de un documento XHTML, agilizando enormemente el
trabajo de desarrollo.

Validar los documentos


Validar un documento para la red significa controlar que la sintaxis
del documento sea correcta, que no contenga ningún error y sea
totalmente conforme a la declaración (DTD) escogida.
Los documentos sin errores en la estructura de base serán definidos
válidos. Aquellos documentos (X)HTML válidos serán interpretados
y visualizados correcta y rápidamente por los distintos navegadores.
Serán por lo tanto más accesibles.
Actualmente los navegadores no requieren necesariamente la
“validez” de los distintos documentos para poder visualizarlos.
Por lo tanto, cada navegador tratará de interpretar y visualizar las
páginas web también cuando éstas presenten errores en la estructura
del documento.
Para controlar la “validez” de los documentos realizados es posible
utilizar un validator, un software que controla los documentos fuente,
respecto al DTD que ha sido especificado para ellos.
Un software de este tipo controlará los siguientes elementos relativos
al documento a validar:
• El uso, al inicio del documento, de la declaración DOCTYPE. Sin
ésta, el software no sabrá a qué tipo de documento hacer
referencia.
• El uso de una indicación para la codificación de caracteres del
documento (ver el siguiente párrafo).
• El uso de las reglas y de los atributos necesarios.
• El uso de elementos no conformes a los estándares.
• El uso errado de los elementos de marca.
• Errores de anidación.
• Violaciones de las reglas DTD.
• Errores de digitación.

El W3C ofrece gratuitamente un instrumento para validar los


documentos creados, accesible mediante el siguiente link:
validator.w3.org.
Codificación de caracteres
Debido a que la red está difundida a nivel mundial, existen en ella
formas de escritura distintas, con un enorme número de caracteres
únicos destinados a ser visualizados también en las páginas web. Tal
conjunto de formas y símbolos comprende no sólo los varios
alfabetos (Occidental, Hebreo, Árabe, etc.) sino que también todos
aquellos símbolos pertinentes a las escrituras ideográficas (Chino,
Japonés y Coreano).
Para enfrentar esta diversidad ha sido necesario estandarizar distintos
set de caracteres para ser visualizados siempre de un mismo modo a
través de los ordenadores presentes en la red.
Por ejemplo, el set de 256 caracteres, utilizado sobre todo en relación
a los idiomas occidentales, ha sido estandarizado y definido como
Latin-1 (o ISO 8859-1, para utilizar el código de identificación
“formal”).
El Latin-1 es, por lo tanto, la “codificación de caracteres” ya utilizada
a partir del HTML 2.0 y 3.0, y es posible utilizarla aún hoy en la
realización de documentos para la web.
Unicode
Unicode es un estándar de codificación de caracteres diseñado para
facilitar el tratamiento informático, transmisión y visualización de
textos de múltiples lenguajes y disciplinas técnicas. Además incluye
caracteres que no forman parte de alfabetos como símbolos musicales
y matemáticos, fichas de juegos como el dominó, flechas, iconos, etc.
El Unicode es un estándar en constante evolución y en él se agregan
nuevas escrituras y símbolos continuamente.
El código Unicode asignado a los distintos caracteres se representa
con el prefijo U+, seguido por cuatro (o seis) cifras que constituyen el
número que individualizacada uno de los caracteres.
La codificación Unicode es reconocida y utilizada por los modernos
lenguajes de programación y por los lenguajes de marca usados en el
campo del diseño web.
Los puntos de código de Unicode se identifican por un número
entero. Según su arquitectura, un ordenador utilizará unidades de 8,
16 o 32 bits para representar dichos enteros. Las formas de
codificación de Unicode reglamentan la forma en que los puntos de
código se transformarán en unidades tratables por el computador.
Unicode define tres formas de codificación bajo el nombre UTF o
Formato de Transformación Unicode (Unicode Transformation
Format).
• UTF-8 — codificación orientada a byte con símbolos de longitud
variable.
• UTF-16 —codificación de 16 bits de longitud variable
optimizada para la representación del plano básico multilingüe
(BMP).
• UTF-32 — codificación de 32 bits de longitud fija, y la más
sencilla de las tres.

La codificación más utilizada en la realización de documentos para la


web es sin duda, la UTF-8.
Sin embargo, es posible encontrar en la declaración DOCTYPE
documentos web con codificaciones de tipo UTF-16 o UTF-32.
Es importante destacar que la codificación UTF-8 es la codificación
expresamente recomendada para todos los documentos HTML 4.01,
XHTML, y XML.

Especificar la codificación del carácter


Existen distintos modos para asociar una codificación a un
determinado documento (X)HTML.
• Pedir al administrador del servidor configurar el documento
(X)HTML con el fin de que éste incluya automáticamente la
codificación de carácter en el encabezado http. Tal encabezado
constituye una sección informativa que el servidor asocia a cada
documento web antes de mostrarlo a través del navegador.
Sin embargo, ya que esta información puede ser separada del resto
del documento es oportuno incluir, según los estándares actuales
W3C, tal codificación también dentro del mismo documento.
• En los documentos HTML 4.01 y XHTML 1.0, la codificación de
carácter se indica utilizando un meta-dato que constituye un elemento
vacío que proporciona aquella información específica relativa al
documento, como por ejemplo: su fecha de creación, el autor, los
datos relativos al copyright y sobretodo aquella información
específica relativa a la codificación de los caracteres y al tipo de
documento.
El llamado meta-dato se inserta en el encabezado (head) del
documento, así como se destaca en el siguiente ejemplo relativo a una
estructura XHTML 1.0:
<head>
<meta http-equiv="content-type" 1) content="text/html;
2) charset=utf-8" / >
<title>Documento base</title>
</head>

El atributo http-equiv entrega información específica relativa al tipo


de contenido del documento (content-type). El atributo en cuestión
proporciona tal información en dos secciones distintas:
1. Una primera parte indica que el documento constituye un
documento de texto HTML y, por lo tanto, este valor específico
del atributo http-equiv identifica el tipo de lenguaje utilizado.
Si bien el ejemplo anterior ha sido indicado como ejemplo de
documento XHTML, también en este caso, el atributo reportará
siempre, por razones de compatibilidad relativas al uso de los
navegadores, la indicación HTML.
2. La segunda parte del atributo indica el valor relativo a la
codificación de caracteres usada en el documento: en este caso la
codificación UTF-8.
Veamos un ejemplo relativo a la codificación de los caracteres, se
reporta a continuación la estructura de un meta-dato para un
documento (X)HTML que utiliza una codificación Latin-1 .

<meta http-equiv="content-type"
content="text/html; charset=ISO-8859-1"> //
Los siguientes ejemplos muestran la estructura mínima de marcado,
según los actuales estandartes W3C, necesaria para la publicación de
los documentos HTML 4.01 versión Strict y XHTML 1.0 versión
Strict.
HTML 4.01 Strict

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN"


"http://www.w3.org/TR/html4/strict.dtd">

<html>
<head>
<title>Ejemplo de documento HTML 4.01 Strict </title> <meta http-
equiv="content-type" content="text/html; charset=utf-8">
</head>
<body>
<p>... Contenido del documento ...</p>
</body>
</html>

XHTML 1.0 Strict

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"


"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns = http://www.w3.org/1999/xhtml xml:lang="en" lang="en">
<head>
<title>Ejemplo de documento XHTML 1.0 Strict </title>
<meta http-equiv="content-type" content="text/html; charset=utf-8"/>
</head>
<body>
<p>... Contenido del documento ...</p>
</body>
</html>

Si bien en los ejemplos de estructura (X)HTML contenidos en las


otras unidades didácticas dedicadas al HTML, esta “declaración” no
se indica, es siempre necesario incluirlas dentro de los documentos,
para su publicación y validez efectiva.
FIN DE LA LECCIÓN

Anda mungkin juga menyukai