HTML (lenguaje de marcas), 6ª Parte, Caracteres especiales

Acentos y otros caracteres especiales. Algunos caracteres distintos de los habituales en los lenguajes anglosajones son considerados en el mundo de la informática como caracteres especiales.

Dentro de estos se incluyen las letras acentuadas ni la letra eñe. En los últimos años se ha avanzado mucho en conseguir que cualquier ordenador pueda leer todos los caracteres de todos los idiomas. En concreto es ya poco habitual que no se soporten los caracteres latinos. En cualquier caso es interesante saber que HTML ofrece mecanismos para insertar estos y otros caracteres especiales en aquellos sistemas donde no están soportados.

El mecanismo ofrecido por HTML consiste en unos códigos especiales que todos los navegadores pueden entender. A estos códigos se les llama entidades de caracteres o con el nombre inglés: character entities. Todos estos códigos comienzan por el símbolo ’&’ (ampersand) y terminan con el símbolo ’;’ (punto y coma). Puede distinguirse entre dos tipos:

  • Entidades de caracteres con nombre: son aquellas en las que los símbolos ’&’ y ’;’ se pone el nombre (o abreviatura) asignado a ese carácter. Sólo existen para los caracteres especiales más usados.
  • Entidades de caracteres numéricas: en este tipo de entidades entre ’&’ y ’;’ se escribe el número asignado a ese carácter en el estándar ISO-Latin-1 precedido de una almohadilla: ’#’. Este tipo de entidades son menos usadas que las anteriores aunque tienen la ventaja de abarcar cualquier letra posible en cualquier idioma.

Entidades de caracteres para caracteres españoles.

Sin duda, en España los caracteres considerados cómo especiales en el resto del mundo que más se usan son los acentos, la letra eñe y los símbolos de apertura de interrogación (¿) y admiración (¡).

Entidades de caracteres para caracteres reservados.

En el lenguaje HTML existen una serie de caracteres que tienen un significado especial. La gran mayoría de estos caracteres ya los conocemos y estamos acostumbrados a usarlos para programar un páginaWeb. Algunos de estos caracteres son: , & y “. Pero ¿qué ocurre si se quiere incluir alguno de estos caracteres en alguna página? Por ejemplo, si se desea escribir sobre los formatos lógicos en HTML y se quiere poner la cadena “’<B>’” en una página. Si la se pone tal cual, el navegador la confundirá con una etiqueta más y pondrá el texto siguiente en negrita. ¿Existe entonces alguna forma de escribir el nombre de una etiqueta? La respuesta es, obviamente, SÍ. Y la solución es usar las entidades de los caracteres reservados de HTML en vez del propio carácter.

Otras entidades de caracteres.

Además de las vistas hasta ahora existen otras entidades de caracteres que son de especial utilidad en la creación de páginas Web

Nota

En los archivos extra de este capítulo se incluye un listado de todos los caracteres del conjunto ISO-Latin-1 junto con sus números asociados. Este listado va en el archivo (especial.html [extra/especial.html]), para que pueda ser visualizado con diferentes navegadores y en dos imágenes GIF que corresponden a la visualización de dicho archivo HTML con Internet Explorer ™. (escape.gif y latin1.gif). Esta información esta dividida en dos tablas, en la primera se incluyen todos aquellos caracteres que tienen una entidades de caracter nominal asociada. En una segunda tabla se incluyen todos los caracteres visualizables (por ejemplo el carácter retorno de carro no se puede ver), del ISO-Latin-1 junto con su número asociado. A partir de este número podremos construir la entidades de caracter numérica.

El porqué de los caracteres especiales. Explicación técnica.

En los comienzos de la informática se creó un código llamado ASCII (American Standard Code for Information Interchange) para representar los caracteres. Este código asignaba a cada carácter un número (de 7 bits) que al fin y al cabo es lo único con lo que un ordenador sabe trabajar. Debido al tamaño de ese número (7 bits) ese código constaba únicamente de 128 caracteres que incluía las letras, números y algunos caracteres habituales. Estos caracteres son entendidos en cualquier ordenador y por tanto pueden ser usados con libertad en un documento HTML. Con la evolución y expansión de los ordenadores pronto surgió la necesidad de añadir nuevos caracteres, como por ejemplo aquellos específicos de cada idioma. Por esta razón se crearon extensiones del código ASCII que añadían un bit al número asociado a cada carácter con lo que el número de caracteres representable aumentaba a 256. El problema es que no hubo un acuerdo en este ASCII extendido y se crearon varias versiones en los que había ligeras diferencias. Los documentos HTML pueden tener todo tipo de caracteres pertenecientes al IS-Latin-1 (ISO-8859-1) que es una de estas extensiones. Aún así los caracteres que no pertenezcan al código ASCII de 7 bits deben introducirse con la secuencia de escape correspondiente para evitar problemas con ordenadores que no soporten el ISO-Latin-1 sino otra extensión del ASCII. El próximo estándar del lenguaje HTML (HTML 4.0) ha llevado más lejos la extensión del código ASCII soportando el conjunto de caracteres UNICODE. Este conjunto incluye los caracteres del ASCII (a los que asigna el mismo número y por tanto es compatible), pero añade todos los caracteres de todos los idiomas del mundo (incluidos los chinos y japoneses). Esto es importante porque UNICODE se está imponiendo como uno de los estándares del presente y del futuro.

Un Saludo.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s