LMSGI 01.- Reconocimiento de las características de lenguajes de marcas. Sugerencias: http://.ticarte.com/contenido/lenguajes-de-marcas-!-sistemas-de-gestion-de-in"ormacion .a#rirlla$e.com/%ml
1. &ormas de representar la in"ormaci'n.
El ordenador es una máquina digital, por lo tanto sólo es capaz de representar información utilizando el sistema binario de numeración (0 y 1). Esto obliga a que, para pode almacenar información en un ordenador, previamente aya que codificarla en forma de n!meros binarios. "odemos representar la información de dos maneras diferentes#
1. $atos binarios. %ualquier dato que no sea te&to, se considera dato binario. "or e'emplo# m!sica, vdeo, imagen, un arcivo E&cel, un programa, etc. a forma de codificar ese tipo de datos a su forma binaria es muy variable. En cualquier caso sea cual sea la información que estamos codificando en binario,para poder acceder a dica información, el ordenador necesita el soft*are que sepa como decodificar la misma, es decir saber qu+ significa cada dgito binario.
. -e&to plano. El te&to es quizá la forma más umana de representar información. emos comentado que los datos binarios están codificados siguiendo una serie de normas seg!n el tipo de dato que almacene. %on el te&to plano tambi+n e&iste el problema de cómo codificar ese te&to en forma de dgitos binarios para acerlo representable en el ordenador. a forma abitual a sido codificar cada carácter en una serie de n!meros binarios. $e modo que, por e'emplo el carácter car ácter / fuera por e'emplo 01000001 y la el 01000010. "odemos encontrar diferentes códigos para representar caracteres, los más utilizados son# • • •
/%22. 23 4456. 782%3$E.
-e recomiendo que leas el siguiente enlace# ttp#99***.ticarte.com9contenido9que:es:la:codificacion:de:caracteres
-ema 1. "ág. 191
(. )parici'n de los lenguajes de marcas
os arcivos de te&to poseen menos problemas de e&portación.
En el mismo ficero de te&to plano pudiera servir para almacenar otros datos como, por e'emplo, detalles sobre el formato del propio te&to u otras indicaciones.$icas indicaciones son caracteres marcados de manera especial incluidos en los documentos de te&to plano, que an dado lugar a lengua'es (entendiendo que en realidad son formatos de documento y no lengua'es en el sentido de los lengua'es de programación de aplicaciones) llamadoslengua'es de marcas o etiquetas.
* +,u es un lenguaje de marcas Es un m+todo de codificación de documentos en el que, 'unto al te&to, se a;aden etiquetas (marcas) con información adicional.
<= (E&tensible =ar>up anguage) es un lengua'e de marcas, más bien , define con'unto de reglas que debe cumplir cualquier lengua'e de marcas a partir de 1664. . +ara u sir$e 2ML -odos los usos de <= se basan en el almacenamiento y distribución de información. •
2ntercambio y almacenamiento de información entre aplicaciones. El eco de que <= almacene información mediante documentos de te&to plano tiene las siguientes venta'as# ?acilita que se utilice como estándar, ya que no se requiere soft*are especial para leer su contenido, es te&to y es entendible por cualquier soft*are. e crean documentos inocuos (no pueden contener código maligno como virus o espas), con lo que la seguridad de esos sistemas es total. 2nformación empresarial# <= es un formato que tiene cada vez más importancia para generar documentos empresariales por la facilidad de estructurar los datos de la forma más apropiada para la empresa. 7n documento <= se parece muco a una peque;a base de datos, con la venta'a de que es muy fácil darle formato de salida por pantalla o impresión. •
•
•
3. 4tiuetas 5tags6 o Marcas 5mar7-up6. as etiquetas son marcas que sirven para identificar un contenido concreto del resto del contenido del documento. 7na etiqueta empieza con el carácter @A@, le continua un nombre identificativo, y termina con el carácter @B@. E&isten tres tipos de etiquetas#
Etiquetas de apertura (start:tag).
Etiquetas de cierre (end:tag), que empiezan por @9@.
Etiquetas vacías (empty:tag), que terminan por @9@.
-ema 1. "ág. 91
8. 4lementos 5elements6.
7n elemento es un componente lógico de un documento <= que o bien comienza por una etiqueta de apertura y termina por la etiqueta de cierre correspondiente, o bien consiste en una !nica etiqueta vaca. El contenido de un elemento es todo lo que se encuentra entre las etiquetas de apertura y cierre, que puede ser te&to o incluso otros elementos. -ambi+n e&isten elementos vacos, los cuales no tienen contenido. Elemento con te&to como contenido#
TicArte
Elemento con otros elementos como contenido#
TicArte EL elemento tambien se le conoce como nodo.
C. 4lementos $acíos as etiquetas pueden estar vacas. "or e'emplo# AtituloBA9tituloB
7na versión reducida sera# Atitulo9B
9. )tri#utos (attributes).
"ermiten a;adir propiedades a los elementos de un documento. 7n atributo es un componente de las etiquetas que consiste en una pare'a nombre (name) 9 valor (value). e puede encontrar en las etiquetas de apertura o en las etiquetas vacas, pero no en las de cierre. En una misma etiqueta no pueden e&istir dos atributos con el mismo nombre.
a sinta&is es siempre nombreAtributo="valorAtributo" .
. Instrucciones de procesamiento.
7na instrucción de procesamiento en una etiqueta que empieza por @AD@ y acaba por @DB@ y que contiene instrucciones dirigidas a las aplicaciones que leen el documento. o normal es encontrarlas al comienzo del documento. "ara declarar un documento del tipo <=# <!ml ersion="#.$" encodin%="utf-&">
-ema 1. "ág. 91
10. ;omentarios.
7n comentario es una etiqueta que comienza por @AF::@ y acaba por @::B@.
os comentarios no pueden estar dentro de elementos.
11. 4structura de un documento 2ML
os documentos <= están formados por una parte opcional llamada prólogo y otra parte obligatoria llamada cuerpo. 8ada me'or que observar un documento <=. AD&ml
[email protected]@ encodingG@iso:4456:1@ standaloneG@yes@DB AF$3%-H"E libroB AlibroB AtituloB$on Iui'ote A9tituloB AautorB%ervantesA9autorB AeditorialBEdiciones -arariA9editorialB AisbnB1J5KC46A9isbnB AedicionB1A9edicionB ApaginasB5KCA9paginasB A9libroB /ora, en los siguientes puntos analizaremos las distintas partes del documento.
1(. r'logo
En nuestro e'emplo estara formado por estas dos lneas# AD&ml
[email protected]@ encodingG@iso:4456:1@ standaloneG@yes@DB AF$3%-H"E libroB 2ndican la versión de <=, los caracteres utilizados, si el documento es independiente (standalone) y el tipo de documento estamos creando para ser procesado correctamente. os documentos <= pueden estar codificados en distintos 'uegos de caracteres (23:4456:1, 7-?:4, etc) a declaración del tipo de documento ($3%-H"E) más simple identifica solo el elemento raz del documento.
1* ;uerpo 5ejemplar6
os datos del documento <= están dentro de lo que se conoce como cuerpo. En el e'emplo anterior se trata de todo lo que está entre AlibroB y A9libroB, incluyendo ambas etiquetas. En nuestro caso a este elemento LlibroM se conoce como raz del documento. -ema 1. "ág. J91
El cuerpo es el elemento AlibroB, a su vez está compuesto por los elementos AautorB, AeditorialB, AisbnB, AedicionB y ApaginasB. /lgunos elementos pueden tener atributos (propiedades adicionales de los elementos). "or e'emplo# N Alibro tipoG@manual@BN 3bserva que, en este caso, lo emos llamado tipo y tras el smbolo de igual e puesto LmanualM entre comillas. 7n documento <= va a tener la estructura lógica de un árbol de nodos, en el que los nodos van a ser los elementos del documento. 1. 4structura del cuerpo
El nodo raí< es el !nico nodo sin padre. os nodos hermanos son los nodos que tienen el mismo padre.
3tros conceptos# 8odos descendientes 8odos ascendientes • •
-ema 1. "ág. 591
E'emplo 1. %rea un documento &ml a parartir de la siguiente imagen#
+;'mo crear el documento
"uede relizarse con un simple editor de caracteres (o de te&to), como por e'emplo, el bloc de notas. 3 me'or a!n, con editores especializados que facilitan su edición. $escarga notepad en la siguiente dirección# ttps#99notepad:plus:plus.org9do*nload9vK.6..tml El ficero de te&to plano deberá tener la e&tensión &ml. %rear el ficero e'emplo1.&ml utilizando el editor de te&to. 13 +;'mo sa#er si el documento es sint=cticamente correcto Es lo que se denomina documento bien formado.
"ara que un documento <= se considere @bien formado@ (*ell formed) debe cumplir las reglas de sinta&is de la recomendación <=, entre las que se encuentran las siguientes# • • •
•
•
El documento contiene !nicamente caracteres válidos. os caracteres @A@ y @FcO@ sólo se utilizan como comienzo de etiquetas. as etiquetas de apertura, de cierre y vacas están correctamente anidadas, es decir, no se solapan. e deben cerrar primero las etiquetas de los !ltimos elementos abiertos. ay un elemento raz que contiene al resto de elementos que forman la estructura de datos de un árbol. os nombres de las etiquetas y de sus atributos comenzarán con una letra, pudiendo -ema 1. "ág. K91
•
• • • • • •
utilizarse a continuación más letras, n!meros, guiones altos (:), guiones ba'os (P), puntos, pero nunca contandrán espacios en blanco. as etiquetas de cierre coinciden con las de apertura, incluso en el uso de may!sculas y min!sculas. as etiquetas de cierre no contienen atributos. 8inguna etiqueta tiene dos atributos con el mismo nombre. El nombre de los atributos sigue las mismas reglas que el nombre de las etiquetas. -odos los atributos tienen alg!n valor. os valores de los atributos están entre comillas, dobles o simples. 8o e&isten referencias en los valores de los atributos.
i un documento <= no está bien formado, no se considera un documento <=. 7n documento <= puede codificarse con un simple editor de caracteres (como el bloc de notas). 3 me'or a!n, con editores especializados que facilitan su edición. 2ncluso, llegan a verificar la propia sinta&is del documento. %omo por e'emplo, 2ML ;op! 4ditor, ideal para el estudio y aprendiza'e del módulo. 3s propongo que lo descargu+is, es una erramienta muy !til. En la siguiente página pod+is encontrar la versión a descargar seg!n vuestro sistema operativo y máquina. ttp#99&ml:copy:editor.sourceforge.net9 $e momento sólo ten+is que comprobar que el documento esta @ien ?ormado@ , es decir, que es correcto con respecto a las normas de los documentos <=.
-ema 1. "ág. C91
18. +,u cosas est=n esta#lecidas por de"ecto i no se especifica el encoding por defecto es# @7-?:4@
H si no es especifica standalone por defecto es @no@. Este valor (no) e&presa que el documento no es independiente. Es decir, que necesita de otro para poder ser procesado. Qeremos esto, por e'emplo, cuando estudiemos los arcivos $-$ a los que puede asociarse un documento <=.
1C. 4ntidades (entities) y Re"erencias a entidades# 7na entidad consiste en un nombre y su valor (son similares a las constantes en los lengua'es de programación). $os tipos de entidades # entidades definidas por el usuario y las predefinidas. as entidades definidas por el usuario se definen mediante la etiqueta E8-2-H. <'E(T)T* web "TicArte">
7na referencia a una entidad empieza con el caracter @O@, sigue con el nombre de la entidad y termina con @R@. /l abrir el documento <= el procesador sustituye la referencia a la entidad por su valor.
+web,
El procesador <= la convertira en#
TicArte
E&isten entidades predefinidas, necesarias para poder utilizar los caracteres que delimitan las marcas o las cadenas de te&to, mostradas en la siguiente tabla#
Seferencia a entidad %arácter OltR
A
OgtR
B
OampR
O
OaposR
T
OquotR
@
E'emplo de su uso, en un documento <=, el carácter @A@ es problemático porque indica el comienzo de una etiqueta. "or tanto, en vez de escribir, por e'emplo#
a
abra que utilizar la referencia a entidad OltR escribiendo# a+lt,b
El carácter @B@ s puede utilizarse en el te&to contenido en un elemento, se recomienda acer uso de su referencia a entidad (OgtR). -ema 1. "ág. 491
El carácter ampersand @O@ tambi+n es problemático, ya que se utiliza para indicar el comienzo de una referencia a entidad. "or e'emplo, no es correcto escribir# a==# ++ b==
En su lugar se debe escribir lo siguiente# a==# +amp,+amp, b==
i el valor de un atributo se escribe entre comillas dobles (@), dico valor no podrá contener dico carácter. "or e'emplo, no es correcto escribir#
"ara ello, ay que utilizar la referencia a entidad OquotR como se muestra a continuación#
$e igual modo ocurre con la comilla simple (T).
"or otro lado, los valores de atributos escritos entre comillas dobles (@) s pueden contener al carácter comilla simple (T) y a la inversa. En estos casos, no es obligatorio usar las referencias a entidades, pero s recomendable. 19. >erramientas de edici'n. Para trabajar en XML es necesario editar los documentos y luego procesarlos, por tanto tenemos dos tipos de herramientas: Editores XML Una característica de los lenguajes de marcas es que se basan en la utilizacin de !icheros de te"to plano por lo que basta utilizar un editor de te"to# Procesadores XML Para interpretar el cdigo XML se puede utilizar cualquier na$egador# Los procesadores de XML permiten leer los documentos XML y acceder a su contenido y estructura#
-ema 1. "ág. 691
4jemplo( . %rea el ficero e'emplo.&ml con un suspuesto "edido con el siguiente te&to de manera que el marcado posibilite las b!squedas de información seg!n los siguientes campos# destinatario del pedido, artculo pedido, dirección de entrega, feca de entrega.
"edido para el se;or Uuan $elgado =artnez. El pedido se compone de una bicicleta /0. / entregar en la calle arco J, tercer piso, letra /, el da 16:5:000.
4jemplo*. Escribir un documento <= (e'emplo.&ml) que represente la estructura y los datos que se muestran en el siguiente diagrama#
%ompletar el contenido del documento para que el te&to completo sea el siguiente (tres párrafos en total)# Vola qu+ talD ace muco tiempo que no escribes. / ver si llamas y quedamos pronto. 7n saludo. • • •
4jemplo. Escribir un documento <= que represente la siguiente información sobre la carte del men! de desayunos de un restaurante#
-ema 1. "ág. 1091
4jemplo3. Escribir un documento <= para recoger la siguiente información sobre árboles#
/cer monspessulanum 8ombre com!n# /rce de =ontpellier, /rce menor Qegetación# %aducifolio /ltura# $e K a 10 metros ?orma y estructura# %opa esf+rica. -ronco principal recto con bifurcaciones. Sama'e colgante %olor en primavera# az verde brillante, env+s verde blanquecino Sesistencia a las eladas# eladas fuertes (asta :15W%) • • • •
• •
3lea europea • • • •
8ombre com!n# 3livo Qegetación# "erenne /ltura# $e 4 a 15 metros ?orma y estructura# %opa irregular. -ronco principal irregular con bifurcaciones.
Sama'e tortuoso • •
%olor en primavera# az verde oscuro, env+s verde plateado Sesistencia a las eladas# eladas medias (asta :10W%)
"latanus orientalis • • • • • • •
8ombre com!n# "latano Qegetación# %aducifolio /ltura# $e 0 a 5 metros ?orma y estructura# %opa ovoidal. -ronco principal recto. Sama'e e&pandido %olor en primavera# az verde medio, enves verde claro %olor en oto;o# 3cre Sesistencia a las eladas# eladas fuertes (asta :0W%)
Iuercus ile& • • • •
•
•
8ombre com!n# Encina Qegetación# "erenne /ltura# En torno a 5 metros ?orma y estructura# %opa esf+rica o elptica irregular. -ronco principal recto. Sama'e tortuoso %olor en primavera# "lateado en o'as 'óvenes. En o'as antiguas, az verde oscuro, env+s plateado Sesistencia a las eladas# eladas fuertes (asta :15W%)
-ema 1. "ág. 1191
4jemplo8. $ecir si los siguientes documentos <= están bien formados, y, si no lo están, decir por qu+ y corregir los errores.
Enunciado documento 1:
AD&ml [email protected]@DB
Mi Primer documento XML
Comienza con la etiqueta continuacion colocamos un elemento sin contenido
Enunciado documento 2:
AD&ml [email protected]@DB
'l (uiote 's el m
-ema 1. "ág. 191