Estándares W3C VoiceXML
Juan Carlos Gómez Gómez Daniel Alejandro Ferrándiz Montero Ingeniería Multimedia
Introducción Muchos usuarios encuentran mucho más práctico los servicios automatizados por voz, y en la contaste evolución de la web no ha podido faltar VoiceXML, que se ha convertido en un estandard W3C capaz de darnos la oportunidad de navegar interactuando con el ordenador utilizando exclusivamente nuestra voz, se deja de lado los periféricos como el ratón y el teclado para dar lugar al micrófono. Como si se tratara de una conversación se establecen los roles de emisor y receptor, alternándose entre ordenador y usuario.
Historia AT&T, IBM, Lucent, y Motorola creo el foro de VoiceXML en 1999, antes del septiembre de 1999 el foro lanzó VoiceXML 0.9 y en 2000 publicaron VoiceXML 1.0. El W3C lo acepto como “estandard” en marzo de 2004 en su version 2.0, algo más tarde surgió
la 2.1 añadiendo algunas pequeñas mejoras, las cuales se convirtieron en recomendacion W3C en 2007. Actualmente se esta trabajando en VoiceXML 3.0, el cual utilizará un nuevo idioma descriptivo del statechart de XML llamado SCXML.
¿Qué es? VoiceXML, es un lenguaje destinado al manejo y creación de aplicaciones de voz, que son empleadas para navegar, de forma auditiva en vez de utilizar la forma visual, más convencional y extendida hasta el momento. Los documentos que origina, son los llamados XML (eXtensible Markup Language), que admiten y poseen las características necesarias para dar lugar a la reproducción de sonidos digitales y sintetizados. Posee un tipo de arquitectura no delimitada y de alto nivel de compatibilidades con respecto a las distintas salidas o recursos de la informática e internet.
Componentes
Las aplicaciones de VoiceXML, contienen ciertos componentes, normalmente comunes entre ellos como: El Servidor de aplicaciones que es el encargado al igual que cualquier función de un servidor, de proporcionar y almacenar datos de las aplicaciones e interfaces, para poder facilitarlas a otras externas. Por otra parte, el Servidor de VoiceXML de Telefonía que es una plataforma que actúa como cliente frente al servidor de aplicaciones acabado de mencionar. Éste controla los diálogos producidos en VoiceXML, y los entiende para su control del habla y los diferentes recursos que posee (Como al ADR, o TTS) También posee una red de paquetes TCP / IP basada en la conexión del servidor de aplicaciones y el servidor de telefonía a través de protocolos HTTP. Y a su vez, contiene una red telefónica comúnmente pública (PSTN), aunque no descarta la posibilidad de ser privada (PBX).
Funcionamiento El usuario utiliza su voz para empezar a dar ordenes, de modo VoiceXML pone en marcha su ASR (un sistema encargado de reconocer la voz humana) transformando así la voz en una señal digital formada por 0’s y 1’s.
Una vez se procesa y si es necesario, la máquina puede contestar también mediante voz al usuario, poniendo en marcha el TTS y mediante éste se crean los documentos XML nombrados con anterioridad. ,Para la creación de estos documentos, se utiliza ésta tecnología específica denominada TTS, que es referente a tecnología de síntesis de voz. Y la síntesis de voz consiste en la reproducción de manera no natural, es decir, artificial, del lenguaje natural y su origen proviene de las señales de voz que son generadas por el ordenador, que da lugar a un proceso inverso al ASR, es decir, transforma la señal digital que crea (respuesta) en voz entendible para el usuario.
Aplicaciones VoiceXML esta en expansión, y seguramente tenga cabida en multitud de entornos, actualmente es más usado en servicios telefónicos, un ejemplo claro lo encontramos cuando hacemos llamadas a nuestro operador telefónico, donde una voz nos va pidiendo datos para poder emparejarnos después con una persona real. Otra aplicación importante es en los sistemas de información, incluso en el ámbito turístico, dando la opción de comunicarse con la máquina en múltiples idiomas. Pero además de la comodidad que nos puede proporcionar una navegación mediante VoiceXML nos encontramos con una muy buena opción para dotar a cualquier página web de más usabilidad para gente con problemas de movilidad, incapaces de moverse con la soltura necesaria mediante los periféricos como el ratón y el teclado.
Ejemplo de sintaxis Como ya sabemos, una de las primeras pruebas a la hora de empezar con un lenguaje es el famoso “Hola mundo” que en C++ y Java como ya sabemos sería algo así :
C++ class MainClass { public static void Main() { System.Console.Wr iteLine(“Hello World"); } } Java public class HolaMundo { public static void main(String[] args) { System.out.println(“Hello World");
} }
Y así quedaría en VXML
En http://www.vxml.org/ podemos encontrar ayuda muy util a la hora de desarrollar una aplicacion VXML, equivale a lo que sería la API en Java.
Bibliografia
-
http://www.voicexml.org http://www.scis.ulster.ac.uk/~kevin/top_voi2.html http://www.linguatec.es/products/tts/information/technology http://web-sisop.disca.upv.es/~fsmm/projectes/2k8-2k9/VoiceXML/VoiceXMLPresentacion.pdf http://www.w3.org/TR/voicexml20/ http://www.w3.org/TR/voicexml21// http://www.voxeo.com/library/voicexml.jsp