FIEE – FIEE – UNMSM. UNMSM. Muñasqui. Radiodifusión – Radiodifusión – Algoritmo Algoritmo MPEG-4
.
ALGORITMO AL GORITMO MPEG-4 MPEG-4 Andres Onofrio Muñasqui Paredes
[email protected]
aplicaciones multimedia. Es aquí, donde MPEG (Moving Pictures Experts Group) se abocó al desarrollo del estándar MPEG-4, proveyendo una plataforma común para un amplio rango de aplicaciones multimedia [3]. MPEG ha estado trabajando en este desarrollo desde 1993, después de 6 años, un Estándar Internacional ha adoptado finalmente la cobertura de la p rimera versión de MPEG-4. [4]
RESUMEN: El estándar MPEG-4, definido en ISO/IEC 14496-2, es desarrollado para proveer a los usuarios un nuevo nivel de interacción con los contenidos visuales. Provee tecnología para ver, acceder, y manipular objetos más allá que píxeles, con una gran solidez ante errores en tasas de bit elevadas. Los campos de aplicación varían desde televisión digital, transmisión de video, hasta multimedia móvil y juegos. Provee herramientas para codificación de forma, estimación de movimiento y compensación, codificación de texturas, resiliencia a errores, codificación de sprites y escalabilidad. La codificación de forma se hace en modo binario, la forma de cada objeto es descrita por una máscara binaria; la compensación de movimiento está basada en bloques, con modificaciones para los límites del objeto; la de la textura se basa en 8x8 DC, y así el resto. Los puntos de conformidad están definidos en el Perfil Simple, el Perfil Núcleo, y el Perfil Principal
2 VISTA GENERAL 2.1 MOTIVACIÓN El video digital está reemplazando al analógico en muchas aplicaciones existentes. Un ejemplo es la introducción de la televisión digital, que empieza un amplio despliegue. Otro ejemplo fue el reemplazo del antiguo VHS por el DVD para la visualización de películas. MPEG-2 ha sido uno de las tecnologías clave que permitió la aceptación de esos nuevos formatos. En estas aplicaciones existentes, el video digital pareciera no diferir mucho en funcionalidad con el video análogo, pero hay obvios beneficios como una mejora de calidad y confiabilidad, aunque el contenido sea el mismo desde el punto de vista del usuario. Sin embargo una vez en contenido está en el dominio digital, nuevas funcionalidades pueden ser añadidas fácilmente, que permitirá al usuario interactuar en nuevas formas con el contenido. MPEG-4 provee las tecnologías clave que permitirá tales funcionalidades
PALABRAS CLAVE : MPEG4, estándar, compresión, codificación, multimedia.
1 INTRODUCCIÓN La multimedia está en la prioridad de la creciente atención de las telecomunicaciones, los usuarios finales, y la industria de computadoras. En un amplio sentido, la multimedia es asumida como un marco de trabajo general para la interacción con información disponible de diferentes fuentes, incluyendo video.
2.2 . ÁREAS DE APLICA CIÓN
Un estándar multimedia debe proveer soporte para un gran número de aplicaciones. Estas se trasladan en conjuntos específicos de requisitos los cuales pueden ser muy diferentes uno del otro. Un tema común para la mayoría de aplicaciones es la necesidad de soporte de interactividad con diferentes tipos de información. Las aplicaciones relacionadas a información visual pueden ser agrupadas en la base de diferentes características:
2.2.1 TV DIGITAL Con el crecimiento de la Internet, se aumentó la capacidad del usuario de controlar gráficos, audio, imágenes y texto, para un valor agregado de ciertos programas, o proveer información útil al televidente pero no necesariamente relacionado con el programa que se está viendo. La capacidad de enlazar y sincronizar eventos con video mejora la experiencia de usuario. La codificación y representación de no sólo tramas de video, sino objetos individuales en pantalla, han abierto las puertas a formas totalmente nuevas de la programación en televisión
Tipo de data (imagen data (imagen fija, video, etc.) Tipo de fuente (imágenes (imágenes naturales, naturales, imágenes por computadora, etc.) Tipo de comunicación: desde punto a punto hasta multipunto a multipunto Tipo de funcionalidades deseadas: manipulación de objetos, edición en tiempo real, etc.)
2.2.2 MULTIMEDIA MÓVIL La enorme popularidad de los smartphones nos smartphones nos dan la idea del interés en las comunicaciones móviles y computación. Usando multimedia en estos dispositivos mejoraría la experiencia de usuario. Estrechos anchos de banda, capacidad computacional limitada, y confiabilidad
Los estándares de video MPEG-1[1] y MPEG-2 [2], aunque perfectamente adecuados en ambientes para los cuales fueron diseñados, no son necesariamente flexibles para manejar eficientemente los requisitos de las
1
FIEE – UNMSM. Muñasqui. Radiodifusión – Algoritmo MPEG-4
. de la transmisión son limitaciones que van siendo superadas a grandes pasos, ya que hablamos de un estándar que tiene una mejor eficiencia de codificación y una gran flexibilidad en la asignación de recursos computacionales.
de las más importantes novedades que aporta el estándar. Basado en una representación eficiente de objetos, como su manipulación, edición en flujo de bits, y escalabilidad basada en objetos permite nuevos niveles de interactividad de contenido.
2.2.3 PRODUCCIÓN DE TV
3) Acceso Universal: La robustez en entornos propensos a error permite al contenido codificado en MPEG-4 ser accesible sobre un amplio rango de media, como redes móviles así como las cableadas. En adición, la escalabilidad temporal y espacial basada en el objeto permite al usuario decidir donde usar recursos, como pueden ser el ancho de banda disponible.
La creación de contenido ahora está volcada en técnicas de producción virtuales como extensiones al ya conocido chroma keying. La escena y actores son grabados por un lado, y puede ser mezclado con efectos computacionales adicionales y efectos especiales. Codificando los objetos de videos en vez de cuadros de videos rectangulares y lineales, y permitiendo acceso a los objetos de video, la escena puede ser renderizada con mayor calidad y flexibilidad. La televisión que consiste en objetos de videos compuestos, y audio y gráficos adicionales, pueden ser transmitidos directamente al usuario.
2.2.4 JUEGOS La popularidad de los juegos demanda mayor interacción del usuario. Muchos juegos diseñados en 3D se vuelven más realistas con la adición de objetos de video bajo técnicas de superposición. Es posible personalizar, por tanto, los juegos mediante el uso de bases de información de videos enlazados en tiempo real en el mismo. Figura 1. Funcionalidades ofrecidas por el estándar visual MPEG-4
2.2.5 TRANSMISIÓN DE VIDEO
Para soportar algunas de estas funcionalidades, MPEG-4 debe proveer la capacidad de representar arbitrariamente objetos de video con forma definida. Cada objeto puede ser codificado con diferentes parámetros y a diferentes calidades. La forma de un objeto de video puede ser representado en MPEG-4por un plano binario o a nivel de grises. La textura es codificada aparte de su forma. Para aplicaciones de baja tasa de bits, se puede usar la codificación basada en cuadro, como en MPEG-1 y MPEG-2. Para aumentar la robustez a los errores, son tomadas en cuenta previsiones especiales en el nivel del flujo de bits para permitir una rápida re sincronización, y una recuperación eficiente ante errores.
El streaming de video en la Internet es más popular que nunca. Actualizaciones de noticias, redes sociales, conciertos, etc. Aquí, el ancho de banda es limitado por el uso de módems, y la confiabilidad dela transmisión es un problema, ya que pueden ocurrir pérdidas de paquetes. Con una mejorada resiliencia a errores y mejor eficiencia de codificación, MPEG-4 alivia tales problemas.
2.3 CARACTERÍSTICAS El estándar MPEG-4 consiste en un conjunto de herramientas que permiten aplicaciones al soportar muchas clases de funcionalidades. Las más importantes cubiertas por este estándar pueden ser agrupadas en 3 categorías, como se ve en la Figura 1, y resumida como sigue: 1)
2)
Eficiencia de compresión: Este concepto ha sido la premisa principal para MPEG-1 y MPEG-2, y ahora en sí mismo ha permitido aplicaciones como TV Digital y DVD. La mejorada eficiencia de codificación de flujos de datos concurrentes múltiples aumenta la aceptación de aplicaciones basadas en el estándar MPEG-4
El estándar MPEG-4 ha sido explícitamente optimizado para tres rangos de tasa de bits 1) 2) 3)
Interactividad basada en contenido: Codificando y representando objetos de video en vez de cuadros, permite aplicaciones basadas en contenidos. Es una
Debajo de 64 kbit/s 64-384 kbit/s 348-4 Mbit/s
Para aplicaciones de alta calidad, altas tasas de bits son también soportadas mientras se use el mismo set de herramientas y la misma sintaxis
2
FIEE – UNMSM. Muñasqui. Radiodifusión – Algoritmo MPEG-4
. correspondiente a otro objeto o fondo de la escena
de flujo de bits para los disponibles en las tasas de bits más bajas.
MPEG-4 provee soporte para material entrelazado y progresivo. El formato de crominancia que es soportado es 4:2:0. En este formato el número muestras de Cb y Cr son la mitad del número de muestras de las de la luminancia tanto en horizontal como en vertical. Cada componente puede ser representada por un número de bits variante de 4 a 12.
2.4 ESTRUCTURA Y SINTAXIS El concepto central definido por el estándar MPEG4 es el objeto audiovisual, el cual es el fundamento de la representación basada en objeto. Tal representación está acondicionada para aplicaciones interactivas y da acceso directo a los contenidos de le escena. Nos limitaremos principalmente a objetos de video natural. Un objeto de video puede consistir de una o más capas para soportar la codificación escalable. Esta sintaxis escalable permite la reconstrucción del video en forma de capas partiendo de una capa base autónoma, y agregando una serie de capas de mejora. Esto permite a las aplicaciones generar un único flujo de bits de video MPEG-4 para una variedad de requisitos de ancho de banda y/o computacionales. Un caso especial es donde un alto grado de escalabilidad es requerida, y ocurre cuando una imagen estática es mapeada en 2 o 3 objetos dimensionales. Para manejar esta funcionalidad, el estándar provee un modo especial para codificar texturas estáticas usando una transformación ondícula.
Figura 2. Ejemplo de una estructura lógica de flujo de bits de video en MPEG-4
Una escena visual MPEG-4 puede consistir de uno o más objetos de video, cada uno de ellos es caracterizado por información espacial y temporal en los aspectos de su forma, movimiento, y textura. Para ciertas aplicaciones, los objetos de video pueden no ser deseables, debido a posible dificultad de generarlos. Para esas aplicaciones, el estándar permite las codificaciones de cuadros rectangulares los cuales representan un caso degenerado de un objeto formado arbitrariamente.
Hay 2 tipos de capas de objetos de video, la capa de objeto de video que provee funcionalidad completa MPEG-4, y una capa de funcionalidad reducida, la capa de objeto de video con cabeceras cortas. El último provee compatibilidad de flujo de bits con la línea base H.263. [5] Cada objeto de video es muestreado en tiempo, cada muestra de tiempo de un objeto de video es un plano de objeto de video. Estos puedes ser agrupador para formar un conjunto de planos de objetos:
Un flujo de bits visual en MPEG-4 provee una descripción jerárquica de una escena visual como se muestra en la Figura 2. Cada nivel de la jerarquía puede ser accedido in el flujo de bits por códigos especiales llamados códigos de inicio. Los niveles jerárquicos que describen la escena más directamente son:
Capa de objeto de video (VOL) : Cada objeto de video puede ser codificado en forma escalable (multicapa), o no escalable (capa única), dependiendo de la aplicación, representado por el VOL. Provee soporte para codificación escalable. Un objeto de video puede ser codificado usando escalabilidad temporal o espacial, yendo desde grandes a finas resoluciones. Dependiendo de parámetros como ancho de banda disponible, potencia computacional, y preferencias de usuario, la resolución deseada puede ser hecha disponible para el decodificador
Secuencia de objeto visual (VS): La escena completa MPEG-4 que puede contener cualquier objeto natural o sintético 2D o 3D y sus correspondientes capas de mejora.
Objeto de video (VO): Un objeto de video corresponde a un objeto 2D en par ticular en la escena. En el caso más simple, esto puede ser un cuadro rectangular, o un objeto formado arbitrariamente
3
Grupo de planos de objetos de video (GOV): Proveen puntos en el flujo de bits donde los planos de objetos de video son codificados independientemente de cada otro, y por tanto proveer puntos de acceso aleatorio dentro del flujo de bits. Los GOV son opcionales. Plano de objeto de video (VOP) : Es la muestra en tiempo de un objeto de video. Pueden ser codificados independientemente de cada otro, o dependiente de otro por el uso de compensación de movimiento. Un cuadro
FIEE – UNMSM. Muñasqui. Radiodifusión – Algoritmo MPEG-4
. de video convencional puede ser representado por un VOP con forma rectangular.
3 HERRAMIENTAS DE CODIFICACIÓN DE FORMA
Un plano de objeto de video puede ser usado en muchas maneras. La más común es en la que el vop contiene la información de video codificada de una muestra de tiempo de un objeto de video. En ese caso contiene parámetros de movimientos, información de forma e información sobre la textura. Puede también codificarse un sprite. Un sprite es un objeto de video que es usualmente más grande que el video mostrado, y persiste en el tiempo. Hay maneras de modificar ligeramente un sprite, cambiando su brillo o transformándolo en una deformación espacial. Es usado para representar, más o menos áreas estáticas, como fondos. Los sprites son codificados usando macro bloques.
En el estándar visual MPEG-4, 2 clases de información de forma son considerados como inherentes características de un objeto de video. Estos están referidos como la información de forma de escala de grises, y la binaria. Por esta última, se quiere decir de una información de etiqueta que define qué porciones (píxeles) del soporte del objeto pertenece al objeto de video en un tiempo determinado. La información de forma binaria es mejor representada como una matriz con el mismo tamaño que la de la VOP. Cada elemento de la matriz puede tomar uno de dos posibles valores dependiendo de si el píxel está dentro o fuera del objeto de video. La forma en escala de grises es una generalización del concepto de forma binaria, proveyendo una posibilidad de representar objetos transparentes, y reducir los efectos de aliasing. Aquí, la información de forma es representada en 8 bits, en vez de un valor binario.
Un macro bloque contienen una sección de la componente de luminancia y los componentes sub muestreados espacialmente de la crominancia. En el estándar MPEG-4 hay soporte para sólo un formato de crominancia para un macro bloque, el formato 4:2:0. En este formato, cada macro bloque contiene 4 bloques de luminancia y 2 de crominancia. Cada bloque contiene 8x8 pixeles, y es codificado usando la transformada DCT. Un macro bloque lleva la información de forma, movimiento y textura.
3.1 CODIFICACIÓN DE FORMA BINARIA La información de forma binaria es codificada por una técnica de bloque compensado de movimiento permitiendo codificación con o sin pérdidas de tal información. En MPEG-4, la forma de cada VOP es codificada junto con sus otras propiedades (textura y movimiento). Para este fin, la forma de un VOP es limitada por una ventana rectangular con un tamaño de múltiplos de 16 píxeles en direcciones vertical y horizontal. La posición del rectángulo limitante puede ser elegida de tal manera que contenga en mínimo número de bloques de 16x16 sin píxeles transparentes. Las muestras en la caja limitante son luego particionadas en bloque de 16x16 muestras y el proceso de codificación/decodificación se realiza bloque por bloque.
La Figura 3 muestra el diagrama de bloques general de la codificación y decodificación de MPEG-4 basado en la noción de los objetos de video. Cada uno de estos es codificado separadamente. Por razones de eficiencia y retro compatibilidad, los objetos de video son c odificados por medio de sus correspondientes planos de objetos de video en un esquema híbrido de alguna manera similar a los anteriores estándares MPEG. La Figura 4 muestra un ejemplo de decodificación de un VOP.
La matriz binaria representando la forma de un VOP es referido como una máscara binaria. Aquí, cada píxel perteneciente a la VOP se establece a 255, y todos los otros píxeles a cero. Luego es particionada en bloques alfa binarios (BAB) de 16x16. Cada BAB es codificado separadamente. Empezando de cuadros rectangulares, es común tener BABs con todos los píxeles del mismo valor, 0 (bloque transparente) o 255 (bloque opaco). El algoritmo de compresión de forma provee muchos modos para codificar un BAB. Las herramientas básicas para codificar BABs son el algoritmo de Codificación Aritmética basada en Contexto (CAE) [6], y compensación de movimiento. InterCAE y IntraCAE son variantes del algoritmo CAE usado con y sin compensación de movimiento, respectivamente. Cada modo de c odificación de forma soportada por el estándar es una combinación de estas herramientas básicas. Los vectores de movimiento pueden ser calculados buscando la mejor posición concordante (dado por ea suma mínima de diferencias absolutas). Los vectores de movimiento por sí mismos son codificados diferencialmente. Cada BAB puede ser codificado en uno de los siguientes modos:
Figura 3. Diagrama de bloques general de un video MPEG-4
Figura 4. Ejemplo de decodificación basada en VOP en MPEG-4
4
FIEE – UNMSM. Muñasqui. Radiodifusión – Algoritmo MPEG-4
. 1)
2)
3) 4)
5)
6) 7)
El bloque es etiquetado como transparente. En este caso, no es necesaria la codificación. La información de textura tampoco es codificada para cada bloque. El bloque es etiquetado como opaco. Una vez más, la codificación de forma no es necesaria para tales bloques, pero la información de textura necesita ser codificada (ya que ellos pertenecen al VOP) El bloque es codificado usando IntraCAE sin uso de información pasada. La diferencia de vector de movimiento (MVD) es cero pero el bloque no es actualizado. MVD es cero y el bloque es actualizado. Inter CAE es usado para codificar la actualización del bloque. MVD no es cero, pero el bloque no es codificado. MVD no es cero, y el bloque está codificado.
basado en bloque, similar al de la codificación de textura, permitiendo sólo codificación con pérdidas. La codificación de forma de escala de grises también hace uso de codificación de forma binaria para codificar su soporte.
4 ESTIMACIÓN DE HERRAMIENTAS COMPENSACIÓN
2) 3)
Y DE
La estimación del movimiento y compensación son comúnmente usadas para comprimir secuencias de video usando redundancias temporales entre cuadros. Las aproximaciones para compensación por movimiento en MPEG-4 son similares a aquellos usados en otros estándares. La principal diferencia es que las técnicas basadas en bloques usadas en los otros estándares han sido adaptadas para la estructura VOP usada en MPEG4. El estándar provee 3 nodos para codificar un VOP de entrada, como se muestra en la Figura 6, a nombrar:
El algoritmo CAE es usado para codificar píxeles en BABs. El codificador aritmético es inicializado al comienzo del proceso. Cada pixel se codifica como sigue: 1)
MOVIMIENTO
1)
Se calcula un número contexto de acuerdo a la definición de la Figura 5. Se indiza una tabla de probabilidad usando este número de contexto. Se usa la probabilidad obtenida para manejar el codificador aritmético para la asignación de palabra clave
2)
3)
Un VOP puede ser codificado independientemente de cualquier otro VOP. En este caso, el VOP codificado se denomina Intra VOP (I-VOP) Un VOP puede ser predicho (por compensación de movimiento) basado en otro VOP decodificado previamente. Tales son los VOP Predichos (P-VOP) Un VOP puede ser predicho en base a VOPs pasados así como futuros. Tales son denominados VOPs Interpolados Bidireccionales (B-VOP). Estos pueden sólo ser interpolados basados en I-VOP o PVOPs.
Obviamente, la estimación por movimiento es necesario sólo para codificar P-VOPs y B-VOPs. La estimación es realizada solo para macro bloques en la caja límite del VOP en cuestión. Si un macro bloque yace enteramente en un VOP, la estimación es realizada en la forma usual, basado en coincidencias de bloque de macro bloques 16x16, así como 8x8 bloques (en modo de predicción avanzada). Esto resulta en un vector de movimiento para el entero macro bloque, y uno por cada uno de sus bloques. Los vectores de movimiento son calculados a precisión de media muestra.
Figura 5. Número contexto seleccionado para codificación de forma InterCAE (a) y Intra CAE (b). Para cada caso, el píxel a s er codificado está marcado por un círculo, y los píxeles contexto están marcados c on cruces. En el InterCAE, parte de los píxeles c ontexto son tomados de los bloques alrededor en el c uadro anterior.
3.2 CODIFICACIÓN DE FORMA DE ESCAL A DE GRISES La información de forma en escala de grises tiene una estructura similar correspondiente a la de la forma binaria con la diferencia que cada píxel (elemento de matriz) puede tomar un rango de valores (0 a 255), transparente a oscuro. Valores intermedios correspondes a intermedios grados de transparencia de ese píxel. Por convención, una información de forma binaria corresponde a una información de forma de escala de grises con valores de 0 a 255.
Figura 6. Los 3 modos de c odificación VOP. I-VOPs son codificados sin información de otros VOPs. P- y B-VOPs están predichos basados en I- u otros P-VOPs.
La información de forma de escala de grises es codificada usando un DCT compensado en movimiento
5
FIEE – UNMSM. Muñasqui. Radiodifusión – Algoritmo MPEG-4
.
5 HERRAMIENTAS DE CODIFICACIÓN DE TEXTURAS
La información de textura de un plano de objeto de video está presente en la luminancia, Y, y 2 componentes de crominancia, Cb, Cr, de la señal de video. En el caso de un I-VOP, la información de textura reside directamente en los componentes de luminancia y crominancia. En el caso de VOPs compensados por movimiento, la información de textura representa el error residual resultante después de la compensación. Para codificar la información de textura, el estándar DCT basado en bloques 8x8 es usado. Para codificar un VOP arbitrariamente formado, una malla de 8x8 es superpuesta en el VOP. Usando esta malla, los bloques 8x8 que son internos al VOP son codificados sin modificaciones. Los bloques que se extienden en ambos lados del VOP son denominados bloques de frontera, y son tratados distintos de los bloques internos. Los bloques transformados son cuantizados, y una predicción de coeficiente individual puede ser usada desde los bloques vecinos para reducir más el valor de entropía de los coeficientes. Esto es seguido por un scanning de los coeficientes para reducir la longitud de recorrido promedio hacia coeficientes codificados. Luego, los coeficientes son codificados por codificación de longitud variable. Este proceso se muestra en diagrama de bloques en la Figura 7:
Partición de información Este método separa los bits de codificación de información de movimiento y los de textura. En caso de error, un método más eficiente de ocultamiento de error puede ser aplicado cuando por ejemplo, el error ocurre en los bits de textura. Código de extensión de cabecera Estos códigos binario permiten una inclusión opcional de información de cabecera redundante, vital para una correcta decodificación del video. De esta manera, las oportunidades de corrupción de la información de cabecera y el completo salto de largas porciones del flujo de bits será reducido VLCs reversibles Estos VLCs permiten reducir más la influencia de ocurrencia de errores en la informaci{on decodificada. RVLCs son palabras código las cuales pueden ser decodificadas tanto como hacia delante como por atrás. En caso de error y salto de flujo de bits hasta el siguiente marcador de resincronización, es posible aún decodificar porciones del flujo de bits corruptos en orden inverso para limitar el impacto del error.
La Figura 8 resume la influencia de estas herramientas en la sintaxis del flujo de bits MPEG-4.
Figura 7. Proceso de codificación de texturas VOP
6 RESILIENCIA A ERRORES Esta funcionalidad es importante para acceso universal a través de ambientes propensos a errores, como las comunicaciones móviles.
Figura 8. Herramientas de resiliencia de errores en MPEG-4
MPEG-4 provee varios mecanismos para permitir resiliencia a errores con diferente grado de robustez y complejidad. Estos mecanismos son ofrecidos por herramientas que proveen medios para resincronización, detección de errores, recuperación de información y ocultación de errores. Hay 4 herramientas y son:
7 CODIFICACIÓN DE SPRITE Un sprite consiste de aquellas regiones de un VO que están presentes en la escena, a lo largo del segmento de video. Esencialmente es una imagen estática que puede ser trasmitida solo una vez, al inicio de la transmisión. Sprites han sido incluidos en MPEG-4 principalmente porque proveen alta eficiencia de compresión en tales casos. La codificación basada en sprite es muy adecuada para objetos sintéticos, aunque también puede ser usado para objetos en escenas naturales que van en movimiento rígido.
Resincronización Es la manera más frecuente de traer resiliencia a errores a un flujo de bits. Consiste en insertar marcadores únicos en el flujo de bits de modo que en caso de un error, el decodificador pueda saltar los bits restantes hasta el siguiente marcador y volver a decodificar desde ese punto en adelante.
6
FIEE – UNMSM. Muñasqui. Radiodifusión – Algoritmo MPEG-4
. Los sprites estáticos son generados, antes que empiece el proceso de codificación, usando los originales VOPs. El decodificador recibe cada sprite estático antes del resto del segmento del video, y es codificado de tal manera que los reconstruidos VOPs pueden ser generados fácilmente.
8 CONCLUSIONES MPEG-4 ha sido desarrollado para soportar un amplio rango de aplicaciones multimedia. Los anteriores estándares principalmente se concentraron en compactar tanto video como audio, mientras que ahora MPEG-4 habilita funcionalidades que son requeridas por muchas aplicaciones. El estándar visual MPEG-4 usa una representación basada en objeto de la secuencia del video. Esto permite fácil acceso y manipulación de regiones arbitrarias en cuadros del video. La estructura basada en Objetos de Video directamente soporta una funcionalidad altamente deseable: interactividad basada en objeto. Para permitir acceso universal, han sido consideradas también en el estándar, funcionalidades orientadas a la transmisión. Funcionalidades para robustez ante errores y resiliencia en errores de transmisión, y el control de la tasa adaptada a l codificador al disponible ancho de banda del can al. [7]
9 REFERENCIAS
[1]
[2]
[3]
[4]
[5]
[6]
[7]
MPEG-1 Video Group, "Information Technology Coding of Moving Pictures and Associated Audio for Digital Storage Media up to about 1.5 Mbit/s: Part 2 - Video," ISO/IEC 11172-2, International Standard, 1993. MPEG-2 Video Group, "Information Technology Generic Coding of Moving Pictures and Associated Audio: Part 2 - Video," ISO/IEC 13818-2, International Standard, 1995. L. Chariglione, “MPEG and Multimedia Communications”, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 7, No. 1, pp. 5 18, Feb. 1997. MPEG-4 Video Group, “Generic Coding of AudioVisual Objects: Part 2 - Visual,” ISO/IEC JTC1/SC29/WG11 N1902, FDIS of ISO/IEC 14496-2, Atlantic City, Nov.1998 ITU-T Experts Group on Very Bitrate Visual Telephony, “ITU-T Recommendation H.263: Video Coding for Low Bitrate Communication,” Dec. 1995. F. Bossen, T. Ebrahimi, "A simple and efficient binary shape coding technique based on bitmap representation" in Proc. of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP'97), vol. 4, pp. 31293132, Munich, Germany, April 20-24, 1997. E. Touradj and H. Caspar**, "MPEG-4 Natural Video Coding - An overview”
7