Professional Documents
Culture Documents
TABLA DE CONTENIDO
INTRODUCCION
OBJETIVOS
1. INTRODUCCIN A LA COMPRESIN DE VIDEO
1.1 CODIFICACION INTRA O ESPACIAL
1.2 CODIFICACION INTER O TEMPORAL
1.3 CODIFICACIN BIDIRECCIONAL
2. COMPRESIN DE VIDEO EN EL STANDARD MPEG
3. QUE ES MPEG?
3.1 COMO SE EXPLOTA LA CORRELACION TEMPORAL?
3.2 COMO SE EXPLOTA LA CORRELACION ESPACIAL?
4. EL ALGORITMO DE COMPRESIN MPEG
4.1 LA TRAMA DEL SISTEMA
5. TIPOS DE IMAGEN MPEG
5.1 LAS IMGENES I (INTRA)
5.2 LAS IMGENES P (PREVISTA)
5.3 LAS IMGENES B (BIDIRECCIONALES)
5.4 DESCOMPOSICION DE UNA SECUENCIA DE VIDEO MPEG
5.4.1BLOQUE
5.4.2 MACROBLOQUE
5.4.3 REBANADA
5.4.4 IMAGEN TIPO I,B o P
5.4.5 REBANADA
5.4.6 SECUENCIA
6. MPEG1
7. LA TCNICA DE COMPRESIN MPEG1
8. MPEG2
9. EL ESTANDAR MPEG2
9.1 CODIGOS DE EXTENSIONES NO ESCALABLES PARA MPEG2
9.2 CODIGOS DE EXTENCIONES ESCALABLES PARA MPEG2
10. PERFILES Y NIVELES MPEG2
10.1 PERFILES Y NIVELES MPEG2
Identificar las aplicaciones modernas mas importantes que utilizan la tecnologa de MPEG .
Un anlisis de las imgenes de televisin revela que existe un alto contenido de frecuencias
espaciales debido al detalle en algunas reas de la imagen, generando una cantidad pequea
de energa en tales frecuencias. A menudo las imgenes contienen considerables reas en
donde existen pxeles con un mismo valor espacial. El promedio de brillo de la imagen se
caracteriza por componentes de frecuencia de valor cero. Simplemente omitiendo los
componentes de alta frecuencia de la imagen, esta se vuelve inaceptable debido a la prdida
de definicin de la imagen.
Una disminucin en la codificacin se puede obtener, tomando como ventaja que la amplitud
de los componentes espaciales disminuye con la frecuencia. Si el espectro de frecuencia
espacial es dividido en subbandas de frecuencia, las bandas de alta frecuencia se pueden
describir en pocos bits, no solamente porque sus amplitudes son pequeas sino porque puede
ser tolerado ms ruido. La Transformada Discreta del Coseno se usa en MPEG para
determinar el dominio de la frecuencia espacial en imgenes bidimensionales.
La codificacin inter aprovecha la ventaja que existe cuando las imgenes sucesivas son
similares. En lugar de enviar la informacin de cada imagen por separado, el codificador inter
enva la diferencia existente entre la imagen previa y la actual en forma de codificacin
diferencial. Las Figuras 3 y 4 muestran este principio. El codificador necesita de una imagen,
la cual fue almacenada con anterioridad para luego ser comparada entre imgenes sucesivas
y de forma similar se requiere de una imagen previamente almacenada para que el
decodificador desarrolle las imgenes siguientes.
Figura 3. Sistema de codificacin inter, que usa un retraso para calcular la diferencia de
pixeles entre imgenes sucesivas
Los datos que se generan al hacer la diferencia entre dos imgenes, tambin se pueden tratar
como una nueva imagen, la cual se debe someter al mismo tratamiento de transformadas
utilizado en la compresin espacial.
Un sistema bsico de codificacin inter se muestra en la Figura 3. Desafortunadamente existe
la posibilidad de transmitir errores, si se utiliza una secuencia ilimitada de imgenes previstas.
Por esto es mejor utilizar un nmero limitado de imgenes previstas para de este modo
garantizar una mejor transmisin de los datos. En MPEG peridicamente se enva una imagen
la cual no ha sido tratada con algn mtodo de compresin con prdidas y que a su vez es
idntica a la imagen original, refrescando los datos en la secuencia de transmisin.
La Figura 4 muestra el recorrido de una imagen original, llamada imagen I o intra, la cual es
enviada entre imgenes que han sido creadas usando una diferencia entre imgenes, llamada
imgenes P o previstas. La imagen I requiere grandes cantidades de informacin, mientras
que las imgenes P requieren una cantidad menor. Esto ocasiona que el flujo de transmisin
de datos sea variable hasta cuando llegan a la memoria intermedia, la cual genera a su salida
una transmisin de datos de forma constante. Tambin se puede observar que el preeditor
necesita almacenar datos de menor proporcin puesto que su factor de compresin no cambia
de una imagen a otra.
Cuando un objeto se mueve, este oculta lo que hay detrs de l, pero esto va cambiando a
medida que se va moviendo, permitiendo observar el fondo. El revelado del fondo exige
nuevos datos a ser transmitidos, ya que el rea del fondo haba sido ocultada anteriormente y
la informacin no pudo ser obtenida desde una imagen previa.
Un problema similar ocurre si se hace una toma panormica con una cmara de video;
aparecen nuevas reas al observador y nada se sabe acerca de ellas. MPEG ayuda a
minimizar este problema utilizando codificacin bidireccional, la cual deja informacin para ser
tomada de imgenes anteriores y posteriores a la imagen observada. Si el fondo ya ha sido
revelado, y este ser presentado en una imagen posterior, la informacin puede ser movida
hacia atrs en el tiempo, creando parte de la imagen con anticipacin.
La Figura 5 muestra en qu se basa la codificacin bidireccional. En el centro del diagrama un
objeto se mueve revelando su fondo, pero ste no se conoce hasta la siguiente imagen.
Entonces se toman los datos de las imgenes anteriores y posteriores, o incluso se utiliza el
promedio de los datos, descubriendo de esta forma el fondo.
La Figura 6 muestra una codificacin bidireccional. Primero se toma una imagen I y, con la
ayuda de una imagen P se pueden obtener imgenes B, las cuales son llamadas tambin
imgenes bidireccionales.
escena, la correlacin entre cuadros adyacentes es pequea o casi nula, en ese caso es
mejor usar tcnicas de compresin basadas en la correlacin espacial en el mismo cuadro.
Los algoritmos de compresin MPEG usan tcnicas de codificacin DCT (transformada
discreta del coseno) sobre bloques de 8*8 pxeles para explotar la correlacin espacial. Sin
embargo, cuando la correlacin temporal es alta, en imgenes sucesivas de similar contenido,
es preferible usar tcnicas de prediccin temporal (DPCM : codificacin por modulacin
diferencial de pulsos). En la codificacin MPEG se usa una combinacin de ambas tcnicas
para conseguir una alta compresin de los datos.
Casi todas las tcnicas de codificacin de vdeo que veremos realizan submuestreo y
cuantificacin de la seal. El concepto bsico de submuestreo es reducir la dimensin
(espacial) de la imagen y, por tanto, el nmero de pxeles que deben ser codificados. En
algunos casos tambin se realiza un submuestreo en la dimensin temporal.
El proceso dual en recepcin es interpolar la imagen tras la decodificacin.
Esta tcnica hace uso de las caractersticas subjetivas de la visin humana, de forma que
elimina la redundancia subjetiva contenida en la imagen.
El ojo humano es mucho ms sensible a los cambios en la iluminacin que en la cromaticidad.
Lo que se hace en la codificacin MPEG es dividir la imagen en tres componentes (Y :
luminancia, U ,V : crominancia), y aplicar diferente submuestreo a la crominancia. Por ejemplo,
en MPEG-2 se usan unas relaciones Y :U :V tpicas de 4 : 1 : 1, o 4 : 2 : 2 .
3.1 CMO SE EXPLOTA LA CORRELACIN TEMPORAL ?
MPEG-1 y MPEG-2 utilizan la prediccin por compensacin de movimiento. El concepto de
compensacin de movimiento se basa en estimar el movimiento entre cuadros sucesivos. Por
ejemplo, si todos los elementos en una escena son desplazados aproximadamente igual, el
movimiento entre sucesivos cuadros puede ser definido por un cierto nmero de parmetros
(por ejemplo vectores de traslacin de lospxeles). La mejor prediccin del pxel actual vendr
dada en este caso por la compensacin de movimiento respecto al cuadro anterior.
Normalmente el error de prediccin junto con los vectores de movimiento, se transmiten al
receptor. Aprovechando la correlacin espacial, lo que se hace es agrupar bloques
de pxeles (16*16 en MPEG-1, y MPEG-2) y estimar un nico vector de movimiento para todo
el bloque.
3.2 CMO SE EXPLOTA LA CORRELACIN ESPACIAL ?
El propsito de la codificacin mediante DCT es decorrelar el error intra- o intercuadro y
codificar los coeficientes de la DCT en vez de lospxeles originales de la imagen. Para ello la
imagen de entrada se divide en bloques de N*N pxeles y se aplica la transformada a cada
uno de ellos para obtener la matriz de coeficientes N*N correspondiente . En recepcin,
los pxeles pueden ser recuperados aplicando la transformada inversa.
De entre todas las posibles alternativas, un tamao de bloque de 8*8 ha sido el que ha dado
resultados ms satisfactorios en la codificacin de vdeo.
El mayor objetivo de este tipo de codificacin es hacer que la mayora de los coeficientes sean
tan pequeos que no necesiten ser codificados para la transmisin. Al mismo tiempo, es
deseable minimizar las dependencias estadsticas entre coeficientes. Los coeficientes con
varianza menor son menos significativos para la reconstruccin del bloque que los coeficientes
con mayor varianza. En la prctica se observa que, como media, slo es necesario transmitir
una pequea cantidad de coeficientes al receptor para obtener una reconstruccin aproximada
de la imagen. Adems los coeficientes ms significativos son de valor pequeo.
As, mediante la combinacin de la prediccin por compensacin de movimiento y la
transformada DCT, se obtiene una representacin compacta de la seal temporal DPCM en el
dominio transformado. Esta combinacin es la clave de los estndares de codificacin MPEG.
4. EL ALGORITMO DE COMPRESIN MPEG
"pack" contiene informacin genrica sobre sus contenidos, sobre la gestin de "buffers" en el
decodificador, as como marcas temporales para sincronizacin entre extremos. Adems,
cada "pack" puede contener subestructuras denominadas "packets". Dentro de cada "packet"
se encuentra informacin relativa exclusivamente a un determinado canal de informacin. Tras
una cabecera con informacin especfica sobre sincronizacin, se empaquetan los datos
comprimidos.
Trama de vdeo
El algoritmo de codificacin de vdeo desarrollado por MPEG cubre un amplio rango de
aplicaciones, lo que confiere al estndar la caracterstica de genrico. Asimismo es asimtrico
puesto que la mayor carga de procesamiento recae en el codificador, simplificando
considerablemente la complejidad del decodificador. El algoritmo alcanza una alta tasa de
compresin a costa de unas prdidas de calidad aceptables basndose en dos tcnicas de
codificacin:
La primera tcnica radica en la reduccin de la redundancia temporal.
En primer lugar se definen tres tipos de cuadros de imagen: Intra (I), Predictivos (P) y
Bidireccionales o interpolados (B). Los cuadros I son codificados sin referencia temporal
alguna a cuadros anteriores o posteriores, lo que supone una compresin menos eficiente
aunque les confiere la idoneidad de ser puntos de acceso en bsquedas aleatorias. Los
cuadros P son codificados ms eficientemente empleando prediccin por compensacin de
movimiento sobre un cuadro I o P anterior, pudiendo ser a su vez referencia para futuros
cuadros P (predicciones causales). Los cuadros B ostentan la mayor tasa de compresin.
Emplean compensacin de movimiento sobre cuadros I o P, tanto pasados como futuros
(prediccin bidireccional o interpolacin, no causal), no pudiendo ser empleados como
referencia. Estas compensaciones de movimiento se realizan sobre pequeas zonas de
imagen de 16316 pxeles (macro bloques), buscando dicho patrn en cuadros referencia
anteriores o posteriores y proporcionando finalmente los vectores del movimiento detectado.
Una secuencia de imgenes conteniendo un nico cuadro I en su origen (IBBPBBP...BBI...) se
denomina grupo de cuadros (GOP), el cual puede ser visualizado de forma independiente y
aleatoria.
El segundo procedimiento es la reduccin de la redundancia espacial.
Despus del primer proceso, la imagen diferencia entre la entrante y la precedida es
codificada empleando la tcnica de la transformada discreta del coseno (DCT) a nivel de
bloque. Este algoritmo permite la transformacin de reas de imagen en representaciones
bidimensionales de energa frente a frecuencia. A continuacin se aplica un proceso de
cuantificacin, con prdidas de informacin controladas por el nivel de llenado del "buffer" de
salida de datos codificados, y aplicado en menor medida a las zonas de baja frecuencia, en
las que el ojo es ms sensible. Los coeficientes resultantes son transformados en otros
recurriendo a tablas en las que los eventos ms probables son codificados con un menor
nmero de bits, lo que incrementa la eficiencia del proceso (codificacin entrpica).
En la figura 8 aparece detallado el encadenamiento de los procesos anteriormente descritos
para configurar un codificador y decodificador MPEG.
MPEG define tres tipos de imgenes que se encadenan segn el esquema de la Figura 9. Los
cuales son el soporte de la codificacin diferencial y bidireccional, minimizando la propagacin
de errores.
En MPEG, las rebanadas pueden comenzar en cualquier sentido y ser de tamao arbitrario,
pero las ATSC (Advance Television Systems Committee) establecen que ellas deben
comenzar en el borde izquierdo de la imagen. Las rebanadas son la unidad fundamental de
sincronizacin para la codificacin de la longitud variable y diferencial, los vectores iniciales en
una rebanada son enviados completamente, mientras que los dems vectores son
transmitidos diferencialmente.
En imgenes I, los primeros coeficientes DC de las rebanadas son enviados completamente y
los dems coeficientes DC son transmitidos en forma diferencial. En imgenes de diferencia,
esta tcnica no se utiliza.
5.4.4. Imagen (Picture) de tipo I, P o B
Cuando un nmero de rebanas se combinan, construyen una imagen, la cual es la parte activa
de un campo o un cuadro.
La imagen de soporte inicial define qu imgenes I, P o B codifica e incluye una referencia
temporal para que la imagen pueda ser representada en el momento adecuado. En el caso de
tomas panormicas e inclinaciones, los vectores en cada macrobloque sern los mismos. Un
vector global puede ser enviado para toda la imagen, y luego se pueden enviar vectores
individuales que lleguen a crear la diferencia en el vector global.
5.4.5. Grupo de imgenes (Group Of Pictures o GOP)
Las imgenes pueden ser combinadas para producir un GOP (grupo de imgenes) que
comienza con una imagen I. El GOP es la unidad fundamental de codificacin temporal. En el
estndar MPEG, el uso de GOP es opcional, pero esta en la prctica es necesaria. Entre
imgenes I, un nmero variable de imgenes P y/o B pueden ser colocadas como ya se ha
descrito. Un GOP puede ser abierto o cerrado. En un GOP cerrado, las ultimas imgenes B
requieren de una imagen I para el siguiente GOP por decodificar y la secuencia de bits puede
ser cortada al final de la GOP.
5.4.6. Secuencia
Cuando algunas GOP son combinadas se produce una secuencia de video con un cdigo de
inicio, seguido por un encabezamiento, y luego termina con un cdigo final. Cdigos de
soporte adicional pueden ser situados al inicio de la secuencia. La secuencia de soporte
especifica el tamao horizontal y vertical de la imagen, norma de barrido, la rata de imgenes,
si se usa un barrido progresivo o entrelazado, el perfil, nivel, velocidad de transferencia de
bits, y cuales matrices de cuantificacin se usan para codificar imgenes espaciales y
temporales.
Sin la secuencia de soporte de datos, un decodificador no puede comprender el flujo de bits y
por lo tanto no puede comenzar la operacin de decodificacin correcta. Esto ocurre
generalmente cuando un televidente est cambiando canales de un lugar a otro en su
televisor.
6.MPEG-1
Ahora hablaremos un poco ms a fondo del estndar MPEG-1, el cual cubre muchas
aplicaciones que van desde sistemas interactivos en CD-ROM, hasta la entrega de videos en
una red. El soporte de un gran nmero de aplicaciones y una gran diversidad de parmetros
de entradas, tales como el tamao de la imagen o la cantidad de bits puede ser especificado
por el usuario. MPEG recomienda un conjunto de parmetros que son: que las fuentes de
video deben aceptar al menos parmetros mayores a los de TV, incluyendo un mnimo de 720
pixels por lnea, 576 lneas por imagen, 30 tramas por segundo y una velocidad mnima de
1.86 Mbits/seg.
Su algoritmo ha sido diseado en base a las actividades JPEG y el estndar CCITT H:261
(Internatonal Telephone Consultive Committee). Sin embargo MPEG-1 fue primordialmente
cuantifican los coeficientes obtenidos y se codifican segn un cdigo VLC. En ste proceso es
necesario el uso de una buffer para asegurar una determinada tasa binaria.
El decodificador realiza el proceso inverso. Tras decodificar las palabras cdigo, se
reconstruyen los valores del error de prediccin. Los pixels compensados en movimiento del
cuadro anterior, almacenados en el FS, se aaden al error de prediccin para obtener el
macrobloque del cuadro actual.
estndar de TV, de modo que un receptor HDTV pueda interpretar tambin la seal
convencional.
La codificacin escalable SNR se desarroll para permitir una cierta degradacin en
transmisiones prioritarias. Si el nivel base puede ser protegido frente a errores en el canal,
decodificando nicamente este nivel puede obtenerse una versin del vdeo original. Tanto el
nivel bsico como el superior codifican la seal a la misma resolucin espacial. En el nivel
bsico los coeficientes DCT son cuantificados a grosso modo, consiguiendo una calidad
moderada pero una baja tasa binaria. En el nivel superior se codifica la diferencia entre los
coeficientes no cuantificados y los cuantificados en el nivel bsico con un escaln mucho ms
fino.
SPATIAL Scalable : este nivel aade al anterior la escalabilidad espacial. YUV :4 :0 :0.
Este algoritmo soporta displays con diferente resolucin en el receptor, consiguiendo menor
resolucin espacial si se decodifica solo el nivel base de la informacin recibida. Esta
funcionalidad es til para la compatibilidad HDTV/TV, permitiendo una migracin de servicios
de TV digital a servicios de mayor resolucin espacial.
* HIGH : este perfil aade la representacin 4 :2 :2 y la posibilidad de codificacin en tres
niveles, incluyendo los modos escalables SNR y espacial.
Otros modos desarrollados por MPEG-2, fueron la escalabilidad temporal y la particin de
datos
9.1 CDIGOS DE EXTENSIONES NO ESCALABLES PARA MPEG-2
MPEG-2 se basa en DPCM/DCT al igual que MPEG-1, incluyendo una estructura de
macrobloques, compensacin por movimiento y modos de codificacin para reabastecimiento
condicional de macrobloques.
MPEG-2 introduce los conceptos de trama de imagen, campo de imagen junto con sus formas
de acomodar la codificacin de video progresivo y entrelazado, que son prediccin de trama y
campo.
En las predicciones de campo , estas son hechas independientemente para cada campo
usando datos de uno o ms campos decodificados previamente.
La prediccin de trama, crea una prediccin para una trama de imgenes, basada en tramas
previamente decodificadas. Ya sea en un campo o una trama de imgenes las predicciones
pueden ser usadas y el modo de prediccin preferido puede ser seleccionado de un
macrobloque o una base de macrobloques.
MPEG-2 ha introducido compensacin por movimiento para hacer ms eficiente la exploracin
de redundancias temporales entre campos.
MPEG-2 cuenta con formatos de radio de submuestreo de luminancia y crominancia, para
aplicaciones con altos requerimientos de calidad de video.
9.2 CDIGOS DE EXTENSIONES ESCALABLES PARA MPEG-2
Las aplicaciones escalables de MPEG-2, soportan aplicaciones por arriba de los que se han
establecido en el cdigo del algoritmo del Profile principal. Esto provee la interoperabilidad
entre diferentes servicios y la de soportar receptores con diferentes capacidades de
desplegado. Otro propsito es proveer video en capas que pueda ser prioritizado para su
transmisin.
10 COMPRESIN DE VIDEO EN EL ESTNDAR MPEG-2
(APLICACIONES BROADCAST)
MPEG-2 puede describirse como una " caja de herramientas" de compresin ms compleja
que MPEG-1, por lo tanto, tambin puede ser considerada como una unidad superior: en
efecto, toma todas las herramientas anteriores y le aade otras. Adems, la norma prev la
compatibilidad ascendente, lo que significa que un decodificador MPEG-2 deber decodificar
trenes binarios elementales de la norma MPEG-1.
da como resultado una imagen de "ruido de cuantificacin". Esta imagen puede ser
comprimida y transmitida como una imagen de ayuda. Un simple decodificador solo decodifica
la imagen principal, con un flujo de bit con ruido de cuantificacin, pero un decodificador ms
complejo puede decodificar ambas imgenes con diferentes flujos de bits y combinarlos para
producir una imagen con bajo ruido. Este es el principio del perfil SNR escalable.
codificada en PAL o SECAM) y los 9 Mbits/s (calidad prxima a la de una imagen de estudio
CC1R-601).
Todo el proceso de codificacin de las imgenes animadas descrito en el captulo anterior
para MPEG-1 se aplica a MPEG-2 (MP@ML), especialmente la jerarqua de capas (desde el
bloque hasta la secuencia de la Figura 18).
Dependiendo del trabajo a realizar, estas pueden ser tratadas de manera diferente segn la
importancia de los movimientos entre los dos campos de una misma imagen (los casos
extremos son, por un lado, cuando se transmiten pelculas cinematogrficas por televisin
"telecine" donde no hay movimiento entre los dos campos de TV, puesto que proceden de la
exploracin del mismo fotograma de la pelcula, y por otro lado, las imgenes de video de
acontecimientos deportivos, donde puede haber importantes movimientos entre los dos
campos de una imagen).
La Figura 20 representa la secuencia temporal de la posicin vertical de las lneas de los
campos sucesivos en un sistema entrelazado.
Tambin llamada "progresiva", es apropiada para los casos donde hay poco movimiento entre
dos campos sucesivos. Los bloques y macrobloques se dividen en la imagen completa (Ver
Figura. 21), y la DCT se efecta, sobre puntos verticales que distan 20 ms en el tiempo, lo que
no plantea problemas si los dos campos difieren poco.
Un macrobloque formado en el campo impar sirve para predecir el bloque correspondiente del
prximo campo impar, y lo mismo para los bloques del campo par, por tanto, la prediccin se
hace sobre un tiempo de 40 ms (2 campos).
El Modo "Field"
La prediccin de un bloque se efecta a partir de un bloque del campo anterior, entonces aqu,
los vectores de movimiento corresponden a un tiempo de 20ms.
El Modo "Mixto"
Los bloques se predicen a partir de dos bloques que corresponden a dos campos.
Despus de realizar la DTC a un bloque de 8x8 pixeles, se nota que generalmente los
coeficientes ms significativos de la DTC se encuentran en la parte superior izquierda de la
matriz. Una vez evaluados, los coeficientes de menor valor pueden ser redondeados a cero.
Permitiendo de este modo, una transmisin de datos ms eficiente, debido a que los
coeficientes no-cero son enviados primero, seguido de un cdigo el cual indica que todos los
dems nmeros son ceros.
La exploracin es una tcnica que aumenta la probabilidad de alcanzar este resultado, porque
ella enva los coeficientes en orden descendente segn su probabilidad. La Figura 23 muestra
que en un sistema no-entrelazado, la probabilidad de hallar coeficientes de mayor peso es
ms alta en la parte superior izquierda que en la parte inferior derecha. Aqu una exploracin
en forma diagonal a 45 es la que se denomina una exploracin en zig-zag, la cual es la mejor
secuencia para emplear en este caso.
CONCLUSIONES