El Algoritmo de Compresión Mpeg

EL ALGORITMO DE COMPRESIN MPEG
TABLA DE CONTENIDO
INTRODUCCION
OBJETIVOS
1. INTRODUCCIN A LA COMPRESIN DE VIDEO
1.1 CODIFICACION INTRA O ESPACIAL
1.2 CODIFICACION INTER O TEMPORAL
1.3 CODIFICACIN BIDIRECCIONAL
2. COMPRESIN DE VIDEO EN EL STANDARD MPEG
3. QUE ES MPEG?
3.1 COMO SE EXPLOTA LA CORRELACION TEMPORAL?
3.2 COMO SE EXPLOTA LA CORRELACION ESPACIAL?
4. EL ALGORITMO DE COMPRESIN MPEG
4.1 LA TRAMA DEL SISTEMA
5. TIPOS DE IMAGEN MPEG
5.1 LAS IMGENES I (INTRA)
5.2 LAS IMGENES P (PREVISTA)
5.3 LAS IMGENES B (BIDIRECCIONALES)
5.4 DESCOMPOSICION DE UNA SECUENCIA DE VIDEO MPEG
5.4.1BLOQUE
5.4.2 MACROBLOQUE
5.4.3 REBANADA
5.4.4 IMAGEN TIPO I,B o P
5.4.5 REBANADA
5.4.6 SECUENCIA
6. MPEG1
7. LA TCNICA DE COMPRESIN MPEG1
8. MPEG2
9. EL ESTANDAR MPEG2
9.1 CODIGOS DE EXTENSIONES NO ESCALABLES PARA MPEG2
9.2 CODIGOS DE EXTENCIONES ESCALABLES PARA MPEG2
10. PERFILES Y NIVELES MPEG2
10.1 PERFILES Y NIVELES MPEG2
10.2 MODOS DE PREDICCION ESPECIFICOS EN MPEG2

10.3 LAESTRUCTURA FRAME
10.4 LA ESTRUCTURA FIELD
10.5 SCANNING
10.6 DESCRIPCION DEL PROCESO DE CODIFICACIN MPEG2
10.7 DESCRIPCION DEL PROCESO DE DECODIFICACION MPEG2
11. COMO TRABAJA MPEG?
12. APLICACIONES GENERALES
CONCLUSIONES
INTRODUCCIN
El presente trabajo es una revisin de qu es MPEG (Moving Picture Experts Group) y de los
estndares que se usan hoy en da; lo podemos considerar de actualidad, ya que este formato
est en operacin para la codificacin de seales de video, adems que es un de lo ms
utilizados porque los videos que son compactados en este estndar son pequeos en tamao.
Por eso es que en muchas personas hoy en da prefieren utilizar MPEG, debido a que les
ahorra espacio en disco y en caso de que se quiera transmitir, debido a su tamao nos resulta
mucho ms rpida la transmisin.
La reproduccin de vdeo en un ordenador, pese a su aparente sencillez, constituye una de las
tareas que ms recursos consume. De hecho, con los ordenadores actuales que podemos
encontrar en el mercado, todava no es posible reproducir un vdeo con calidad VHS -ya de
por s, bastante baja-, a pantalla completa.
Para que una sucesin de imgenes produzca el efecto ptico del movimiento, es necesario
que se sucedan a una determinada velocidad, que suele girar en torno a los 30 fps, es decir,
30 imgenes o fotogramas por cada segundo. Si se reduce este valor, el vdeo se reproduce a
saltos, disminuyendo la sensacin de continuidad. El problema es que el proceso de imgenes
mediante una tarjeta grfica es una de las tareas que ms tiempo consume, de manera que,
para transmitir al monitor tal cantidad de imgenes por segundo, es necesario disponer de un
procesador y una tarjeta grfica muy potentes. o bien reducir la calidad de la imagen con la
que estamos trabajando.
Puesto que lo primero todava no est al alcance de todos los usuarios, la mayor parte de los
fabricantes han optado por la segunda opcin, es decir, han ideado sistemas de compresin
que reducen sensiblemente la calidad y el tamao de la imagen.
El sistema de compresin de vdeo ms conocido es, sin duda, el formato AVI utilizado por el
sistema operativo Windows. La calidad de la imagen es bastante aceptable en ordenadores no
demasiado potentes, pero slo en una pequea ventana y con un nmero reducido de colores.
Para superar estas limitaciones, un grupo de personas crearon el Grupo de Expertos en
Imgenes en Movimiento -Moving Pictures Experts Group-, ms conocido como MPEG.
Es muy importante el desarrollo de los algoritmos de compresin ya que permiten disminuir el
tamao de un archivo con el fin de ser transportado o almacenado y al ocupar menos espacio,
el transporte es mas rpido y dichos algoritmos son aplicados principalmente al audio y video,
debido a que son los archivos que mas cantidad de bytes ocupan, de esta manera, las
imgenes obtenidas ocupan un menor espacio, sin perder demasiada calidad. El nico
inconveniente es que tambin se necesita un ordenador potente y una tarjeta especializada
para proceder a la descompresin.
OBJETIVOS
conocer la evolucin de los algoritmos de compresin de video y las investigaciones precedentes.
Identificar las aplicaciones modernas mas importantes que utilizan la tecnologa de MPEG .
Analizar el mecanismo para comprimir y descomprimir informacin de video.
Aprender los conceptos mas importantes acerca de los algoritmos de compresin.

1. INTRODUCCIN A LA COMPRESIN DE VIDEO
La compresin de video surge de la necesidad de transmitir imgenes a travs de un canal

que contenga un ancho de banda aceptable. A continuacin se examinarn cuales son los
mtodos ms utilizados que permiten obtener este resultado, y las diferentes normas que se
utilizan hoy da.
Estos mtodos de compresin, recurren a los procedimientos generales de compresin de
datos, aprovechando adems la redundancia espacial de una imagen (reas uniformes), la
correlacin entre puntos cercanos y la menor sensibilidad del ojo a los detalles finos de las
imgenes fijas (JPEG) y, para imgenes animadas (MPEG), se saca provecho tambin de la
redundancia temporal entre imgenes sucesivas.
La Figura 1 muestra que cuando las imgenes individuales son comprimidas sin referencia a
las dems, el eje del tiempo no entra en el proceso de compresin, esto por lo tanto se
denomina codificacin intra (intra=dentro) o codificacin espacial. A medida que la codificacin
espacial trata cada imagen independientemente, esta puede emplear ciertas tcnicas de
compresin desarrolladas para las imgenes fijas. El estndar de compresin ISO
(International Standards Organization) JPEG (Joint Photographic Experts Group), est en esta
categora. Donde una sucesin de imgenes codificadas en JPEG tambin se usan para la
televisin, esto es llamado "JPEG en movimiento".
Figura 1. Codificacin intra o espacial, explora la redundancia dentro de la imagen

Se pueden obtener grandes factores de compresin teniendo en cuenta la redundancia entre
imgenes sucesivas. Esto involucra al eje del tiempo, la Figura 2 muestra esto. Este proceso
se denomina codificacin inter (inter=entre) o codificacin temporal.
Figura 2. Codificacin inter o temporal, explora la redundancia entre imgenes

La codificacin temporal permite altos factores de compresin, pero con la desventaja de que
una imagen individual existe en trminos de la diferencia entre imgenes previas. Si una
imagen previa es quitada en la edicin, entonces los datos de diferencia pueden ser
insuficientes para recrear la siguiente imagen. El estndar ISO MPEG (Motion Pictures
Experts Group) utiliza esta tcnica.
1.1 CODIFICACIN INTRA O ESPACIAL
Un anlisis de las imgenes de televisin revela que existe un alto contenido de frecuencias
espaciales debido al detalle en algunas reas de la imagen, generando una cantidad pequea
de energa en tales frecuencias. A menudo las imgenes contienen considerables reas en
donde existen pxeles con un mismo valor espacial. El promedio de brillo de la imagen se
caracteriza por componentes de frecuencia de valor cero. Simplemente omitiendo los
componentes de alta frecuencia de la imagen, esta se vuelve inaceptable debido a la prdida
de definicin de la imagen.
Una disminucin en la codificacin se puede obtener, tomando como ventaja que la amplitud
de los componentes espaciales disminuye con la frecuencia. Si el espectro de frecuencia
espacial es dividido en subbandas de frecuencia, las bandas de alta frecuencia se pueden
describir en pocos bits, no solamente porque sus amplitudes son pequeas sino porque puede
ser tolerado ms ruido. La Transformada Discreta del Coseno se usa en MPEG para
determinar el dominio de la frecuencia espacial en imgenes bidimensionales.
TRANSFORMADA DISCRETA DEL COSENO

En general, Los pxeles adyacentes dentro de una imagen tienden a estar altamente
correlacionados. La transformada discreta del coseno (DCT) descompone la seal en
frecuencias espaciales subyacentes.
Las transformadas DCT/IDCT se muestran en las ecuaciones 1 y 2.
ECUACIN 1. TRANSFORMADA DISCRETA DEL COSENO
ECUACION 2 TRANSFORMADA DISCRETA INVERSA DEL COSENO
1.2 CODIFICACIN INTER O TEMPORAL
La codificacin inter aprovecha la ventaja que existe cuando las imgenes sucesivas son
similares. En lugar de enviar la informacin de cada imagen por separado, el codificador inter
enva la diferencia existente entre la imagen previa y la actual en forma de codificacin
diferencial. Las Figuras 3 y 4 muestran este principio. El codificador necesita de una imagen,
la cual fue almacenada con anterioridad para luego ser comparada entre imgenes sucesivas
y de forma similar se requiere de una imagen previamente almacenada para que el
decodificador desarrolle las imgenes siguientes.
Figura 3. Sistema de codificacin inter, que usa un retraso para calcular la diferencia de
pixeles entre imgenes sucesivas
Los datos que se generan al hacer la diferencia entre dos imgenes, tambin se pueden tratar
como una nueva imagen, la cual se debe someter al mismo tratamiento de transformadas
utilizado en la compresin espacial.
Un sistema bsico de codificacin inter se muestra en la Figura 3. Desafortunadamente existe
la posibilidad de transmitir errores, si se utiliza una secuencia ilimitada de imgenes previstas.
Por esto es mejor utilizar un nmero limitado de imgenes previstas para de este modo
garantizar una mejor transmisin de los datos. En MPEG peridicamente se enva una imagen
la cual no ha sido tratada con algn mtodo de compresin con prdidas y que a su vez es
idntica a la imagen original, refrescando los datos en la secuencia de transmisin.
La Figura 4 muestra el recorrido de una imagen original, llamada imagen I o intra, la cual es
enviada entre imgenes que han sido creadas usando una diferencia entre imgenes, llamada
imgenes P o previstas. La imagen I requiere grandes cantidades de informacin, mientras
que las imgenes P requieren una cantidad menor. Esto ocasiona que el flujo de transmisin
de datos sea variable hasta cuando llegan a la memoria intermedia, la cual genera a su salida
una transmisin de datos de forma constante. Tambin se puede observar que el preeditor
necesita almacenar datos de menor proporcin puesto que su factor de compresin no cambia
de una imagen a otra.
I=Imagen codificada intra

D=Imagen codificada diferencialmente
Figura 4. Uso peridico de una imagen I
Una secuencia de imgenes que esta constituida por una imagen I y las siguientes imgenes
P hasta el comienzo de otra imagen I, se denomina grupo de imgenes GOP (Group Of
Pictures). Para factores de compresin altos se utiliza un nmero grande de imgenes P,

haciendo que las GOPs aumenten de tamao considerablemente; sin embargo un GOP
grande evita recuperar eficazmente una transmisin que ha llegado con errores.
En el caso de objetos en movimiento, puede que su apariencia no cambie mucho entre
imgenes, pero la representacin de los bordes si cambia considerablemente. Esto es de gran
ventaja si el efecto de movimiento se representa por la diferencia entre imgenes, generando
una reduccin en la codificacin de datos. Este es el objetivo de la compensacin de
movimiento.
1.3 CODIFICACIN BIDIRECCIONAL
Cuando un objeto se mueve, este oculta lo que hay detrs de l, pero esto va cambiando a
medida que se va moviendo, permitiendo observar el fondo. El revelado del fondo exige
nuevos datos a ser transmitidos, ya que el rea del fondo haba sido ocultada anteriormente y
la informacin no pudo ser obtenida desde una imagen previa.
Un problema similar ocurre si se hace una toma panormica con una cmara de video;
aparecen nuevas reas al observador y nada se sabe acerca de ellas. MPEG ayuda a
minimizar este problema utilizando codificacin bidireccional, la cual deja informacin para ser
tomada de imgenes anteriores y posteriores a la imagen observada. Si el fondo ya ha sido
revelado, y este ser presentado en una imagen posterior, la informacin puede ser movida
hacia atrs en el tiempo, creando parte de la imagen con anticipacin.
La Figura 5 muestra en qu se basa la codificacin bidireccional. En el centro del diagrama un
objeto se mueve revelando su fondo, pero ste no se conoce hasta la siguiente imagen.
Entonces se toman los datos de las imgenes anteriores y posteriores, o incluso se utiliza el
promedio de los datos, descubriendo de esta forma el fondo.
Figura 5. Concepto de la codificacin bidireccional
La Figura 6 muestra una codificacin bidireccional. Primero se toma una imagen I y, con la
ayuda de una imagen P se pueden obtener imgenes B, las cuales son llamadas tambin
imgenes bidireccionales.
Figura 6. Codificacin bidireccional
2. COMPRESIN DE VIDEO EN EL ESTNDAR MPEG
En el ao de 1990, la ISO, preocupada por la necesidad de almacenar y reproducir imgenes

de video digitales y su sonido estereofnico correspondiente, cre un grupo de expertos que
llam MPEG (Moving Pictures Expert Group) procedentes de aquellas reas implicadas en el
problema (telecomunicaciones, informtica, electrnica, radio difusin, etc).
El primer trabajo de este grupo se conoci como la norma ISO/IEC 11172, mucho ms
conocida como MPEG-1, en el ao 1992. La idea inicial era la de permitir el almacenamiento y
reproduccin en soporte CD-ROM con un flujo de transmisin de datos del orden de 1,5
Mbits/s, transportando tanto imagen como sonido.
El estndar MPEG adems de aprovechar la redundancia espacial intrnseca de una imagen
fija utilizada en la codificacin JPEG, aprovecha la redundancia temporal que aparece en la
codificacin de imgenes animadas, permitiendo encontrar similitudes entre las imgenes
sucesivas de video.
Debido a que la calidad en la compresin de video en el estndar MPEG-1 era de baja calidad
y no serva para otras aplicaciones, se cre la norma ISO/IEC 13818, mucho ms conocida
con el nombre de MPEG-2. Esta norma permite un flujo de transmisin hasta el orden de los
20 Mbits/s, transportando tanto imagen como sonido. Norma que se utilizara en la televisin
de alta definicin.
En la actualidad, se est trabajando en una norma que ser llamada MPEG-4 y est
encaminada a la transmisin de datos del orden de los 8 a 32 Mbits/s, norma que ser
utilizada en las aplicaciones de video conferencia o video telfono.
3. QUE ES MPEG?
MPEG se estableci en la Junta de Comit Tcnico de la ISO/IEC (International Organization
of Standarization / International Electrotechnical Commission) con el objetivo de crear
estndares de codificacin para la representacin de imgenes en movimiento, audio
asociado y la combinacin de los dos, para ser guardados y recuperados en un medio de
almacenamiento digital con una tasa de transmisin mayor a 1.5 Mbit/seg.; este estndar se
llam MPEG-1 y fue lanzado en 1992.
MPEG-2 fue lanzado en 1994, con el fin de proveer calidad no menor a los estndares
NTSC/PAL y mayor al CCIR 601, con tasas de transmisin entre los 2 y 10 Mbit/seg.
Aplicaciones como distribucin digital de TV por cable, servicios de bases de datos en red por
medio de ATM (Asynchronous Transfer Mode), reproductores digitales de video y distribucin
de radiodifusin digital va satlite o terrestre se vieron beneficiadas del lanzamiento de este
estndar.
MPEG-4 tiene como objetivo el estandarizar algoritmos y aplicaciones para una flexible
codificacin y representacin de datos audiovisuales, para afrontar los cambios de las futuras
aplicaciones de multimedia. Particularmente debe tener una alta interaccin y funcionalidad,

debe codificar datos naturales y artificiales; as como una gran eficiencia en la compresin. La
velocidad de transmisin para MPEG-4 est entre lo 5-54 kbits/seg. para aplicaciones de video
redes telefnicas mviles o pblicas y arriba de 4 Mbit/seg. para aplicaciones de TV y
pelculas.
Un modelo general, MPEG consta de:
Un algoritmo de compresin en donde se establece como se van a eliminar las redundancias
de la seal de video. Existen bsicamente dos tipos de algoritmo para realizar la compresin
de imgenes los cuales son:
-Sin prdidas: Consiste en reducir el tamao de la imagen para no perder sus caractersticas y
calidad originales. La imagen codificada y la original deben de ser iguales antes que se
empiece el proceso de decodificacin
-Con prdidas: Es en este tipo de compresin en el que se basa MPEG y sus derivaciones (1,
2 y 4), el cual consiste en limitar o reducir la cantidad de bits, esto se debe a que la mayora
de las aplicaciones en transmisin de video tienen un ancho de banda limitado o restringido.
Es obvio que mientras ms pequea sea la cantidad de bits, se vuelve ms complicado el
proceso de compresin de la seal.
Un modelo del Codificador del video, en el cual se deben de eliminar las redundancias de las
seales, tanto espaciales como frecuenciales, con tcnicas como interpolacin y correlacin,
esto se realiza con tcnicas de interpolacin intertramas y de codificacin entre estas
manipulando los pxeles de las mismas, esto lo realiza a travs de DPCM/DCT (Differencial
Pulse Code Modulation / Discrete Cosine Transform)
Submuestreo e Interpolacin: El principio del submuestreo es reducir el tamao de la imagen,
tanto verticalmente como horizontalmente; y por consiguiente el de los pxeles que se
codificarn. En el receptor, las imgenes son interpoladas antes de que se decodifiquen
Prediccin Compensada de Movimiento: Es un proceso muy til usado en MPEG para eliminar
redundancias; se basa en la estimacin del movimiento entre dos tramas de video; estas
predicciones y el posible error son transmitidos al receptor.
Codificacin de Transformacin del Dominio: El propsito de la codificacin de transformacin
es de correlacionar el contenido de las inter o intra tramas de imagen de error y codificarlos
coeficientes de transformacin en vez de los pxeles originales de las imgenes.
Segn los requerimientos de la aplicacin hay dos filosofas para la codificacin de vdeo : la
codificacin sin prdidas (lossless) que reduce la cantidad de datos manteniendo tras la
decodificacin la misma calidad de imagen que la seal original, y la codificacin lossy, cuyo
objetivo est centrado en la disminucin de la tasa binaria para el almacenamiento o
transmisin de la informacin. sta ltima es la seguida por los estndares MPEG.
En muchas aplicaciones la informacin ha de ser comprimida para ser transmitida por una
canal con un ancho de banda limitado. En estas aplicaciones, la alta compresin se consigue
a cambio de una degradacin objetiva de la calidad de la seal tras su decodificacin. El
objetivo ltimo de las tcnicas de codificacin lossy es optimizar la calidad de la imagen para
una tasa requerida fija, segn criterios objetivos o subjetivos. Hay que mencionar que el grado
de degradacin de la imagen (tanto objetiva , como en lo concerniente a los artefactos
apreciables en ella) depende de la complejidad de la escena en particular tanto como de la
sofisticacin de la tcnica de compresin.
Las tcnicas de codificacin MPEG son de naturaleza estadstica. Las secuencias de vdeo
contienen normalmente redundancia estadstica en las dimensiones espacial y temporal. La
propiedad estadstica en la que se basa la compresin MPEG es la correlacin entre pxeles.
Se asume que la magnitud de un pxel determinado puede ser predicho mediante pxeles
cercanos del mismo cuadro (correlacin espacial), o lospxeles de cuadros cercanos
(correlacin temporal). Intuitivamente se puede apreciar que en los cambios abruptos de
escena, la correlacin entre cuadros adyacentes es pequea o casi nula, en ese caso es
mejor usar tcnicas de compresin basadas en la correlacin espacial en el mismo cuadro.
Los algoritmos de compresin MPEG usan tcnicas de codificacin DCT (transformada
discreta del coseno) sobre bloques de 8*8 pxeles para explotar la correlacin espacial. Sin
embargo, cuando la correlacin temporal es alta, en imgenes sucesivas de similar contenido,
es preferible usar tcnicas de prediccin temporal (DPCM : codificacin por modulacin
diferencial de pulsos). En la codificacin MPEG se usa una combinacin de ambas tcnicas
para conseguir una alta compresin de los datos.
Casi todas las tcnicas de codificacin de vdeo que veremos realizan submuestreo y
cuantificacin de la seal. El concepto bsico de submuestreo es reducir la dimensin
(espacial) de la imagen y, por tanto, el nmero de pxeles que deben ser codificados. En
algunos casos tambin se realiza un submuestreo en la dimensin temporal.
El proceso dual en recepcin es interpolar la imagen tras la decodificacin.
Esta tcnica hace uso de las caractersticas subjetivas de la visin humana, de forma que
elimina la redundancia subjetiva contenida en la imagen.
El ojo humano es mucho ms sensible a los cambios en la iluminacin que en la cromaticidad.
Lo que se hace en la codificacin MPEG es dividir la imagen en tres componentes (Y :
luminancia, U ,V : crominancia), y aplicar diferente submuestreo a la crominancia. Por ejemplo,
en MPEG-2 se usan unas relaciones Y :U :V tpicas de 4 : 1 : 1, o 4 : 2 : 2 .
3.1 CMO SE EXPLOTA LA CORRELACIN TEMPORAL ?
MPEG-1 y MPEG-2 utilizan la prediccin por compensacin de movimiento. El concepto de
compensacin de movimiento se basa en estimar el movimiento entre cuadros sucesivos. Por
ejemplo, si todos los elementos en una escena son desplazados aproximadamente igual, el
movimiento entre sucesivos cuadros puede ser definido por un cierto nmero de parmetros
(por ejemplo vectores de traslacin de lospxeles). La mejor prediccin del pxel actual vendr
dada en este caso por la compensacin de movimiento respecto al cuadro anterior.
Normalmente el error de prediccin junto con los vectores de movimiento, se transmiten al
receptor. Aprovechando la correlacin espacial, lo que se hace es agrupar bloques
de pxeles (16*16 en MPEG-1, y MPEG-2) y estimar un nico vector de movimiento para todo
el bloque.
3.2 CMO SE EXPLOTA LA CORRELACIN ESPACIAL ?
El propsito de la codificacin mediante DCT es decorrelar el error intra- o intercuadro y
codificar los coeficientes de la DCT en vez de lospxeles originales de la imagen. Para ello la
imagen de entrada se divide en bloques de N*N pxeles y se aplica la transformada a cada
uno de ellos para obtener la matriz de coeficientes N*N correspondiente . En recepcin,
los pxeles pueden ser recuperados aplicando la transformada inversa.
De entre todas las posibles alternativas, un tamao de bloque de 8*8 ha sido el que ha dado
resultados ms satisfactorios en la codificacin de vdeo.
El mayor objetivo de este tipo de codificacin es hacer que la mayora de los coeficientes sean
tan pequeos que no necesiten ser codificados para la transmisin. Al mismo tiempo, es
deseable minimizar las dependencias estadsticas entre coeficientes. Los coeficientes con
varianza menor son menos significativos para la reconstruccin del bloque que los coeficientes
con mayor varianza. En la prctica se observa que, como media, slo es necesario transmitir
una pequea cantidad de coeficientes al receptor para obtener una reconstruccin aproximada
de la imagen. Adems los coeficientes ms significativos son de valor pequeo.
As, mediante la combinacin de la prediccin por compensacin de movimiento y la
transformada DCT, se obtiene una representacin compacta de la seal temporal DPCM en el
dominio transformado. Esta combinacin es la clave de los estndares de codificacin MPEG.
4. EL ALGORITMO DE COMPRESIN MPEG
En 1988 se crea el comit MPEG (formalmente conocido como ISO/IEC JTC1/SC29/WG11),

siglas correspondientes a Moving Pictures Experts Group, con el fin de desarrollar una tcnica
de codificacin de vdeo y su audio asociado capaz de reducir la tasa binaria al entorno de los
1,5 Mbit/s. La calidad de la seal codificada debera ser lo suficientemente apropiada para su
posible empleo en aplicaciones que integrasen vdeo, sonidos, imgenes, texto y grficos,
tanto en computadores personales como en estaciones de trabajo profesionales.
Como consecuencia de ello surge el estndar ISO 11172 [4], mejor conocido como MPEG o
MPEG-1. Este estndar describe la estructura de la trama y el mecanismo bsico de
descompresin, dejando plena libertad en el procedimiento de compresin y en la arquitectura
del codificador y decodificador, siempre que se atengan a la sintaxis establecida. Se
identifican dos partes bien delimitadas:
Multiplexacin
La trama puede contener informacin de diversos "media". Es por tanto necesario disponer de
un procedimiento adecuado de multiplexacin de canales de datos, de informacin de
contenidos y de sincronizacin entre ellos. La descripcin de estos mecanismos aparece
detallada en la primera parte del estndar, conocida como la trama de sistema.
Compresin
Otra zona de la trama est dedicada exclusivamente a la codificacin de las seales de vdeo
y audio (partes segunda y tercera del estndar respectivamente).
En la figura 7 se muestra la estructura bsica de un decodificador MPEG. La informacin
proveniente de un sistema de almacenamiento o compresin digital necesita atravesar un
decodificador especfico del medio de transmisin empleado (sncrono o asncrono, continuo o
por paquetes, etc.) para regenerar la trama ISO 11172 original. Seguidamente sta ser
analizada por un decodificador de la trama de sistema, tras lo cual se podrn separar los
diferentes canales con contenidos comprimidos, as como la informacin de control y
sincronizacin asociada. Por ltimo, los diferentes decodificadores especficos se encargarn
de restaurar las seales originales de los diferentes "media". A continuacin se analizarn
brevemente cada una de las tres tramas bsicas del estndar MPEG (sistema, vdeo y audio)
[5,6,7], as como su evolucin.
figura 7. Decodificador ISO 11172 caracterstico

4.1 Trama de sistema
Es la estructura bsica que transporta tanto la informacin relativa a la multiplexacin de los
diversos canales, como al contenido intrnseco de cada uno de ellos. Puede contener
numerosos canales de audio y vdeo, y tambin de datos genricos o de usuario. La trama de
sistemas presenta una primera estructura en bloques de datos denominados "packs". Cada
"pack" contiene informacin genrica sobre sus contenidos, sobre la gestin de "buffers" en el
decodificador, as como marcas temporales para sincronizacin entre extremos. Adems,
cada "pack" puede contener subestructuras denominadas "packets". Dentro de cada "packet"
se encuentra informacin relativa exclusivamente a un determinado canal de informacin. Tras
una cabecera con informacin especfica sobre sincronizacin, se empaquetan los datos
comprimidos.
Trama de vdeo
El algoritmo de codificacin de vdeo desarrollado por MPEG cubre un amplio rango de
aplicaciones, lo que confiere al estndar la caracterstica de genrico. Asimismo es asimtrico
puesto que la mayor carga de procesamiento recae en el codificador, simplificando
considerablemente la complejidad del decodificador. El algoritmo alcanza una alta tasa de
compresin a costa de unas prdidas de calidad aceptables basndose en dos tcnicas de
codificacin:
La primera tcnica radica en la reduccin de la redundancia temporal.
En primer lugar se definen tres tipos de cuadros de imagen: Intra (I), Predictivos (P) y
Bidireccionales o interpolados (B). Los cuadros I son codificados sin referencia temporal
alguna a cuadros anteriores o posteriores, lo que supone una compresin menos eficiente
aunque les confiere la idoneidad de ser puntos de acceso en bsquedas aleatorias. Los
cuadros P son codificados ms eficientemente empleando prediccin por compensacin de
movimiento sobre un cuadro I o P anterior, pudiendo ser a su vez referencia para futuros
cuadros P (predicciones causales). Los cuadros B ostentan la mayor tasa de compresin.
Emplean compensacin de movimiento sobre cuadros I o P, tanto pasados como futuros
(prediccin bidireccional o interpolacin, no causal), no pudiendo ser empleados como
referencia. Estas compensaciones de movimiento se realizan sobre pequeas zonas de
imagen de 16316 pxeles (macro bloques), buscando dicho patrn en cuadros referencia
anteriores o posteriores y proporcionando finalmente los vectores del movimiento detectado.
Una secuencia de imgenes conteniendo un nico cuadro I en su origen (IBBPBBP...BBI...) se
denomina grupo de cuadros (GOP), el cual puede ser visualizado de forma independiente y
aleatoria.
El segundo procedimiento es la reduccin de la redundancia espacial.
Despus del primer proceso, la imagen diferencia entre la entrante y la precedida es
codificada empleando la tcnica de la transformada discreta del coseno (DCT) a nivel de
bloque. Este algoritmo permite la transformacin de reas de imagen en representaciones
bidimensionales de energa frente a frecuencia. A continuacin se aplica un proceso de
cuantificacin, con prdidas de informacin controladas por el nivel de llenado del "buffer" de
salida de datos codificados, y aplicado en menor medida a las zonas de baja frecuencia, en
las que el ojo es ms sensible. Los coeficientes resultantes son transformados en otros
recurriendo a tablas en las que los eventos ms probables son codificados con un menor
nmero de bits, lo que incrementa la eficiencia del proceso (codificacin entrpica).
En la figura 8 aparece detallado el encadenamiento de los procesos anteriormente descritos
para configurar un codificador y decodificador MPEG.
figura 8. Modelo de sistemas de codificacin de vdeo MPEG

En el codificador, la primera operacin a realizar es la provisin de imgenes de vdeo con la
resolucin deseada, y muestreadas por separado las componentes de luminancia (Y) y
crominancia (C). A continuacin la secuencia de imgenes sufre un reordenamiento para
permitir la codificacin previa de las referencias futuras (I o P) de los cuadros B:
I1B2B3P4B5B6P7B8B9I10B11B12.... => I1P4B2B3P7B5B6I10B8B9P13B11....
El proceso siguiente es la estimacin de movimiento, el cual genera un conjunto de vectores y
una imagen estimada. La diferencia entre el cuadro original y el estimado, en definitiva el error
de estimacin, es transformada mediante la DCT y posteriormente cuantificada (Q). Por ltimo
sufre un proceso de codificacin entrpica (VLC, Variable Length Coding) antes de pasar al
"buffer" de salida. La diferencia entre el nivel de llenado y el de vaciado de este "buffer" acta
como regulador del tamao del escaln de cuantificacin y, por tanto, sobre el factor de
compresin y la calidad final. La imagen comprimida resultante es reconstruida mediante los
procesos inversos (Q-1 y DCT-1), previo a su almacenamiento interno para referencias
futuras.
En el decodificador el procedimiento es el inverso al anterior, con la pequea diferencia que
representa el decodificador de longitud variable (VLD). La complejidad del sistema de
decodificacin es muy inferior al recproco, fundamento de los codificadores asimtricos.
La tasa caracterstica de vdeo codificado, en torno a 1,2 Mbit/s, proporciona una calidad de
imagen por lo general anloga al sistema de vdeo VHS.
El estndar MPEG se divide en tres partes: audio, vdeo y sistemas, siendo este ltimo el
encargado de coordinar los dos anteriores cuando se reproducen conjuntamente. Utiliza
mecanismos muy parecidos a la compresin grfica, pero se necesita un equipo bastante
potente para proceder a la compresin.
El algoritmo de compresin MPEG bsicamente es el siguiente :
1.Se reduce la resolucin al binomio 352x240. Posteriormente, se convierte la informacin del

color del sistema RGB al sistema YUV, que divide el color en valores luminescentes y
cromticos.
2 Se descartan las 3/4 partes de los valores cromticos, ya que el ojo humano no es capaz de
distinguir estos cambios.
3 Se utiliza una funcin de transformacin que traduce cada bloque de 8x8 pixels en un
conjunto de nmeros que describen el nivel de detalle de la imagen.
4 Los nmeros obtenidos se dividen por una constante y se redondean. Esto reduce el nmero
de valores semejantes.
5 Este es el paso ms importante de todos los mencionados: las cadenas de valores repetidos
se sustituyen por una nica cadena, y el nmero de veces que se repite.
Los valores restantes se comprimen mediante el cdigo Huffman.
6. Compresin entre cuadros: si un bloque de pixels es idntico al de una imagen anterior, se
sustituye por un puntero. Esta operacin se realiza con cuadros futuros, mediante complejas
tcnicas de previsin de datos.
5. TIPOS DE IMAGEN MPEG
MPEG define tres tipos de imgenes que se encadenan segn el esquema de la Figura 9. Los
cuales son el soporte de la codificacin diferencial y bidireccional, minimizando la propagacin
de errores.
Figura 9. Encadenamiento de los 3 tipos de imgenes MPEG

5.1. Las imgenes I (intra)
Son imgenes que no requieren informacin adicional para su decodificacin. Son codificadas
sin ninguna referencia a otras imgenes, como en JPEG, es decir, que contiene todos los
elementos necesarios para su reconstruccin por el decodificador y son, por ello, el punto de
entrada obligatorio para el acceso a una secuencia.
La tasa de compresin de imgenes I es relativamente pequea, comparable con la de JPEG
con prdidas. Ellas consisten ante todo de los coeficientes transformados y no contienen
vectores de movimiento.
5.2. Las imgenes P (previstas)
Se codifican con respecto a las imgenes de tipo I o P anteriores, gracias a las tcnicas de
prediccin con compensacin de movimiento. Como la compensacin de movimiento no es
perfecta, no se podr multiplicar indefinidamente el nmero de imgenes I, ya que, como se
utilizan para decodificar otras imgenes P o B, se propagan amplificando cualquier error de
codificacin.
Su tasa de compresin es claramente mayor que la de las imgenes I. Las imagines P

requieren aproximadamente la mitad de los datos de las imgenes I.
5.3 Las imgenes B (Bidireccionales)
Se codifican por interpolacin entre dos imgenes de tipo I o P precedentes y siguiente que
las enmarcan. Como no se utilizan para describir otras imgenes, las imgenes B no propagan
los posibles errores de codificacin.
Este tipo de imgenes es el que ofrece el factor de compresin ms alto, que generalmente es
de una cuarta parte de los datos de las imgenes I.
Dependiendo de la complejidad del codificador utilizado, se podrn codificar solo las imgenes
I, las imgenes I y P o las imgenes I, P y B; sin duda, con resultados absolutamente
diferentes a nivel del factor de compresin y en cuanto a las posibilidades de acceso aleatorio,
as como del tiempo de codificacin y de la calidad percibida.
Los dos parmetros M y N definen la manera en que las imgenes I, P y B se encadenan:
M es la distancia (en nmero de imgenes) entre dos imgenes P (previstas) sucesivas.
N es la distancia entre dos imgenes I (intra) sucesivas.
Para alcanzar un flujo de video de 1.15 Mbits/s con una calidad satisfactoria, al tiempo que se
mantiene una resolucin de acceso aleatorio aceptable (< 0.5 segundos), los parmetros
comnmente utilizados son M=3 y N= 12 como se muestra en la Figura 10.
Figura 10. Ejemplo de grupo de imgenes, para M=3, N=12

En este caso, una secuencia de video se compone de 1/12 (8.33%) de imgenes I, 1/4 (25%)
de imgenes P y de 2/3 (66.66%) de imgenes B. El factor de compresin global se ve
favorecida por el hecho de que son las imgenes ms frecuentes las que tienen un factor de
compresin mas alto.
En la visualizacin, tras la codificacin y decodificacin, es evidente que las imgenes de la
secuencia de video deben ser reproducidas en el mismo orden en que se captaron.
Con los parmetros definidos anteriormente (M=3, N=12), el modo de codificacin de
imgenes sucesivas se traduce por la correspondencia nmero tipo de imagen siguiente:
1(I) 2(B) 3(B) 4(P) 5(B) 6(B) 7(P) 8(B) 9(B) 10(P) 11(B) 12(B) 13(I) 14(B) 15(B) 16(P).....
Sin embargo, para codificar o decodificar una imagen B (Bidireccional), el codificador y el
decodificador necesitarn la imagen I o P que la precede y la imagen P o I que la sigue. El
orden de las imgenes ser, por tanto, modificado antes de la codificacin, de forma que el
codificador y el decodificador dispongan, antes que las imgenes B, de las imgenes I y/o P
necesarias para su tratamiento, o sea (Ver Figura 11):
1(I) 4(P) 2(B) 3(B) 7(P) 5(B) 6(B) 10(P) 8(B) 9(B) 13(I) 11(B) 12(B) 16(P) 14(B) 15(B).......
Figura 11. Comparacin de las imgenes antes y despus de la compresin, mostrando

un cambio de secuencia
El aumento del factor de compresin facilitado por las imgenes B se paga, pues, con un
tiempo de codificacin/decodificacin ms largo (duracin de dos imgenes) y un aumento en
el tamao de la memoria necesaria tanto en el codificador como en el decodificador (hay que
almacenar una imagen suplementaria).
La Figura 12 muestra una curva de calidad constante donde la rata de bits cambia con el
tiempo de codificacin. A la izquierda, solamente se utilizan imgenes I o codificacin
espacial, mientras que a la derecha solo se utilizan imgenes sucesivas IBBP. Esto significa
que hay una codificacin bidireccional de imgenes entre imgenes de codificacin espacial (I)
e imgenes previstas (P).
Figura 12. Curva de calidad constante
5.4 DESCOMPOSICION EN CAPAS DE UNA SECUENCIA DE VIDEO MPEG
Una secuencia de video MPEG es bsicamente la salida del material en bruto de un

codificador y contiene no mas que lo necesario para que un decodificador restablezca la
imagen original. La sintaxis de la seal comprimida es definida de manera rigurosa por MPEG,
as se asegura que el decodificador cumpla con esta.
La Figura 13 muestra la construccin de una secuencia de video MPEG constituida por capas
bien definidas.
Figura 13. Estructura de una secuencia de video MPEG

5.4.1. Bloque (Block)
Es la unidad fundamental de la informacin de la imagen y esta representada por un bloque de
coeficientes DCT, que tienen un tamao de 8x8 pixeles, los cuales representan datos Y, Cr o
Cb.
Aqu el coeficiente DC es enviado primero ya que este representa con mayor precisin la
informacin de este bloque. Los dems coeficientes son enviados al final de este.
5.4.2. Macrobloque (Macroblock)
Es la unidad fundamental de la imagen que adems est compensada en movimiento. Cada
macrobloque es un vector de desplazamiento en dos dimensiones situado en la parte superior
de la secuencia. En una imagen B, el vector puede ser hacia adelante o hacia atrs.
La compensacin de movimiento puede ser en modo de cuadro o en modo de campo, el cual
es indicado. La escala utilizada para la recuantificacin de los coeficientes tambin es
indicada. Usando los vectores, el decodificador obtiene informacin acerca de las imgenes
anteriores y las posteriores, produciendo as una prediccin de imgenes. Los bloques son
transformados inversamente para producir una imagen de rectificacin que es adicionada a la
imagen prevista que ha sido producida a la salida del decodificador.
En un formato de codificacin 4:2:0, cada macrobloque tendr 4 bloques Y, y dos bloques de
color diferente. Para hacer posible la identificacin de cada bloque y sus componentes, estos
se envan en un orden especifico. Cada macrobloque tiene un tamao de 16 x16 pixeles.
5.4.3. Rebanada (Slice)
Los macrobloques son reunidos en rebanadas, y aquellas siempre deben representar una fila
horizontal que est ordenada de izquierda a derecha.
En MPEG, las rebanadas pueden comenzar en cualquier sentido y ser de tamao arbitrario,
pero las ATSC (Advance Television Systems Committee) establecen que ellas deben
comenzar en el borde izquierdo de la imagen. Las rebanadas son la unidad fundamental de
sincronizacin para la codificacin de la longitud variable y diferencial, los vectores iniciales en
una rebanada son enviados completamente, mientras que los dems vectores son
transmitidos diferencialmente.
En imgenes I, los primeros coeficientes DC de las rebanadas son enviados completamente y
los dems coeficientes DC son transmitidos en forma diferencial. En imgenes de diferencia,
esta tcnica no se utiliza.
5.4.4. Imagen (Picture) de tipo I, P o B
Cuando un nmero de rebanas se combinan, construyen una imagen, la cual es la parte activa
de un campo o un cuadro.
La imagen de soporte inicial define qu imgenes I, P o B codifica e incluye una referencia
temporal para que la imagen pueda ser representada en el momento adecuado. En el caso de
tomas panormicas e inclinaciones, los vectores en cada macrobloque sern los mismos. Un
vector global puede ser enviado para toda la imagen, y luego se pueden enviar vectores
individuales que lleguen a crear la diferencia en el vector global.
5.4.5. Grupo de imgenes (Group Of Pictures o GOP)
Las imgenes pueden ser combinadas para producir un GOP (grupo de imgenes) que
comienza con una imagen I. El GOP es la unidad fundamental de codificacin temporal. En el
estndar MPEG, el uso de GOP es opcional, pero esta en la prctica es necesaria. Entre
imgenes I, un nmero variable de imgenes P y/o B pueden ser colocadas como ya se ha
descrito. Un GOP puede ser abierto o cerrado. En un GOP cerrado, las ultimas imgenes B
requieren de una imagen I para el siguiente GOP por decodificar y la secuencia de bits puede
ser cortada al final de la GOP.
5.4.6. Secuencia
Cuando algunas GOP son combinadas se produce una secuencia de video con un cdigo de
inicio, seguido por un encabezamiento, y luego termina con un cdigo final. Cdigos de
soporte adicional pueden ser situados al inicio de la secuencia. La secuencia de soporte
especifica el tamao horizontal y vertical de la imagen, norma de barrido, la rata de imgenes,
si se usa un barrido progresivo o entrelazado, el perfil, nivel, velocidad de transferencia de
bits, y cuales matrices de cuantificacin se usan para codificar imgenes espaciales y
temporales.
Sin la secuencia de soporte de datos, un decodificador no puede comprender el flujo de bits y
por lo tanto no puede comenzar la operacin de decodificacin correcta. Esto ocurre
generalmente cuando un televidente est cambiando canales de un lugar a otro en su
televisor.
6.MPEG-1
Ahora hablaremos un poco ms a fondo del estndar MPEG-1, el cual cubre muchas
aplicaciones que van desde sistemas interactivos en CD-ROM, hasta la entrega de videos en
una red. El soporte de un gran nmero de aplicaciones y una gran diversidad de parmetros
de entradas, tales como el tamao de la imagen o la cantidad de bits puede ser especificado
por el usuario. MPEG recomienda un conjunto de parmetros que son: que las fuentes de
video deben aceptar al menos parmetros mayores a los de TV, incluyendo un mnimo de 720
pixels por lnea, 576 lneas por imagen, 30 tramas por segundo y una velocidad mnima de
1.86 Mbits/seg.
Su algoritmo ha sido diseado en base a las actividades JPEG y el estndar CCITT H:261
(Internatonal Telephone Consultive Committee). Sin embargo MPEG-1 fue primordialmente
diseado para aplicaciones multimedia de CD-ROM que requieren una funcionalidad

soportada por encoders y decoders.
Una funcin importante de MPEG-1 es el reabastecimiento condicional, el cual indica que el
algoritmo de codificacin tiene la posibilidad de actualizar la informacin de los macrobloques
en el decodificador, slo si es necesario, esto es, si la informacin del macrobloque ha
cambiado en comparacin al contenido del mismo macrobloque de la imagen anterior, hay tres
formas de llevar a cabo el reabastecimiento condicional:
Salteamiento de macrobloques
Inter macrobloques
Intra macrobloques
Una posibilidad que tienen los algoritmos de MPEG-1 es la de ajustar la tasa de bits por
segundo, esto se obtiene al variar el tamao de los pasos de cuantizacin; pero el algoritmo
para el control de esta tasa no es parte del estndar de MPEG-1 y queda a juicio de los
implementadores estrategias eficientes para lograr este control. Es adems importante
recalcar que la eficiencia del algoritmo de control de la tasa depende en gran forma la calidad
de la imagen reconstruida.
7. LA TCNICA DE COMPRESIN MPEG-1.
El primer cuadro de una secuencia de vdeo se codifica de modo intracuadro, sin ninguna
referencia respecto a anteriores o futuros cuadros. Es lo que se llama I-picture. Los siguientes
cuadros se codifican usando prediccin intercuadro (P-picture). La prediccin se basa en los
datos del cuadro codificado inmediatamente anterior, ya sea I-picture o P-picture.
Cada cuadro es dividido en macrobloques no solapados, y cada macrobloque contiene
bloques de datos de luminancia y crominancia (cuatro bloques de luminancia, Y1, Y2, Y3, Y4,
y dos de crominancia, U y V), cada uno de tamao 8*8 pixels.
En el codificador se aplica la DCT a cada uno de los bloques de crominancia y luminancia. Se
obtienen a la salida los bloques de 64 coeficientes DCT, que son cuantificados uniformemente.
El escaln de cuantificacin empleado es transmitido al receptor.
Despus de la cuantificacin, el coeficiente DCT ms pequeo (coeficiente DC) se procesa de
forma diferente a los restantes (coeficientes AC).
El coeficiente DC representa la intensidad media del bloque en cuestin y se codifica usando
una tcnica de prediccin diferencial (debido a la fuerte correlacin entre coeficientes DC de
bloques adyacentes, se codifica la diferencia entre el del bloque anterior y el actual).
El resto de coeficientes son barridos en zig-zag y codificados segn un cdigo VLC (variable
lenght code). Esta tcnica transforma la imagen en dos dimensiones en una ristra de bits de
una dimensin. En el barrido se detectan los valores de los coeficientes AC no nulos, as como
la distancia que separa a dos consecutivos. Este par de valores se codifica con una sola
palabra cdigo (VLC).
En el decodificador se realizan las operaciones inversas. Se extraen y decodifican las palabras
cdigo, para obtener as la localizacin y el valor cuantificado de los coeficientes DCT no nulos
de cada bloque. Tras la reconstruccin y la aplicacin de la transformada inversa, se obtienen
los valores de los pixels de ese bloque. Realizando la operacin sucesivamente con todos los
bloques, se obtiene la reconstruccin de la imagen.
Para la codificacin de las P-pictures, el cuadro anterior es almacenado (FS, frame store)
tanto en el codificador como en el decodificador. La tcnica de compensacin de movimiento
se aplica sobre macrobloques, obteniendo los vectores de movimiento que son codificados y
transmitidos al receptor.
El error de prediccin se calcula para cada pixel de los contenidos en el macrobloque. Se
calcula posteriormente la DCT de los bloques 8*8 que conforman el macrobloque, se
cuantifican los coeficientes obtenidos y se codifican segn un cdigo VLC. En ste proceso es
necesario el uso de una buffer para asegurar una determinada tasa binaria.
El decodificador realiza el proceso inverso. Tras decodificar las palabras cdigo, se
reconstruyen los valores del error de prediccin. Los pixels compensados en movimiento del
cuadro anterior, almacenados en el FS, se aaden al error de prediccin para obtener el
macrobloque del cuadro actual.
figura 14 codificador y decodificador para MPEG1

La caracterstica de relleno condicional consiste en la posibilidad de transmitir o no al receptor
cierta informacin acerca de los macrobloques, segn las necesidades. Existen tres tipos
distintos de codificacin de los macrobloques (MB) :
- Skipped MB : no se transmite ni codifica informacin acerca del MB.
- Inter MB : usa prediccin por compensacin de movimiento. Se transmite al receptor el tipo,
direccin, vector de movimiento, coeficientes DCT, y escaln de cuantificacin del
macrobloque.
- Intra MB : slo usa prediccin basada en el propio cuadro. No transmite, por tanto, vector de
movimiento.
Una caracterstica importante de los algoritmos MPEG-1 es la flexibilidad en la tasa binaria,
que puede variarse ajustando el escaln de cuantificacin (en la cuantificain de los
coeficientes DCT) segn las exigencias de cada aplicacin en particular. Esto permite el
almacenamiento o transmisin de vdeo con alto nivel de compresin. Adems, el
decodificador puede variar el escaln en cada macrobloque adaptndose a las necesidades
de cada imagen.
Para el acceso a seales de vdeo almacenadas, MPEG-1 desarrolla funcionalidades como
FF, FR, o el acceso aleatorio. Para ello introduce el concepto de B-pictures.
Las I-pictures son codificadas sin referencia a otros cuadros. Permiten de este modo introducir
puntos de acceso que faciliten las funcionalidades mencionadas antes. Sin embargo, alcanzan
un bajo grado de compresin.
Las P-pictures no permiten estos puntos de acceso.
Las B- pictures (prediccin/interpolacin bidireccional) requieren anteriores y futuros cuadros

para la codificacin. Para conseguir mayor compresin se utiliza compensacin de movimiento
con el cuadro anterior y posterior (de tipo I o P).
Como norma general, una secuencia codificada usando slo I-pictures (IIII...) consigue el
mayor grado de accesibilidad pero la compresin ms baja. Si se codifica combinando I- y Ppictures (IPPPPPIPPPP...) se consigue una solucin de compromiso entre ambos aspectos, y
si se usa la combinacin de las tres (IBBPBBPBBI...) se consigue un alto grado de compresin
y una razonable accesibilidad, aunque se aumenta el retardo de codificacin, lo que lo hace
inviable para aplicaciones de videotelefona o videoconferencia.
8. MPEG-2
Uno de los factores que asegur el xito mundial de MPEG-1 fue su estructura genrica, la
cual soporta una gran variedad de aplicaciones, adems de parmetros especficos de estas.
Pero como todo evoluciona y est en mejora contina en 1991 se inicia la estandarizacin
MPEG-2 la cual se mencion brevemente al inicio del presente documento pero aqu se
abundar ms sobre este estndar, el cual fue lanzado en 1994. Fue desarrollado en conjunto
con un grupo de expertos en codificacin de video en ATM el ITU-T SG 15, de hecho MPEG-2
es idntico a la recomendacin ITU-T H.262.
Bsicamente MPEG-2 puede ser visto como un gran conjunto de MPEG-1, que como resulta
obvio, cada decodificador del primero puede decodificar una imagen del primero. Se le
agregaron nuevas cualidades para lograr un buen nivel de funcionalidad y cualidad; adems
de que agregaron nuevos mtodos de prediccin para la codificacin de video entrelazado. Se
adicionaron extensiones de codificacin para escalar video, para proveer ms funcionalidad,
como es el caso de la codificacin de TV digital y HDTV (High Definition Television).
MPEG-2 introduce los conceptos de Profile y Level. El primero define la adicin de varios
conjuntos de algoritmos como un super conjunto de algoritmos en el Profile de abajo. El level
indica el nmero de parmetros que se puede soportar para la implementacin.
9. EL ESTNDAR MPEG-2.
SIMPLE : incluye las funcionalidades del perfil MAIN, pero no soporta modos de prediccin
para las B-pictures. YUV : 4 : 2 : 0.
MAIN : la caracterstica ms importante son los modos de codificacin no escalados, tanto
para secuencias continuas como entrelazadas. Es una adaptacin del MPEG-1 para permitir el
entrelazado pero sin perder ninguna de las anteriores funcionalidades. Permite prediccin en
lasB-pictures y puntos de acceso. YUV : 4 :2 :0.
En secuencias con entrelazado, la entrada al codificador consiste en una serie de campos
pares e impares. Los dos campos de un cuadro deben ser codificados de forma separada. En
ese caso, cada campo se divide en macrobloques no solapados y se le aplica la transformada.
Otra alternativa es codificar los dos campos como un cuadro, de forma similar a una secuencia
continua. Para ello se mezclan las lneas pares y las impares formando el cuadro a codificar.
Para codificar cuadros y campos se desarrollaron nuevos mtodos de prediccin por
compensacin en movimiento. En la prediccin de un campo se usan uno o ms campos
anteriores. La eleccin del campo usado como referencia se transmite al receptor. La
prediccin de un cuadro se realiza en base a uno o ms cuadros anteriores.
SNR scalable : este perfil soporta las funcionalidades del perfil MAIN, pero aadiendo un
algoritmo para codificacin escalable SNR. YUV :4 :2 :0.
Los modos de codificacin escalable que se aaden a partir de este perfil, permiten
interoperabilidad entre varios servicios y flexibilidad en los receptores, de forma que aquellos
que no sean capaces o no deseen la reconstruccin de la seal a la resolucin completa en
que fue codificada, puedan decodificar a una resolucin temporal o espacial menor, o con
menos calidad. Este aspecto es importante en la compatibilidad entre HDTV y la definicin
estndar de TV, de modo que un receptor HDTV pueda interpretar tambin la seal
convencional.
La codificacin escalable SNR se desarroll para permitir una cierta degradacin en
transmisiones prioritarias. Si el nivel base puede ser protegido frente a errores en el canal,
decodificando nicamente este nivel puede obtenerse una versin del vdeo original. Tanto el
nivel bsico como el superior codifican la seal a la misma resolucin espacial. En el nivel
bsico los coeficientes DCT son cuantificados a grosso modo, consiguiendo una calidad
moderada pero una baja tasa binaria. En el nivel superior se codifica la diferencia entre los
coeficientes no cuantificados y los cuantificados en el nivel bsico con un escaln mucho ms
fino.
SPATIAL Scalable : este nivel aade al anterior la escalabilidad espacial. YUV :4 :0 :0.
Este algoritmo soporta displays con diferente resolucin en el receptor, consiguiendo menor
resolucin espacial si se decodifica solo el nivel base de la informacin recibida. Esta
funcionalidad es til para la compatibilidad HDTV/TV, permitiendo una migracin de servicios
de TV digital a servicios de mayor resolucin espacial.
* HIGH : este perfil aade la representacin 4 :2 :2 y la posibilidad de codificacin en tres
niveles, incluyendo los modos escalables SNR y espacial.
Otros modos desarrollados por MPEG-2, fueron la escalabilidad temporal y la particin de
datos
9.1 CDIGOS DE EXTENSIONES NO ESCALABLES PARA MPEG-2
MPEG-2 se basa en DPCM/DCT al igual que MPEG-1, incluyendo una estructura de
macrobloques, compensacin por movimiento y modos de codificacin para reabastecimiento
condicional de macrobloques.
MPEG-2 introduce los conceptos de trama de imagen, campo de imagen junto con sus formas
de acomodar la codificacin de video progresivo y entrelazado, que son prediccin de trama y
campo.
En las predicciones de campo , estas son hechas independientemente para cada campo
usando datos de uno o ms campos decodificados previamente.
La prediccin de trama, crea una prediccin para una trama de imgenes, basada en tramas
previamente decodificadas. Ya sea en un campo o una trama de imgenes las predicciones
pueden ser usadas y el modo de prediccin preferido puede ser seleccionado de un
macrobloque o una base de macrobloques.
MPEG-2 ha introducido compensacin por movimiento para hacer ms eficiente la exploracin
de redundancias temporales entre campos.
MPEG-2 cuenta con formatos de radio de submuestreo de luminancia y crominancia, para
aplicaciones con altos requerimientos de calidad de video.
9.2 CDIGOS DE EXTENSIONES ESCALABLES PARA MPEG-2
Las aplicaciones escalables de MPEG-2, soportan aplicaciones por arriba de los que se han
establecido en el cdigo del algoritmo del Profile principal. Esto provee la interoperabilidad
entre diferentes servicios y la de soportar receptores con diferentes capacidades de
desplegado. Otro propsito es proveer video en capas que pueda ser prioritizado para su
transmisin.
10 COMPRESIN DE VIDEO EN EL ESTNDAR MPEG-2
(APLICACIONES BROADCAST)
MPEG-2 puede describirse como una " caja de herramientas" de compresin ms compleja
que MPEG-1, por lo tanto, tambin puede ser considerada como una unidad superior: en
efecto, toma todas las herramientas anteriores y le aade otras. Adems, la norma prev la
compatibilidad ascendente, lo que significa que un decodificador MPEG-2 deber decodificar
trenes binarios elementales de la norma MPEG-1.
10.1 PERFILES Y NIVELES MPEG-2
MPEG-2 se puede utilizar en un vasto rango de aplicaciones, requiriendo diferentes grados de

complejidad y desempeo.
Para un propsito practico el estndar MPEG-2 es dividido en perfiles y cada perfil es
subdividido en niveles (Ver la Figura 15). Un perfil es bsicamente el grado de complejidad
esperada en la codificacin, mientras que un nivel describe el tamao de la imagen, la
resolucin de esta o la velocidad de transferencia de bits usada en ese perfil. En principio, hay
24 combinaciones posibles, pero no todas estn definidas. Un codificador MPEG cuando
entrega un perfil y un nivel determinado, debe adems ser capaz de decodificarlo a perfiles y
niveles inferiores.
Figura 15. Niveles y perfiles de MPEG-2

Un perfil simple no soporta una codificacin bidireccional y de este modo solo genera
imgenes I y P. Esto reduce la tasa de compresin simplificando el codificador y el
decodificador; permitiendo un sencillo hardware. Un perfil simple solamente est definido en el
nivel main (principal) como (SP@ML). El perfil main (principal) corresponde actualmente al
mejor compromiso entre calidad/tasa de compresin, utilizando los tres tipos de imgenes (I, P
y B), a costa de un codificador y decodificador, ms complejos.
Los perfiles escalables (cdigo jerrquico) estn previstos para operaciones posteriores y
permitirn transmitir una imagen bsica (base layer) en trminos de resolucin espacial
(spatially scalable profile) o de cuantificacin (SNR scalable profile), as como informacin
suplementaria independiente (enhanced layer) que permite mejorar sus caractersticas, por
ejemplo para transmitir la misma emisin en definicin estndar y HD (High Definition), o
permitir una recepcin con calidad aceptable en caso de recepcin difcil y de calidad ptima
en buenas condiciones (por ejemplo, para la televisin digital terrestre).
La Figura 16 muestra un codificador MPEG convencional, con coeficientes de cuantificacin
de elevado peso; que al codificar una imagen la genera con una moderada razn seal a
ruido. Despus esta imagen al ser decodificada y sustrada de la imagen original pixel a pixel
da como resultado una imagen de "ruido de cuantificacin". Esta imagen puede ser
comprimida y transmitida como una imagen de ayuda. Un simple decodificador solo decodifica
la imagen principal, con un flujo de bit con ruido de cuantificacin, pero un decodificador ms
complejo puede decodificar ambas imgenes con diferentes flujos de bits y combinarlos para
producir una imagen con bajo ruido. Este es el principio del perfil SNR escalable.
Figura 16. Codificacin escalable SNR

Como otra alternativa, la Figura.17 muestra que por solo codificar las frecuencias espaciales
bajas en imgenes HDTV, parte del flujo de bits puede ser reconstruido por un receptor con
codificador para SDTV (Standard Definition TeleVision). Si una imagen de baja definicin es
localmente decodificada y sustrada de la imagen original, se produce entonces una imagen
de "realce de definicin", esta imagen puede ser codificada en una seal de ayuda. Un
decodificador de forma conveniente podra combinar las seales principales y de ayuda para
recrear la imagen HDTV. Este es el principio del perfil de escalabilidad espacial.
Figura 17. Codificador espacial escalable

El perfil high (alto) soporta tanto el SNR y la escalabilidad espacial como tambin la opcin de
muestreado 4:2:2.
El perfil 4:2:2 se ha desarrollado para proveer compatibilidad con los equipos de produccin
digital de televisin existentes. Este perfil admite trabajar con 4:2:2 sin requerir una
complejidad adicional si se usa en el perfil high. Por ejemplo, un decodificador HP@ML debe
soportar escalabilidad SNR que no es requerida en la produccin de televisin digital. El perfil
4:2:2 tiene la misma libertad de escoger su estructura de GOP como en otros perfiles, pero en
la prctica este usa comnmente GOPs cortos de edicin sencilla. La operacin 4:2:2 requiere
una mayor velocidad en la transmisin del bit que una operacin 4:2:0, y el uso de pequeos
GOPs requiere tambin de mayores velocidades de transferencia de bits para proporcionar
calidad en sus imgenes.
El nivel low (bajo) corresponde a la resolucin SIF utilizada en el MPEG-1.
El nivel main (principal) corresponde a la resolucin 4:2:0 "normal" (de hasta 720 pixeles x 576
lneas).
El nivel high-1440 (alto-1440) est destinado a la HDTV (de hasta 1440 pxeles x 1152 lneas).
El nivel high (alto) est optimizado para la HDTV (de hasta 1920 pxeles x 1152 lneas).
Segn el compromiso de calidad/flujo de bits perseguido y la naturaleza de las imgenes, el
flujo de bits estar comprendido entre los 4 Mbits/s (calidad equivalente a la de una imagen
codificada en PAL o SECAM) y los 9 Mbits/s (calidad prxima a la de una imagen de estudio
CC1R-601).
Todo el proceso de codificacin de las imgenes animadas descrito en el captulo anterior
para MPEG-1 se aplica a MPEG-2 (MP@ML), especialmente la jerarqua de capas (desde el
bloque hasta la secuencia de la Figura 18).
Figura 18. Jerarqua de capas de la secuencia

Una diferencia que hay que destacar para las slices, es que en MPEG-2 no necesariamente
abarcan toda la imagen, y adems deben estar compuestas nicamente de macrobloques
contiguos situados en la misma lnea horizontal. Ver Figura. 19.
Figura 19. Rebanadas (slices) en MPEG-2

La principal novedad con respecto a MPEG-1, adems de los perfiles y niveles, provienen del
tratamiento de las imgenes entrelazadas.
10.2 MODOS DE PREDICCIN ESPECFICOS EN MPEG-2 (IMGENES ENTRELAZADAS)
Dependiendo del trabajo a realizar, estas pueden ser tratadas de manera diferente segn la
importancia de los movimientos entre los dos campos de una misma imagen (los casos
extremos son, por un lado, cuando se transmiten pelculas cinematogrficas por televisin
"telecine" donde no hay movimiento entre los dos campos de TV, puesto que proceden de la
exploracin del mismo fotograma de la pelcula, y por otro lado, las imgenes de video de
acontecimientos deportivos, donde puede haber importantes movimientos entre los dos
campos de una imagen).
La Figura 20 representa la secuencia temporal de la posicin vertical de las lneas de los
campos sucesivos en un sistema entrelazado.
Figura 20. Posicin de las lneas de campos sucesivos en un sistema entrelazado

Para la codificacin Intra de las imgenes entrelazadas, MPEG-2 permite elegir entre dos
estructuras de imgenes llamadas frame (estructura "imagen") o field (estructura "campo").
10.3 LA ESTRUCTURA "FRAME"
Tambin llamada "progresiva", es apropiada para los casos donde hay poco movimiento entre
dos campos sucesivos. Los bloques y macrobloques se dividen en la imagen completa (Ver
Figura. 21), y la DCT se efecta, sobre puntos verticales que distan 20 ms en el tiempo, lo que
no plantea problemas si los dos campos difieren poco.
Figura 21. Divisin de los macrobloques en bloques en modo imagen (frame)

En este caso, siempre es posible codificar los bloques de mayor animacin en modo intercampo, es decir, dividindoles en un campo.
10.4 LA ESTRUCTURA "FIELD"
Tambin llamada "entrelazada", es preferible cuando el movimiento de un campo a otro es

importante. En este caso, a fin de evitar un contenido en frecuencias verticales elevadas que
reducira la eficacia de la compresin tras efectuar la DTC, la divisin de los macrobloques se
hace considerando cada uno de los campos como una imagen independiente en el interior del
cual se toman los bloques. Ver Figura 22.
Figura 22. Divisin de los macrobloques en bloques en modo campo (field)

En cuanto a la estimacin de movimiento, tambin hay varios modos previstos:
Un macrobloque puede predecirse en modo "imagen", "campo" o "mixto"
El Modo "Frame"
Un macrobloque formado en el campo impar sirve para predecir el bloque correspondiente del
prximo campo impar, y lo mismo para los bloques del campo par, por tanto, la prediccin se
hace sobre un tiempo de 40 ms (2 campos).
El Modo "Field"
La prediccin de un bloque se efecta a partir de un bloque del campo anterior, entonces aqu,
los vectores de movimiento corresponden a un tiempo de 20ms.
El Modo "Mixto"
Los bloques se predicen a partir de dos bloques que corresponden a dos campos.
10.5 SCANNING (Exploracin)
Despus de realizar la DTC a un bloque de 8x8 pixeles, se nota que generalmente los
coeficientes ms significativos de la DTC se encuentran en la parte superior izquierda de la
matriz. Una vez evaluados, los coeficientes de menor valor pueden ser redondeados a cero.
Permitiendo de este modo, una transmisin de datos ms eficiente, debido a que los
coeficientes no-cero son enviados primero, seguido de un cdigo el cual indica que todos los
dems nmeros son ceros.
La exploracin es una tcnica que aumenta la probabilidad de alcanzar este resultado, porque
ella enva los coeficientes en orden descendente segn su probabilidad. La Figura 23 muestra
que en un sistema no-entrelazado, la probabilidad de hallar coeficientes de mayor peso es
ms alta en la parte superior izquierda que en la parte inferior derecha. Aqu una exploracin
en forma diagonal a 45 es la que se denomina una exploracin en zig-zag, la cual es la mejor
secuencia para emplear en este caso.
Figura 23. Exploracin clsica o en zig-zag, normalmente para cuadros (frames)

En la Figura 24 muestra una exploracin para una fuente entrelazada, se observa que la
exploracin se extiende dos veces ms por encima del rea vertical, de este modo se pueden
conseguir ms detalles acerca de la imagen. Las frecuencias verticales aparecen dos veces
ms que las frecuencias horizontales. Por tanto, la exploracin ideal para una imagen
entrelazada ser sobre una diagonal de 67.5. La Figura 24 muestra que esta forma de
exploracin, entrega primero las frecuencias espaciales verticales y luego las frecuencias
espaciales horizontales.
Figura 24. Exploracin alternada, normalmente para campos (fields)
10.6 DESCRIPCIN DEL PROCESO DE CODIFICACIN MPEG-2
Al igual que MPEG-1, la norma no define explcitamente el mtodo de codificacin, sino

nicamente la sintaxis que controla el tren binario a la salida del codificador, lo cual deja gran
libertad a su diseador.
El esquema de bloques MPEG-1, tambin se aplica al codificador MPEG-2. Ver Figura 25.
Figura 25. Esquema simplificado del codificador MPEG-2

A partir de la imagen digitalizada en formato 4:2:0 (caso del main profile), el codificador elige
para cada imagen su tipo (I, P o B) y si esta debe ser codificada en modo frame (imagen) o
field (campo). El codificador a continuacin debe estimar los vectores de movimiento para
cada macrobloque de 16x16 pixeles. El nmero de vectores depende del tipo de imagen y del
modo de codificacin escogido para cada bloque.
En el caso ms general, donde el codificador es capaz de generar imgenes B

(bidireccionales), deber reordenar las imgenes antes de la codificacin y la transmisin.
La unidad bsica de codificacin es el macrobloque, compuesto por 4 bloques de luminancia
de 8x8 pixeles y (en el caso del formato 4:2:0) de 2 bloques de crominancia (un Cr y un Cb) de
8x8 pixeles que abarcan la misma zona de la imagen.
Todos los macrobloques de la imagen se codifican secuencialmente de izquierda a derecha y
de arriba abajo, eligindose un modo de codificacin independiente para cada uno de ellos.
Una vez que se ha elegido el modo de codificacin, la prediccin con compensacin de
movimiento del contenido del bloque se hace a partir de la imagen de referencia (I o P) pasada
(caso de las imgenes P) y eventualmente futura (caso de las imgenes B). La prediccin se
elimina de los datos reales del macrobloque, lo que da la seal de error de prediccin.
En una imagen con estructura frame, el codificador deber elegir entre efectuar la DTC en
modo frame o field. Esto depende principalmente de la amplitud del movimiento entre los
campos de la imagen.
La seal de error se separa inmediatamente en bloques de 8x8, a los que se aplica la DTC.
Cada bloque de coeficientes resultante se cuantifica y barre en zig-zag para formar una serie
de coeficientes. Seguidamente, se codifica la informacin auxiliar necesaria para que el
decodificador pueda reconstruir el bloque (modo de codificacin, vectores de movimiento,
etc.), codificando los coeficientes cuantificados con ayuda de una tabla VLC (codificacin
Huffman).
La unidad de control de flujo supervisa el estado de ocupacin de la memoria intermedia de
salida, utilizando esta informacin como retorno para controlar el nmero de bits que el
codificador generar para los bloques siguientes, jugando principalmente con los coeficientes
de cuantificacin. Se obtiene entonces a la salida del codificador un tren binario completo, ya
utilizable para un decodificador.
Para aumentar la calidad de la imagen decodificada, el propio codificador almacena y
decodifica (decuantificacin de los coeficientes despus de la DTC inversa) las imgenes I y
P, como referencia para reconstruir otras imgenes obtenidas por prediccin con
compensacin de movimiento en el decodificador, y calcula una seal de error que se aade a
la seal de prediccin.
10.7 DESCRIPCIN DEL PROCESO DE DECODIFICACIN MPEG-2
Como ya se ha dicho, la decodificacin es ms sencilla que la codificacin, ya que no tiene

que efectuar alguna estimacin de movimiento, que es una de las partes ms complejas del
codificador.
El esquema de bloques del decodificador de la Figura 26 es el que se va a analizar para
MPEG-2.
Figura 26. Esquema simplificado del decodificador MPEG-2

La memoria intermedia (buffer) de entrada recibe los datos del canal de transmisin, y el
decodificador lee el tren binario hasta encontrar el principio de una imagen, su tipo (I, P o B) y
su estructura (frame o field).
Empieza la decodificacin con la primera imagen I, almacenndola en su memoria, as como
la imagen P siguiente, para servir de referencia a las imgenes P o B que dependen de ella.
Para las imgenes I, la decodificacin propiamente dicha consiste en aplicar a cada bloque la
decodificacin VLC, la decuantificacin de los coeficientes y la transformacin DTC inversa.
Para las imgenes P o B, este proceso consiste en construir la prediccin de cada
macrobloque a partir de su tipo, de los vectores de movimiento y de las imgenes de
referencia memorizadas. El decodificador lee, decodifica y decuantifica los coeficientes DTC
del error de prediccin transmitido para cada bloque de 8x8 pixeles, y, despus de la
transformada DTC inversa, aade el resultado a la prediccin.
La reconstruccin de la imagen se efecta cuando todos los macrobloques han sido tratados.
La ultima etapa de la decodificacin es poner las imgenes en el orden inicial de visualizacin.
Como se vio anteriormente, la necesidad de memoria para el decodificador es de unas 3
imgenes (dos imgenes de referencia ms la imagen en va de reconstruccin), siendo para
una imagen 4:2:0, de aproximadamente 16 Mbits.
11. CMO TRABAJA MPEG?
MPEG trabaja en fases. Estas fases son normalmente denotadas por nmeros rabes
(MPEG-1, MPEG-2, MPEG-4). Las actividades de audio de la primera fase, MPEG-1, fueron
finalizadas en 1992 y discutidas en la International Standard ISO/IEC 11172-3, la cual fue
publicada en 1993. Parte de las actividades de audio en la segunda fase, MPEG-2, han sido
terminadas en 1994 y discutidas en la International Standard ISO/IEC 13818-3, la cual fue
publicada en 1995. Otra fase, en vas de aparicin, la denominada MPEG-4, est planeada
para terminar en 1998.
Tanto en MPEG-1 como en MPEG-2, han sido definidas tres capas -Layers, en inglsdiferentes, a veces llamadas incorrectamente "niveles". Estas capas representan una familia
de algoritmos de codificacin. Las capas son preferentemente denotadas por nmeros
romanos, esto es, Layer I, Layer II y Layer III..
Las distintas capas han sido definidas porque todas ellas tienen sus ventajas. Bsicamente, la
complejidad de los codificadores y decodificadores, el retraso cod/decod, y la eficacia de
codificacin incrementan a medida que vamos desde Capa I hasta Capa III pasando por Capa
II. La Capa I es la de menor complejidad y es especficamente adecuada para aplicaciones
donde tambin la complejidad del codificador juega un importante papel. La Capa II requiere
un codificador ms complejo y un decodificador ms complejo y delicado, y est dirigida hacia
muchas aplicaciones. A diferencia de la Capa I, la Capa II es capaz de quitar ms redundancia
de la seal y aplicar el umbral psicoacstico ms eficientemente. La Capa III es an ms
compleja y est dirigida hacia aplicaciones de bajas tasas de bit debido a la redundancia e
irrelevancia adicional de la extraccin de la resolucin de la frecuencia realzada en su banco
de filtro.
12. APLICACIONES GENERALES

Dentro del mercado profesional y del consumidor, pueden ser definidos cuatro campos de
aplicacin: radiodifusin, almacenamiento, multimedia y telecomunicacin. Esta variedad de
aplicaciones es posible debida al extenso rango de tasas de bits y a las numerosas
configuraciones, permitidas dentro del standard MPEG audio. Algunas de las aplicaciones ms
importantes son:
Grabaciones para consumidor (DCC)

Almacenamiento basado en disco (CD-i, CD-Vdeo)
DVD
Edicin fundamentada en disco, automatizacin de las estaciones de radiodifusin
Slidos estados de almacenamiento para audio
TV por cable y satlite (pe. DVB, USSB, DirectTV, EchoStar)
Radio va cable
Radiodifusin de audio digital (pe. ADR, DAB, US-Radio Digital, Worldspace Radio)
Radio va Internet
Multimedia basada en ordenadores
Contribucin de enlaces
Distribucin de enlaces
Enlaces ISDN
CONCLUSIONES
El sistema visual humano tiene limitaciones fundamentales en la respuesta en frecuencia,

como lmites para resolver detalles finos, o transiciones de intensidad. Los factores limitantes
son el nmero y organizacin de los fotorreceptores en la retina, la calidad de la parte ptica
del ojo (crnea, humor acuoso, cristalino, y humor vtreo), y la transmisin y procesamiento de
la informacin visual al cerebro.
El ojo humano puede observar todos los colores del espectro visible, "mezclando" los tres
colores primarios, rojo, verde y azul, lo que se aprovecha en la televisin, con las seales R, G
y B.
En el video digital, las copias son exactamente iguales los originales, por lo tanto pueden
hacerse infinidad de grabaciones sin prdida alguna de la calidad.
Las redes de comunicaciones desarrolladas para manejar datos pueden llevar perfectamente
video digital acompaado tambin de audio a distancias indefinidas sin prdidas de calidad.
La compresin de imgenes se basa fundamentalmente en la eliminacin de las redundancias
de codificacin, entre pxeles y psicovisual de la imagen, tratando de dejar solamente la
entropa.
En la compresin sin prdidas la imagen comprimida se puede reproducir exactamente igual a
la original.
En la compresin con prdidas hay una prdida de informacin irreversible, por lo que la
imagen no se puede recuperar como la original.
La compresin con prdidas logra factores de compresin mayores que en la compresin sin
prdidas.
Las tcnicas de compresin con prdidas son, en general ms complejas que las tcnicas de
compresin sin prdidas.
En la tcnica de codificacin por Transformacin, la DCT condensa la energa en una cantidad
pequea de coeficientes, permitiendo eliminar los dems, para as obtener una compresin de
la imagen.
En la compresin JPEG se utiliza una combinacin de tcnicas de compresin sin prdidas y

con prdidas.
El estndar JPEG es un estndar de compresin espacial o intra.
En la compresin intra o espacial se hace en dos dimensiones, mientras que en la compresin
inter o temporal se hace tres dimensiones, ya que adems de los dos ejes espaciales, tambin
entra a hacer parte de esta en eje del tiempo.
A diferencia de la codificacin espacial, con la codificacin temporal se obtienen altos factores
de compresin.
La codificacin temporal se aprovecha de la estimacin del movimiento de los macrobloques,
por medio del vector de movimiento, para no tener que enviar toda la imagen, sino slo la
parte de la imagen que se mueve.
El MPEG 2 es un estndar de compresin para imgenes con movimiento a velocidades de
pixel entre 5 y 10 Mbit/s. El estndar de video consiste de cinco perfiles, referido a la
complejidad del algoritmo de compresin y cuatro niveles, los cuales se refieren a la
resolucin del video original.
MPEG 2 es un estndar emergente para reproducir video en pantalla completa y audio con
calidad de transmisin; est ms orientado hacia la televisin que MPEG 1, adems de que la
calidad de la imagen es superior.
El tren de transporte est destinado a la transmisin de programas a larga distancia, por lo
que est sujeto a muchos errores; mientras que el tren de programa est destinado a
aplicaciones donde el dispositivo de almacenamiento o transmisin es poco susceptible a los
errores.
Como no puede dependerse de la llegada del paquete anterior antes de descomprimir el
paquete actual, MPEG 2 no es ideal para transmisin va Internet.
El estndar MPEG-2, al haber sido aceptado en Amrica, Europa y Asia, se ha convertido en
el soporte bsico sobre el que se desarrollar la televisin digital en los prximos aos.
MPEG-2 estar presente en la difusin de programas de televisin por satlite, cable, redes
terrenas y grabaciones en discos pticos. Muchos sistemas de produccin y archivo de
programas harn uso de MPEG-2 en su perfil de estudio 4:2:2. La compresin MPEG2 ser el
flujo vital que llenar de sonido y color el entorno multimedia.
Otras aplicaciones importantes de los algoritmos MPEG estn en los famosos MP3, los cuales
comprimen la msica hasta una dcima parte.

El Algoritmo de Compresión Mpeg

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

El Algoritmo de Compresión Mpeg

Uploaded by

Copyright:

Available Formats

EL ALGORITMO DE COMPRESIN MPEG

10.2 MODOS DE PREDICCION ESPECIFICOS EN MPEG2

conocer la evolucin de los algoritmos de compresin de video y las investigaciones precedentes.

Analizar el mecanismo para comprimir y descomprimir informacin de video.

Aprender los conceptos mas importantes acerca de los algoritmos de compresin.

La compresin de video surge de la necesidad de transmitir imgenes a travs de un canal

Figura 1. Codificacin intra o espacial, explora la redundancia dentro de la imagen

Figura 2. Codificacin inter o temporal, explora la redundancia entre imgenes

1.1 CODIFICACIN INTRA O ESPACIAL

TRANSFORMADA DISCRETA DEL COSENO

ECUACIN 1. TRANSFORMADA DISCRETA DEL COSENO

ECUACION 2 TRANSFORMADA DISCRETA INVERSA DEL COSENO

1.2 CODIFICACIN INTER O TEMPORAL

I=Imagen codificada intra

Pictures). Para factores de compresin altos se utiliza un nmero grande de imgenes P,

1.3 CODIFICACIN BIDIRECCIONAL

Figura 5. Concepto de la codificacin bidireccional

Figura 6. Codificacin bidireccional

2. COMPRESIN DE VIDEO EN EL ESTNDAR MPEG

En el ao de 1990, la ISO, preocupada por la necesidad de almacenar y reproducir imgenes

aplicaciones de multimedia. Particularmente debe tener una alta interaccin y funcionalidad,

En 1988 se crea el comit MPEG (formalmente conocido como ISO/IEC JTC1/SC29/WG11),

figura 7. Decodificador ISO 11172 caracterstico

figura 8. Modelo de sistemas de codificacin de vdeo MPEG

1.Se reduce la resolucin al binomio 352x240. Posteriormente, se convierte la informacin del

Figura 9. Encadenamiento de los 3 tipos de imgenes MPEG

Su tasa de compresin es claramente mayor que la de las imgenes I. Las imagines P

Figura 10. Ejemplo de grupo de imgenes, para M=3, N=12

Figura 11. Comparacin de las imgenes antes y despus de la compresin, mostrando

Figura 12. Curva de calidad constante

5.4 DESCOMPOSICION EN CAPAS DE UNA SECUENCIA DE VIDEO MPEG

Una secuencia de video MPEG es bsicamente la salida del material en bruto de un

Figura 13. Estructura de una secuencia de video MPEG

diseado para aplicaciones multimedia de CD-ROM que requieren una funcionalidad

figura 14 codificador y decodificador para MPEG1

Las B- pictures (prediccin/interpolacin bidireccional) requieren anteriores y futuros cuadros

10.1 PERFILES Y NIVELES MPEG-2

MPEG-2 se puede utilizar en un vasto rango de aplicaciones, requiriendo diferentes grados de

Figura 15. Niveles y perfiles de MPEG-2

Figura 16. Codificacin escalable SNR

Figura 17. Codificador espacial escalable

Figura 18. Jerarqua de capas de la secuencia

Figura 19. Rebanadas (slices) en MPEG-2

10.2 MODOS DE PREDICCIN ESPECFICOS EN MPEG-2 (IMGENES ENTRELAZADAS)

Figura 20. Posicin de las lneas de campos sucesivos en un sistema entrelazado

10.3 LA ESTRUCTURA "FRAME"

Figura 21. Divisin de los macrobloques en bloques en modo imagen (frame)

10.4 LA ESTRUCTURA "FIELD"

Tambin llamada "entrelazada", es preferible cuando el movimiento de un campo a otro es

Figura 22. Divisin de los macrobloques en bloques en modo campo (field)

10.5 SCANNING (Exploracin)

Figura 23. Exploracin clsica o en zig-zag, normalmente para cuadros (frames)

Figura 24. Exploracin alternada, normalmente para campos (fields)

10.6 DESCRIPCIN DEL PROCESO DE CODIFICACIN MPEG-2

Al igual que MPEG-1, la norma no define explcitamente el mtodo de codificacin, sino

Figura 25. Esquema simplificado del codificador MPEG-2

En el caso ms general, donde el codificador es capaz de generar imgenes B

10.7 DESCRIPCIN DEL PROCESO DE DECODIFICACIN MPEG-2

Como ya se ha dicho, la decodificacin es ms sencilla que la codificacin, ya que no tiene

Figura 26. Esquema simplificado del decodificador MPEG-2

12. APLICACIONES GENERALES

Grabaciones para consumidor (DCC)

El sistema visual humano tiene limitaciones fundamentales en la respuesta en frecuencia,

En la compresin JPEG se utiliza una combinacin de tcnicas de compresin sin prdidas y