You are on page 1of 54

TEMA 5

Compresin de Audio
5.1 COMPRESIN
Enn este captulo se presentan los conceptos bsicos fundamentales relacionados con la compre-
sin de audio, describiendo superficialmente el estndar MPEG-1. Algunos conceptos son exac-
tamente iguales a los descritos para la compresin de vdeo, y se retoman aqu en el contexto de
la compresin de audio. Posteriormente se analizan con ms detalle, y por tanto con ms nivel de
complejidad, los estndares MPEG.
La tcnica mas simple para reducir el volumen de datos en una seal digital es la reduccin de la
frecuencia de muestreo o de la cantidad de bits de cuantizacin. Si bien es un mtodo bastante
rudimentario y poco eficiente, todava puede ser utilizado en
algunas aplicaciones. Solamente hay que tener en cuenta que reduciendo la frecuencia de mues-
treo se reduce el ancho de banda que es posible procesar, y reduciendo los bits de cuantizacin
disminuye el SQNR introducindose ruido en la seal.
Existen otras tcnicas mas elaboradas para comprimir audio digital. En este punto es necesario
distinguir entre compresin con prdida (lossy) o compresin sin prdida de datos (lossless).
Lossless: La compresin lossless consiste en eliminar aquellos datos que son redundantes en la
seal de audio. Por ejemplo, si se observa que una determinada cadena de bits se repite con bas-
tante frecuencia en la seal no es necesario transmitirla todas las veces que aparezca. Se trans-
mite una sola vez y luego se insertan bits de control que indican en que lugares se deben
reinsertar estas cadenas.
Otro mtodo de compresin sin prdidas es el denominado DPCM (Diferential Pulse Code
Modulation); es parecido al PCM que se analiz anteriormente, pero en este caso, no se procesan
las muestras en su totalidad, sino que se trabaja con las diferencias entre una muestra y la ante-
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.2 Tecnologa de los Contenidos Multimedia
rior. Debido a que las seales de audio son bastante continuas, una muestra y su precedente son
muy similares, por lo que no es necesario almacenar el valor absoluto de cada muestra, sino sola-
mente la diferencia entre muestras contiguas. Estas diferencias son, por lo general, bastante
pequeas, por lo que son necesarios pocos bits para transmitirlas; logrando de esta forma una
compresin de los datos.
Estas tcnicas de compresin y otras del mismo tipo son por lo general muy poco eficientes;
logran relaciones de compresin mximas de 4:1 aproximadamente.
Lossy: La compresin lossy, es decir, con prdida de datos, es mas bien una reduccin en la can-
tidad de informacin y no una compresin de la misma (eliminacin de datos irrelevantes). Esto
significa que en el proceso de compresin-reduccin, parte de la informacin se pierde irreme-
diablemente. Se trata entonces de un proceso irreversible; no es posible recuperar la seal origi-
nal en su totalidad efectuando el proceso inverso porque parte de la misma se perdi para
siempre. Un mtodo lossy es, por ejemplo, el proceso de compresin denominado ADPCM.
Si bien las tcnicas de compresin de seales digitales de audio progresaron de manera notable
durante los 70; especializndose segn la aplicacin final y abarcando casi todas las reas del
audio digital; las eficiencias (niveles o relaciones de compresin) alcanzadas por la mayora de
las tcnicas todava eran muy bajas. Por este motivo, durante la dcada de los 80, numerosos
laboratorios y equipos de investigacin de todo el mundo se dedicaron a la bsqueda y desarrollo
de un algoritmo de compresin de audio mas eficiente, con una mayor relacin de compresin e
independiente de la fuente original del sonido.
As es como surge una de las tcnicas lossy mas complejas y eficientes: la denominada P.A.C.,
Perceptual Audio Coding desarrollada por Bell Laboratories. Con esta tcnica se alcanzan radios
de compresin realmente notables (desde 3:1 a 24:1 segn el algoritmo) y es parte esencial de
numerosos productos de consumo masivo o de uso profesional.
Los mtodos de compresin de audio ms eficientes se basan en la eliminacin de datos
considerados irrelevantes, por ejemplo, datos que representan sonidos considerados inaudibles en
presencia de otros elementos de una seal compleja.
Este tipo de codificacin es denominada PAC, Perceptual Audio Coding (Codificacin del Audio
Percibido) y est basada en los dos principios bsicos del comportamiento del odo humano ya
descritos, el enmascarado temporal y el enmascarado frecuencial. La tcnica es del tipo lossy, es
decir, con prdida de datos.
El mtodo implica contar con un modelo matemtico del sistema de audicin humano y es ente-
ramente dependiente de la precisin del mismo, adems del manejo preciso de tcnicas de fil-
trado y del anlisis del audio.
Fundamentalmente, la tcnica consiste en eliminar aquella parte de la seal de audio que el odo
humano no ser capaz de percibir debido a la presencia de otras seales que la enmascaran. Para
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.3
poder entender como funciona el PAC, es necesario conocer algunos principios psicoacsticos
fundamentales.
En la actualidad existen diversos algoritmos de compresin que utilizan este tipo de codificacin,
tal es el caso del ATRAC, (Adaptive Transform Acoustic Coding)), de compresin 5:1, utilizado
en los MiniDisk de Sony y en el formato de audio Surround SDDS (Sony Dynamics Digital
Sound) para reproducciones cinematogrficas, AC3 (Audio Code number 3) de los Laboratorios
Dolby, usado en las transmisiones de televisin digital y en los DVD), PASC (utilizado en el
DCC, Digital Compact Cassette de Philips); y MPEG, utilizado en los DVD (Digital Versatile
Disc), CD-I (Compact Disc Interactive, de Philips), transmisiones satelitales, RDSI, Internet y en
reproductores de audio porttiles. Para comprender el funcionamiento de las tcnicas PAC, es
necesario manejar algunos conceptos de psicoacstica.
La mayor parte del tiempo el mundo se presenta con gran variedad de sonidos simultneos; el ser
humano automticamente lleva a cabo la tarea de distinguir cada uno de ellos y atender a los de
mayor importancia. Es muy difcil percibir un sonido cuando existe otro de mayor intensidad
presente al mismo tiempo. Este proceso, al parecer intuitivo, a niveles psicoacsticos y cognosci-
tivos es muy complejo. El trmino para este fenmeno es enmascaramiento (masking), y es pro-
bablemente la cualidad auditiva mas investigada.
El enmascaramiento est definido por la Asociacin Americana de Normalizacin (ASA) como:
"...el proceso por el cual el umbral de audicin para un sonido (enmascarado) es elevado en la
presencia de otro sonido (enmascarador)...". Por ejemplo: el potente sonido de la radio de un
automvil puede enmascarar el sonido del motor.
El trmino fue acuado en estudios de la visin humana, significando el defecto o imposibilidad
para reconocer un estmulo en presencia de otro a niveles normalmente adecuados para percibir
el primero. Como se mencion anteriormente, existen dos tipos de enmascaramiento: el frecuen-
cial y el temporal.
Figura 5.1 Umbral de audicin en el silencio.
40
30
20
10
0
dB
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Frecuencia (KHz)
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.4 Tecnologa de los Contenidos Multimedia
Enmascaramiento frecuencial. Para explicar el fenmeno de enmascaramiento en frecuencia (o
frequency masking), supngase el siguiente experimento: se coloca
una persona en una habitacin en silencio; luego se va incrementando la intensidad de un tono de
audio de 1 KHz desde los 0dB hasta que sea apenas audible, se registra dicho nivel de intensidad.
Si se repite la prueba para varias frecuencias distintas y se grafican los diversos niveles de inten-
sidad se obtiene una curva como la representada en la figura 5.1.
Todos los puntos debajo de la curva corresponden a diferentes combinaciones de frecuencias e
intensidades que son inaudibles para el odo humano. Es importante notar que esta curva cambia
significativamente con la edad.
Si ahora se produce un tono de 4 KHz a una intensidad fija, por ejemplo 60 dB (tono enmascara-
dor) y al mismo tiempo se va incrementando la intensidad de un tono de audio de 1 KHz (tono de
prueba) desde los 0dB hasta que sea apenas audible, se registra dicho punto y se repite para
varias frecuencias del tono de prueba se obtiene la curva mostrada en la figura 5.2.
Puede observarse como el tono enmascarador (de 4 KHz) eleva el umbral de audicin y convierte
una multitud de "puntos audibles" en "puntos inaudibles". Ahora el nuevo umbral de audicin es
el definido por la curva superior. Todos los puntos debajo de dicha curva corresponden a sonidos
inaudibles y todos los puntos encerrados entre la curva inferior y la superior corresponden a soni-
dos enmascarados por el tono de 4 KHz, sonidos que antes (en el silencio) podan orse.
Figura 5.2 Enmascarado por un tono de 4 Khz
Enmascarado temporal. El enmascarado temporal (o temporal masking) est vinculado con la
imposibilidad del odo humano de percibir un sonido dbil si antes de ste se estaba escuchando
un sonido mas potente. Es decir, si se est escuchando un sonido fuerte y luego se detiene, al odo
60
40
20
0
dB
80
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Frecuencia (KHz)
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.5
humano le lleva un determinado tiempo hasta poder percibir algn sonido prximo mas dbil.
Para explicar mejor el fenmeno supngase el siguiente experimento. Se ejecuta un tono enmas-
carador de 1 KHz a 60 dB junto con un tono de prueba de 1,1 KHz a 40 dB, el tono de prueba no
puede orse, est enmascarado.
Se detiene el tono enmascarador y, luego de un pequeo retardo, se detiene el tono de prueba. Se
ajusta el retardo al mnimo tal que el tono de prueba todava pueda ser odo (por ejemplo 5 ms) y
se registra dicho valor de tiempo. Si se repite la prueba para distintas intensidades del tono de
prueba y se registran los diferentes tiempos se obtiene una curva como la de la figura 5.3.
Figura 5.3 Enmascaramiento Temporal
En una seal de audio mas compleja, con multitud de frecuencias de distintas intensidades
sonando al mismo tiempo, ambos fenmenos interactan (enmascaramiento frecuencial y tempo-
ral), produciendo una curva como se muestra en la figura 5.4.
Adems de los dos principios psicoacsticos de enmascarado frecuencial y temporal vistos hasta
ahora, existe otro concepto de psicoacstica que es tambin fundamental para poder comprender
el funcionamiento de las tcnicas PAC de reduccin de datos. Es el concepto de bandas crticas.
El sistema auditivo del ser humano tiene una respuesta en frecuencia limitada en cuanto a resolu-
cin. Es decir, existen bandas de frecuencias que el odo humano percibe como una sola, siendo
incapaz de identificar diferencias entre dos frecuencias distintas dentro de una misma banda.
Estas bandas de frecuencia son las denominadas bandas crticas y sus respectivos anchos no son
constantes a lo largo de todo el espectro audible. A frecuencias bajas miden menos de 100 Hz,
mientras que a frecuencias mas altas miden mas de 4 KHz. De esto se desprende que en la parte
baja del espectro de audicin humano hay mas cantidad de bandas crticas que en el extremo mas
alto. En total, todo el rango de frecuencias de audio puede ser particionado en 25 bandas crticas.
0
Retardo (ms)
5 10 20 50 100 200 500
dB
60
40
20
0
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.6 Tecnologa de los Contenidos Multimedia
Figura 5.4 Efecto total del enmascarado frecuencial y temporal.
El concepto de bandas crticas est muy relacionado con los fenmenos de enmascaramiento
antes vistos, esto se debe a que: un sonido de mucha intensidad dentro de una banda crtica ten-
der a enmascarar cualquier otro sonido mas dbil dentro de la misma banda. Estos tres princi-
pios psicoacsticos que se acaban de explicar son los elementos fundamentales necesarios para
comprender el funcionamiento de un codificador PAC, es decir, las tcnicas PAC de reduccin
de datos basan su funcionamiento en estos dos fenmenos de enmascaramiento, frecuencial y
temporal, y en el concepto de bandas crticas para alcanzar relaciones de compresin varias veces
superiores a los alcanzados por otras tcnicas menos complejas.
Como se mencion anteriormente, existen en la actualidad numerosas implementaciones distin-
tas de las tcnicas PAC (PASC, ATRAC, AC3, MPEG, etc.), cada una de ellas con sus caracte-
rsticas particulares de acuerdo a la aplicacin para la cual fueron desarrolladas. Como todas
estas implementaciones se basan en la codificacin del audio perceptual (PAC, Perceptual Audio
Coding), todas utilizan en definitiva los principios psicoacsticos desarrollados anteriormente en
esta seccin.
De todas las implementaciones mencionadas antes existe una en particular que ha cobrado nota-
ble relevancia en los ltimos tiempos. Es el caso de la norma MPEG (Moving Pictures Experts
Group).
La norma ISO/IEC-11172
En 1987, un grupo de investigadores del Instituto Fraunhofer IIS, con sede en Alemania, traba-
jando bajo los auspicios de la ISO (International Organization for Standardization) y el IEC
(International Electrotechnical Commission) comenz a desarrollar un algoritmo para comprimir
seales digitales de audio y video mediante tcnicas de codificacin basadas en la percepcin
dB
Tiempo
Tono enmascarador
Sonidos inaudibles
(debajo de la curva)
Frecuencia
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.7
(PAC). Este grupo de trabajo se denomin MPEG (Motion Pictures Experts Group). A mediados
de la dcada del '80 los recin presentados Discos Compactos (Compact Discs o CD's) se perfila-
ban como el soporte de almacenamiento masivo de datos del futuro. No tardaron en aparecer los
CD's para almacenar archivos de computadora (CDROM), fotografas (Photo-CD de Kodak) e
incluso discos multimedia interactivos (CD-i de Philips). En vista de todo esto, el objetivo funda-
mental del MPEG era desarrollar un algoritmo de compresin de datos que permitiera almacenar
una hora de audio y video de alta calidad dentro de un CD. Trabajando con esta premisa durante
3 aos, el Grupo desarroll un algoritmo que luego fue publicado como Norma Internacional por
el ISO/IEC bajo el nombre de ISO/IEC-11172, mas conocido como MPEG-1.
El ttulo completo de la Norma es: "ISO/IEC-11172: Coding Of Moving Pictures And Associa-
ted Audio For Digital Storage Media At Up To About 1.5 Mbit/s" (Codificacin de imgenes
animadas y audio asociado para medios de almacenamiento digitales de hasta aproximadamente
1,5 Mbit/s). La mencin de la tranferencia del medio (1,5 Mbit/s) en el ttulo de la norma hace
referencia a la capacidad de transferencia mxima de un Disco Compacto; de esta capacidad total
la norma utiliza aproximadamente 1,2 Mbps para el video y 0,3 Mbps para el audio.
A pesar de que la compresin MPEG se ajusta perfectamente a aplicaciones de audio solamente,
la Norma MPEG-1 es en realidad un conjunto mas amplio de especificaciones independientes
pero relacionadas entre si. El estndar puede dividirse en 3 partes:
"ISO/IEC-11172-1: referida a como se integran las informaciones de audio y video junto con
otros datos adicionales que quiera agregar el usuario y de como debe "formatearse" la cadena de
bits (o bitstream) resultante para su almacenamiento y recuperacin.
"ISO/IEC-11172-2: referida a la codificacin del Video.
"ISO/IEC-11172-3: referida a la codificacin del Audio.
MPEG-1 es un estndar para la compresin de audio genrico, es decir, el algoritmo alcanza sus
altos niveles de compresin sin asumir nada sobre la naturaleza de la fuente del sonido. En otras
palabras: no est pensado para comprimir, por ejemplo, seales de voz solamente (como es el
caso del algoritmo CELP), en lugar de esto, MPEG-1 puede comprimir cualquier seal de audio
pensada para ser escuchada por el odo humano; esto es debido a los principios psicoacsticos en
los que se basa.
El estndar MPEG es rgido solamente cuando es necesario asegurar la interoperabilidad entre
sistemas. Por ejemplo, la norma define la sintaxis del bitstream codificado y el proceso de deco-
dificacin, entre otros aspectos. Esto garantiza que, sin importar el origen, un decodificador ente-
ramente compatible con MPEG-1 podr decodificar cualquier bitstream MPEG con resultados
predecibles.
En otros determinados aspectos la norma es mas flexible para futuras mejoras e innovaciones.
Por ejemplo, los diseadores que utilicen la norma quedan libres para probar nuevas y diferentes
implementaciones del codificador y el decodificador MPEG sin traspasar los lmites impuestos
por la norma. Existe mas potencial de diversidad en cuanto al codificador debido a que el estn-
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.8 Tecnologa de los Contenidos Multimedia
dar no define uno en particular. No as con el decodificador, que, adems del formato del bits-
tream de datos, es lo nico que define especficamente la norma.
A continuacin se detallan algunos aspectos generales de la norma, mas adelante en esta seccin
se profundizar el estudio sobre el codificador y el decodificador MPEG.
La frecuencia de muestreo del audio digital que le sirve de entrada al codificador puede ser: 32,
44.1 o 48 KHz.
El bitstream de datos comprimidos puede contar con uno o dos canales de audio en alguno de los
siguientes modos:
1.- Modo monofnico: un solo canal de audio.
2.- Modo doble monofnico: para dos canales de audio independientes (esta funcio-
nalidad es idntica al modo estreo tradicional).
3.- Modo estreo: para canales estreo que poseen bits en comn.
4.- Modo Joint-Stereo: que toma ventaja de las correlaciones entre canales estreo y
de la irrelevancia de la diferencia de fase entre canales.
La cadena de bits comprimida (bitstream) puede tener una de varias cadencias (bit rates) predefi-
nidas: de 32 Kbps a 224 Kbps por canal. Dependiendo de la frecuencia de muestreo de la seal
esto se traduce en radios de compresin que van de 2,7 a 24. Adems, el estndar provee un
modo de velocidad de bits libre para soportar otras cadencias distintas a las preestablecidas.
MPEG-1 ofrece la posibilidad de elegir entre tres niveles o layers (capas o estratos) de compre-
sin. Esto provee un amplio rango de soluciones de compromiso entre complejidad del algoritmo
y calidad del audio comprimido. Los niveles son:
Layer 1: es la mas simple de todas; esta pensada para bitrates superiores a los 128 Kbps.
Por ejemplo, el DCC (Digital Compact Cassette) de Philips utiliza una variante del Layer 1
denominada PASC alcanzando un bitrate de 192 Kbps por canal.
Layer 2: ofrece un nivel de complejidad intermedio y est pensada para bitrates cercanos a
los 128 Kbps por canal. Las posibles aplicaciones para esta capa incluyen la codificacin
de audio para la Emisin de Audio Digital que es la base de la radio digital, DAB (Digital
Audio Broadcasting), CD-i y Video CD.
Layer 3: es la mas compleja de todas, pero ofrece la mejor calidad de audio a los bitrates
mas bajos (alrededor de los 64 Kbps por canal). Esta capa se adapta muy bien para la trans-
misin de audio sobre RDSI y reproductores de audio porttiles.
Las tres capas estn diseadas de manera tal que un decodificdor de layer 2 pueda entender tam-
bin un bitstream de layer 1; y un decodificador de layer 3 haga lo propio con uno de layer 1 y 2.
Las tres capas son los suficientemente simples como para permitir la implementacin de un deco-
dificador en un solo chip de circuito integrado.
El bitstream de audio comprimido soporta (como una opcin) la deteccin de errores a travs de
un cdigo de CRC (Cyclic Redundancy Check).
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.9
MPEG-1 ofrece la posibilidad de incluir datos auxiliares en la cadena de bits comprimida (anci-
llary data).
Adems la organizacin o formato del bitstream de datos comprimidos permite la existencia de
algunas prestaciones adicionales tales como el acceso aleatorio a cualquier porcin de la cadena,
avance y retroceso rpido del audio, etc..
5.2 CODIFICADOR MPEG
Un codificador MPEG, es un codificador del tipo perceptual; es decir, su principio de funciona-
miento se basa en determinados fenmenos psicoacsticos (enmascarado frecuencial, temporal y
bandas crticas) que ocurren en el odo humano. Bsicamente, los codificadores perceptuales
mantienen la frecuencia de muestreo pero disminuyen la longitud de la informacin generada
para representarla.
En general, los codificadores de este tipo operan descomponiendo la seal en bloques o unidades,
correspondiendo cada uno a un cierto rango de frecuencia y tiempo determinados. Utilizando
esta distribucin tiempo-frecuencia, la seal es analizada de acuerdo con principios psicoacsti-
cos. Este anlisis indica qu bloques o unidades son crticos y precisan ser codificados con la
mxima precisin, y cuales son menos "delicados" y pueden tolerar cierto nivel de ruido de cuan-
tizacin sin degradar la calidad final del sonido percibido. Basndose en esta informacin, los
bits disponibles (segn el bitrate elegido) son distribuidos en estas unidades de tiempo-frecuen-
cia. Los coeficientes espectrales en cada unidad son, entonces, cuantizados utilizando los bits
asignados.
El codificador MPEG-1 recibe como entrada las muestras de audio digital (PCM samples) y pro-
duce el bitstream comprimido para su almacenamiento o transporte. El algoritmo codificador no
est estandarizado por la Norma ISO/IEC 11172-3, pero su bitstream de salida debe ser tal que
un decodificador MPEG-1 (normalizado) pueda reproducir el audio original a partir de all. Para
estudiar el funcionamiento de un codificador MPEG-1 tmese en consideracin el diagrama en
bloques de la figura 5.5.
Figura 5.5 Diagrama en bloques de un codificador MPEG-1.
Banco de
Filtros
Cuantizacin Formateo del
Bitsream
Modelo
Psicoacstico
Informacin
auxiliar
(opcional)
Entrada de audio
PCM
Bitsream
codificado
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.10 Tecnologa de los Contenidos Multimedia
Banco de filtros (filterbank):
El banco de filtros (filterbank) es un componente fundamental del codificador MPEG-1 y comn
a todas las capas (layers) que define la norma. Este banco de filtros divide la seal de audio en 32
bandas de frecuencia de igual ancho (excepto en Layer 3 que son variables).
La implementacin de los filtros puede variar entre codificadores y entre las distintas capas
(layers) de la norma. Conceptualmente el banco de filtros puede considerarse como un conjunto
de 32 filtros pasabanda trabajando en paralelo, todos reciben la misma seal de entrada y todos
entregan una porcin del espectro a la salida.
Modelo psicoacstico:
Cuando se analizaron los principios bsicos del audio digital se introdujo el concepto de Relacin
seal/ruido de cuantizacin (SQNR), que en conclusin indicaba que cuando se agrega un bit
ms para cuantizar una muestra de audio se agregan 6 dB de resolucin y el ruido de cuantiza-
cin disminuye en la misma magnitud.
El modelo psicoacstico de un codificador MPEG-1 es un modelo matemtico del comporta-
miento del odo humano y, como su nombre indica, tiene en cuenta los principios psicoacsticos
de enmascaramiento frecuencial y temporal. Su funcin es analizar la entrada de audio PCM y la
salida de los filtros para determinar qu bandas de frecuencia deben conservarse en el bitstream
comprimido y en que medida deben ser conservadas. Es decir, algunas bandas de frecuencia van
a ser enmascaradas por otras bandas vecinas y no ser necesario tenerlas en cuenta a la salida,
pero otras bandas que no estarn enmascaradas necesitan ser procesadas. Ahora bien, el bitstream
comprimido a la salida debe tener un bitrate especfico, por este motivo las bandas de frecuencia
que s deben tenerse en cuenta no pueden cuantizarse con un nmero excesivo de bits, deben
cuantizarse con el nmero justo de bits de manera tal que el ruido de cuantizacin que se genera
en el proceso caiga por debajo del umbral de audicin humano.
En definitiva, el bloque analiza el audio original en base a principios psicoacsticos y determina
el nmero de bits necesarios para cuantificar cada una de las bandas de frecuencia que entrega el
banco de filtros, de manera tal que el ruido de cuantificacin siempre quede enmascarado por
otras componentes de la seal de audio y que el bitrate resultante a la salida no supere un deter-
minado lmite. La salida definitiva del bloque (la cantidad de bits de cuantificacin por banda) se
expresa en trminos de una relacin denominada Mask to Noise Ratio (relacin enmascara-
miento/ruido) calculada de la siguiente forma:
MNRdB = SNRdB - SMRdB
donde
MNRdB: es la Relacin Enmascaramiento-Ruido, Mask to Noise Ratio
SNRdB: es la Relacin Seal-Ruido, Signal to Noise Ratio
SMRdB: es la Relacin Seal-Enmascaramiento, Signal to Mask Ratio, (del modelo psicoacs-
tico)
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.11
Aunque la norma no define ninguna implementacin especfica del modelo psicoacstico, ofrece
dos posibilidades de acuerdo a la cantidad de bits disponibles para cada una de las bandas; infor-
macin suministrada por el modelo psicoacstico. Este bloque tambin es denominado Noise/
Bits Allocation o "Asignacin de Ruido/Bits". Finalmente, la cadena de bits resultante es enviada
al bloque de formateo para su acondicionamiento final. La figura 5.6 es otro esquema de un codi-
ficador en donde puede visualizarse cmo la salida de cada uno de los filtros es cuantizada por
separado de acuerdo al anlisis del modelo psicoacstico.
Figura 5.6 Esquema alternativo de un codificador MPEG-1.
Codificador MPEG-1, Layer 1, 2 y 3:
Aunque el principio bsico de funcionamiento de un codificador MPEG-1 es siempre el mismo;
existen algunas diferencias de implementacin segn el Layer que se est utilizando, a continua-
cin se detallan algunas de ellas:
Layer 1: En este nivel el banco de filtros divide la seal de audio en 32 sub-bandas de frecuencia,
todas del mismo ancho (frecuencia de muestreo / 64), . Los filtros estn basados en transforma-
das rpidas de Fourier (FFT - Fast Fourier Transform) de 512 puntos (sobre un solo frame) y pro-
veen una aceptable resolucin en frecuencia. El hecho de dividir la seal en 32 bandas de igual
ancho no se corresponde completamente con el concepto de bandas crticas explicado con ante-
rioridad. An mas, Layer 1 no tiene en cuenta el fenmeno de enmascaramiento temporal, solo el
enmascaramiento en frecuencia (por ello el anlisis con FFT se realiza sobre un solo frame). En
el proceso de cuantificacin, la asignacin puede ir de 0 a 15 bits por sub-banda.
Layer 2: El algoritmo utilizado en esta capa representa una pequea mejora respecto del Layer 1.
Los filtros tambin dividen el espectro audible en 32 bandas de igual ancho, pero estn basados
en FFT's de 1024 puntos. Layer 2 contempla un poco de enmascarado temporal.
Layer 3: El algoritmo del Layer 3 es una aproximacin mucho mas refinada a los conceptos psi-
coacsticos que ya se han explicado. El banco de filtros divide el espectro en 32 sub-bandas pero
el ancho de cada una de ellas depende de un anlisis previo sobre la seal original, de esta forma
se aproxima mucho mas al concepto de bandas crticas. La implementacin matemtica de estos
Banco de
Filtros
Cuantizacin
Modelo
Psicoacstico
Entrada
Cuantizacin
Cuantizacin
Multiplexor
Salida
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.12 Tecnologa de los Contenidos Multimedia
filtros est basada en la denominada Modified Discrete Cosine Transform, MDCT (Transfor-
mada Discreta del Coseno Modificada), que provee mejor definicin en frecuencia. El efecto del
enmascarado temporal est plenamente contemplado en este algoritmo.
Adems de todas estas mejoras, Layer 3 implementa a la salida del bloque cuantificador, una
etapa ms de compresin. El proceso es del tipo lossless y se basa en la eliminacin de informa-
ciones redundantes dentro del bitstream. El algoritmo se denomina "Compresin Huffman" y
aade un nivel mas de compresin a todo el conjunto.
Decodificador MPEG
El algoritmo decodificador MPEG-1 es uno de los pocos aspectos normativos del estndar ISO/
IEC-11172-3. El proceso es mucho mas simple que el codificador, pero an as ofrece un grado
importante de complicacin matemtica.
Los aspectos cualitativos mas importantes de este algoritmo son los siguientes. En un decodifica-
dor PAC, el espectro cuantizado es reconstruido de acuerdo a los bits asignados y luego, sinteti-
zado en una seal de audio compleja. Para comprender mejor el proceso, considrese el diagrama
en bloques de la figura 5.7.
Figura 5.7 Diagrama en bloques de un decodificador MPEG-1.
El primer bloque detecta los frames dentro del bitstream y decodifica la informacin auxiliar que
pudieran contener. El bloque siguiente reconstruye el espectro cuantizado segn los bits asigna-
dos y el ltimo bloque devuelve toda la informacin al dominio del tiempo para obtener las
muestras PCM definitivas. La figura 5.8 muestra un esquema alternativo de un decodificador
MPEG-1:
Figura 5.8 Diagrama alternativo de un decodificador MPEG-1.
Descomposicn
del Bitstream
Cadena de bits
(Bitsream)
codificada
Reconstruccin de las
muestras frecuencialess
Conversin
frecuencia-tiempo
Salida de
audio PCM
Informacin auxilar
(opcional)
Demultiplexor
Cuantizacin
inversa
Entrada
Banco de
Filtros
Salida
Cuantizacin
inversa
Cuantizacin
inversa
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.13
Extensiones de la norma
Poco tiempo despus de la introduccin de la Norma ISO/IEC-11172-3, el comit MPEG public
otra serie de documentos extendiendo las capacidades y los alcances del primero. Estos nuevos
documentos tambin fueron normalizados internacionalmente por el ISO y el IEC. El nombre del
estndar es "Generic Coding of Moving Pictures and Associated Audio: Audio ISO/IEC-13818-
3". Mas conocido como MPEG-2.
Los cambios respecto de MPEG-1 son en realidad ampliaciones. En MPEG-2 se agregan 3 nue-
vas frecuencias se muestreo (16, 22,05 y 24 KHz); se reduce el bitrate del bitstream hasta un
mnimo de 8 Kbps y se suman 3 nuevos canales de audio (totalizando 5). Durante el desarrollo de
esta norma se puso especial nfasis en la compatibilidad con MPEG-1. Un decodificador MPEG-
2 puede entender perfectamente un bitstream comprimido con MPEG-1.
Existe a su vez otra extensin a MPEG-2, conocida como MPEG-2.5. Este documento es un
desarrollo de la empresa Alemana FhG Erlangen y solo modifica algunos aspectos del Layer 3;
agregando mas frecuencias de muestreo para lograr bitrates an mas bajos.
5.3 FORMATOS DE ARCHIVO DE SONIDO DIGITAL:
Existe una variedad enorme de formatos de sonido digital. Los principales aparecen en la tabla
5.1:
Tabla 5.1 Principales formatos de sonido digital
Los parmetros que definen la calidad de un sonido digital as como el tamao que finalmente
ocupe el archivo son los siguientes:
Aplicacin Tamao de archivo
WAV
El ms utilizado en Windows.
Datos en PCM, sin compresin.
Muy grande
MID
Hace servir patrones que ya estn activos en la tarjeta
de sonido. Partituras y notas musicales.
Muy pequeo
MUS Parecido al mid. Muy pequeo
AIF
Formato estndar en las plataformas MAC (tambin
se puede escuchar en Windows). Es el paralelo con el
wav
Muy grande
MP3
Trabaja en formato wav pero comprimiendo aquellas
partes que pueden resultar inaudibles. Rebaja mucho
el tamao de los archivos.
Pequea
RM
Formato de audio utilizado en Internet por el estndar
de la empresa Real. Posee la caracterstica Streaming,
que permite no necesitar todo el archivo en el disco
duro para comenzar a escucharlo.
Muy pequeo

TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.14 Tecnologa de los Contenidos Multimedia
a) Frecuencia de muestreo: Es la cantidad de muestras de sonido capturadas en cada segundo. Su
valor puede oscilar entre 8 Khz (8.000 muestras en cada segundo) y 48 Khz.
b) Precisin de las muestras: Indica la escala de bits que se ha utilizado para guardar el sonido.
Pueden ser 8 bits (256 valores posibles) o 16 bits (ms de 65.000 valores posibles).
c) Mono / estreo: El sonido pude grabarse en un solo canal (mono). en dos (estreo), o en mlti-
ples canales, 5, 6 o ms. Debemos combinar estos tres parmetros de forma coherente a los resul-
tados que queramos obtener, pues tanto la calidad del sonido como el espacio que ocupe el
fichero depender de ellos. As, por ejemplo, si queremos conseguir una calidad estndar de CD
deberemos seleccionar una frecuencia de 44,1 Khz, una precisin de 16 bits y dos canales (est-
reo). En cambio, si simplemente lo que queremos es grabar una voz, con 11 Khz, 8 bits y calidad
mono ser suficiente. Es importante saber escoger los parmetros adecuados en cada caso pues la
calidad CD ocupa unas 12 veces ms espacio en el disco duro que el segundo caso.
En general son dos los tipos fundamentales de archivos digitales de audio:
PCM, Pulse Code Modulation. Contienen datos en los que cada valor del archivo representa
exactamente una muestra de la forma de onda. Se ha realizado la digitalizacin pero no se realiza
compresin alguna. Ejemplos de archivos PCM son los WAV y AIFF.
El otro tipo son los ficheros comprimidos. Los formatos iniciales utilizaban codificacin logart-
mica pero en la actualidad se basan en los mtodos de compresin con modelos psicoacsticos..
Los ejemplos caractersticos son los MP3 (MPEG I, layer 3), Ogg Vorbis, y WMA (Windows
Media Audio). La tabla 5.2 muestra los principales archivos comprimidos con sus extensiones y
los estndares a los que pertenecen.
Tabla 5.2 Archivos de audio comprimido y sus estndares.
:
Tabla 5.3 Datos de las capas del estndar MPEG de audio
Formato del fichero de
audio
Extensin del
fichero
Estndar Aplicacin
Digital Theater Systems DTS ETSI TS 102 114 DVD, Audio CD
Dolby Digital AC-3 ATSC Standard A/52A DVD
MPEG-1 Layer I MPA ISO/IEC-11172-3
MPEG-1 Layer II MP2 ISO/IEC-11172-3 VCD, SVCD
MPEG-1 Layer III MP3 ISO/IEC-11172-3
MPEG-2 Layer I MPA ISO/IEC-13818-3
MPEG-2 Layer II MP2 ISO/IEC-13818-3 5.1 SVCD
MPEG-2 Layer III MP3 ISO/IEC-13818-3

Capa (Layer) Compresin Transferencia
1 4:1 384 Kbits/s
2 6:1 a 8:1 256 a 192 Kbits/s
3 10:1 a 12:1 128 a 112 Kbits/s

TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.15
Los datos fundamentales de las capas del estndar MPEG de audio se muestran en la tabla 5.3.
Por ltimo, debe tenerse en cuenta la diferencia entre sonido digitalizado y el sintetizado. El
sonido MIDI no se obtiene de una seal de sonido natural. El formato MIDI no es un sonido
almacenado como tal sino en forma de datos y para que para que pueda ser reproducido es nece-
sario un sintetizador, presente en la tarjeta de sonido. De hecho es como si se tratase de una par-
titura que contiene la nota que se toca en cada momento, su intensidad y su duracin.
Los archivos de este tipo son pequeos y en muy pocos Kb podemos almacenar gran cantidad de
msica, aunque, eso s, con una sonoridad un tanto artificial. Existen dos extensiones que Win-
dows reconoce perfectamente: .mid (la ms habitual) y .rmi. Programas como Music Time crean
y reproducen estos tipos de ficheros.
5.3.1 FORMATEO DEL BITSTREAM (FRAMING):
El formato de la cadena de bits que debe entregar el codificador MPEG est normalizado; este
bloque se encarga de cumplir con dicho requerimiento, adems de aadir cualquier informacin
adicional que el usuario desee (ancillary data).
El bitstream resultante esta divido en pequeos paquetes de datos denominados frames (cuadros
o marcos). Cada frame es totalmente independiente de cualquier otro y, segn el layer, el bitrate
elegido y la frecuencia de muestreo, puede contener entre 20 y 70 ms de audio digital compri-
mido. Un frame MPEG-1 est dividido en cuatro partes:
- Encabezamiento (header): contiene informacin de sincronizacin y datos sobre las caracters-
ticas del frame.
- Control de error (CRC): para detectar posibles errores en bitstream.
- Datos de audio: parte del bitstream que contiene las muestras de audio comprimido.
- Datos auxiliares (ancillary data): parte del bitstream en donde pueden incluirse datos auxilia-
res.
El tamao en bytes de cada frame puede ser calculado utilizando la siguiente expresin (slo para
Layer 3):
en donde:
FrameSize: es el tamao del frame en bytes.
BitRate: es la cadencia de bits elegida a la salida del compresor.
SampleRate: es la frecuencia de muestreo de la seal de audio digital original.
144
[ ]
BitRate
FrameSize bytes
SampleRate

=
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.16 Tecnologa de los Contenidos Multimedia
Ejemplo: supngase una frecuencia de muestreo tpica de 44,1 KHz y un Bitrate de 128 Kbps,
con estos datos el tamao del paquete sera:
Frame Size = 144 x 128000 / 44100 = 417 bytes
y representa aproximadamente 26,12 ms de audio.
5.3.2 ENCABEZAMIENTO DEL FRAME (HEADER):
Los primeros 4 bytes (32 bits) del frame contienen importante informacin sobre los datos conte-
nidos en el paquete. Esta informacin es lo que le permite al frame ser autosuficiente y completa-
mente independiente del resto de los frames de un programa de audio completo. La norma indica
con precisin el significado que deben tener cada uno de los 32 bits del encabezamiento (o hea-
der) del frame.
Supngase el siguiente esquema de un frame, en donde cada letra representa un bit:
AAAAAAAA AAABBCCD EEEEFFGH IIJJKLMM
La figura 5.9 muestra un modelo de sistema de codificacin de audio MPEG, desde el punto de
vista de la creacin de las tramas.
Figura 5.9 Sistema de codificacin de audio MPEG, desde el punto de vista de la creacin de las tramas.
La tabla 5.4 resume el significado de los 32 primeros bits del encabezado de un frame:
Anlisis en
subbandas
Entrada de
audio digital
Modelo
psicoacstico
Cuantificador y
Codificador
Empaquetador
de tramas
Trama de datos
codificados
CODIFICADOR
Datos auxiliares
Desempaquetador
de tramas
Reconstruccin Sntesis en
sub-bandas
DECODIFICADOR
Datos auxiliares
Salida de
audio digital
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.17
Tabla 5.4 Encabezado de un frame MPEG-1
Letra Tamao
(bits)
Posicin
(bits)
Descripcin
A 11 31-21
Bits de sincronizacin del frame, todos en 1
(indican el
comienzo de un frame).
B 2 20-19
Versin MPEG:
00 : Versin 2.5
01 : reservado
10 : Versin 2 MPEG2- (ISO/IEC-13818-3)
11 : Versin 1 MPEG1- (ISO/IEC-11172-3)
C 2 18-17
Descripcin del Layer:
00 : reservado
01 : Layer 3
10 : Layer 2
11 : Layer 1
D 1 16
Bit de proteccin CRC:
0 : Protegido con CRC (16 bits de CRC le siguen
al encabezado)
1 : No protegido con CRC
Indicacin del Bitrate:
Bits V1-L1 V1-L2 V1-L3 V2-L1 V2-L2 V2-L3
0000 Libre Libre Libre Libre Libre Libre
0001 32 32 32 32 32 8
0010 64 48 40 64 48 16
0011 96 56 48 96 56 24
0100 128 64 56 128 64 32
0101 160 80 64 160 80 64
0110 192 96 80 192 96 80
0111 224 112 96 224 112 56
1000 256 128 112 256 128 64
1001 288 160 128 288 160 128
1010 320 192 160 320 192 160
1011 352 224 192 352 224 112
1100 384 256 224 384 256 128
1101 416 320 256 416 320 256
1110 448 384 320 448 384 320
1111 - - - - - -
E 4 15-12
Notas: Todos los valores estn en kbps.
V1 : MPEG Versin 1 (ISO/IEC-11172-3)
V2 : MPEG Versin 2 y 2.5
L1 : Layer 1
L2 : Layer 2
L3 : Layer 3
Indicacin de la frecuencia de muestro del audio
original (valores en Hz.):
bits MPEG-1 MPEG-2 MPEG-2.5
00 44100 22050 11025
01 48000 24000 12000
10 32000 16000 8000
F 2 11-10
11 Reservado Reservado Reservado
G 1 9
Bit de relleno:
0 : el frame no est rellenado
1 : el frame est rellenado con un bit extra
H 1 8
Bit reservado (funcin desconocida)
I 2 7-6
Indicacin de los canales:
00 : stereo
01 : joint stereo
10 : dos canales (stereo)
11 : un canal (mono)
J 2 5-4
Extensin de los modos de los canales (solo para
Joint stereo):
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.18 Tecnologa de los Contenidos Multimedia
En el diagrama de bloques del modelo de sistema de codificacin de audio MPEG-1 se puede ver
el proceso bsico de codificacin/decodificacin de la seal de audio digital. Esta seal se divide
en 32 subbandas de frecuencia con un banco de filtros. Simultneamente se calcula para cada
subbanda, en el modelo psicoacstico, los coeficientes entre los niveles de seal y el umbral de
enmascaramiento (los sonidos no se distinguen por debajo de este umbral). A cada banda se le
asigna un nmero de bits para reducir el ruido total de cuantificacin, esto se realiza en el bloque
de asignacin de bits y cuantificacin. El ltimo bloque empaqueta la informacin anterior y
aade los datos auxiliares en la trama.
La trama MPEG-2 se construye en torno a los dos canales principales (izquierdo y derecho), para
que sea compatible con la trama MPEG-1, el resto de informacin necesaria para los canales de
sonido envolvente (surround) o los canales multilinges se incluye en la zona de datos auxiliares.
As un decodificador que siga la norma MPEG-1 obtendr los canales izquierdo y derecho, mien-
tras que un decodificador MPEG-2 puede obtener todos los canales.
Figura 5.10 Estructura de la trama multicanal MPEG-2.
El archivo "MP3"
El bitstream (cadena de bits) a la salida del codificador MPEG-1 est formado por frames (cua-
dros). Como ya se explic, estos frames cuentan con un encabezamiento; un control de errores
por medio del mtodo de redundancia cclica (CRC), los datos
correspondientes al audio codificado e informacin auxiliar. Los mencionados frames o cuadros,
se almacenan en un archivo de computadora de manera secuencial.
Cabecera
CRC BAL
SCFSI
SCF
Muestras de
las subbandas
Datos
anteriores 1
Datos
anteriores 2
Cabecera MC
MC-CRC
MC-BAL
MC-SCFSI
MC-SCF
Prediccin-MC
Multilenguaje
MC-Muestras de
las subbandas
Datos
anteriores 2
Estreo Bsico L/R Extensin multicanal
ISO/IEC 11172-3 Layer II frame
Estreo
Bsico
L/R
Datos de audio multicanal
Multi-
lenguaje
Extensin multicanal
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.19
La extensin del nombre de este archivo es ".MP3", identificando de esta manera a un bitstream
codificado en MPEG1 Layer 3. De la misma manera, la extensin ".MP2" est relacionada con
archivos codificados en MPEG1 Layer 2.
Estos archivos no contienen ningn tipo de encabezamiento general, simplemente son grandes
"paquetes" de frames. No obstante esto, es posible encontrar al final del archivo, informacin
sobre el origen del audio comprimido a manera de etiqueta (tag -en ingls-); de esta manera el
dispositivo o programa que comprime una grabacin musical puede aadir el nombre del autor,
de la obra, del lbum al que corresponde (con 30 caracteres asignados a cada uno), ao de reali-
zacin (en 4 bytes), comentarios (30 caracteres), y un ndice numrico correspondiente al gnero
musical (1 byte). El campo (si es especificado y es correcto) tiene como identificacin inicial la
palabra 'TAG'. Con estos tres caracteres totaliza 128 bytes.
5.4 COMPRESIN MPEG A FONDO
En esta seccin se presentan los mtodos de compresin de audio fundamentales con mayor deta-
lle. La complejidad de los mismos requiere ciertos conocimientos de tratamiento digital de sea-
les. Para el lector no instruido en estos temas es suficiente con entender lo descrito anteriormente,
pero no debe renunciar a la lectura de esta seccin, aunque slo sea para observar los conoci-
mientos necesarios para abordarlo.
A continuacin se van a detallar los mecanismos de los algoritmos de compresin MPEG bsi-
cos. Para ello se presentan inicialmente algunas herramientas fundamentales.
5.4.1 RUN LENGTH ENCODING (RLE)
Es una de las tcnicas de compresin orientadas al carcter, que se basan en el uso de un carcter
especial que indica que se ha realizado la compresin. Estas tcnicas pueden utilizarse de forma
aislada o combinadas entre s.
Es una generalizacin del mtodo de eliminacin de blancos. Con esta tcnica se puede reducir
cualquier secuencia de caracteres cuando el nivel de la ocurrencia es de tres o ms caracteres
iguales consecutivos.
Cuando se encuentran 3 o ms caracteres iguales consecutivos lo que se hace es sustituir esta
secuencia por:
- un carcter especial indicador de compresin
- el carcter que se comprime
- nmero que indica la cantidad de caracteres que se comprimen.
Ejemplo de compresin en el emisor:
La cadena de entrada es:
fghhhhjjertttrrrrrywqad
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.20 Tecnologa de los Contenidos Multimedia
Una vez realizada la compresin, la cadena resultante ser:
fgSch4jjerSc9Sct3Scr5ywqad
donde representa un carcter blanco y Sc es el carcter especial indicador de compresin.
En el proceso de descompresin, el receptor recorre la cadena de datos. Cuando encuentra un
carcter especial que indique compresin sabr que en esa posicin se ha realizado una compre-
sin y que el siguiente carcter indica el carcter que ha sido comprimido y a continuacin apa-
rece el nmero que indica cuantos caracteres fueron comprimidos y de esta forma podr
reconstruir la cadena original.
Ejemplo de descompresin en el receptor
La cadena recibida a travs del canal es la siguiente:
gtScr5juliSc4jklScp3hj
Una vez realizada la descompresin obtenemos que la cadena original era:
gtrrrrrjulijklppphj
5.4.2 CDIGO DE HUFFMAN
Es un cdigo estadstico. La construccin de este tipo de cdigos se basa en la propiedad del pre-
fijo, segn la cual, ninguna secuencia de bits que represente a un carcter del cdigo podr apare-
cer como subsecuencia inicial de otra secuencia de longitud mayor que represente a otro carcter
del cdigo. Este cdigo es un cdigo ptimo dentro de los cdigos de codificacin estadstica, ya
que es el cdigo de menor longitud media.
La construccin de este cdigo se fundamenta en asignar a cada smbolo del alfabeto fuente una
secuencia de bits cuya longitud est relacionada de forma directa con la probabilidad de apari-
cin de ese smbolo. De esta forma, a los smbolos con mayor frecuencia de aparicin se les asig-
narn las palabras de cdigo de menor longitud.
En el proceso de construccin de este cdigo, lo primero que se hace es ordenar el conjunto de
smbolos del alfabeto fuente en orden decreciente de probabilidades de aparicin. A continuacin
se juntan los dos smbolos con menor probabilidad de aparicin en un nico smbolo cuya proba-
bilidad ser la suma de las probabilidades de los smbolos que dieron origen a este nuevo sm-
bolo.
Se repite este proceso hasta que slo tengamos dos smbolos. A continuacin se realiza el pro-
ceso de codificacin. Primeramente asignamos un 1 a uno de los dos smbolos que tenemos y un
0 al otro. Posteriormente recorreremos la estructura que hemos construido hacia atrs de forma
que cuando dos smbolos hayan dado origen a un nuevo smbolo, estos dos smbolos "heredarn"
la codificacin asignada a este nuevo smbolo y a continuacin se le aadir un 1 a la codifica-
cin de uno de los smbolos y un 0 a la del otro smbolo.
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.21
5.4.3 COMPRESIN DE AUDIO
Existen numerosas tcnicas para la compresin de audio. Los compresores reales pueden utilizar
varias de ellas, teniendo en cuenta las ventajas e inconvenientes de cada una, con el fin de obte-
ner diferentes posibilidades en funcin del coste y la complejidad. En esta seccin se analizan las
tcnicas fundamentales por separado, y posteriormente se exponen las combinaciones bsicas.
El mtodo de codificacin ms elemental es la compensacin. Este mtodo es el equivalente
digital a los mecanismos de reduccin de ruido en los grabadores analgicos de cintas. Esta tc-
nica se ilustra en la figura 5.11. La seal de entrada se monitoriza y cuando su nivel disminuye
por debajo de un mximo, se amplifica en el codificador. La ganancia aplicada para aumentar la
seal se aade a los datos transmitidos de manera que en el decodificador puede aplicarse una
atenuacin del mismo valor. En los grabadores analgicos de cintas esta tcnica se utiliza para
maximizar la relacin seal/ruido mientras que en la compresin digital se utiliza para mantener
el nivel de la seal todo lo alejado posible, segn las ganancias disponibles, de la distorsin intro-
ducida por sucesivas etapas de codificacin.
(a)
(b) (c)
Figura 5.11 Compensacin digital. (a) El codificador amplifica la entrada al nivel mximo y el decodificador atena en la
misma cantidad. (b) Seal antes de la compresin. (c) En el sistema compensado la seal se manitiene tan
lejos como es posible del ruido que se produce por la longitud de palabra de la muestra.
Medida de
nivel
Inversor
Salida Entrada
compresor de
nivel
descompresor de
nivel
cdigo
de nivel
Max
Nivel de Seal
SNR
Antes de la compensacin
Nivel de Ruido
Despus de la compensacin
Max
Nivel de Seal
SNR
Nivel de Ruido
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.22 Tecnologa de los Contenidos Multimedia
Una forma habitual de obtener la codificacin de la ganancia es reducir el tamao de palabra de
las muestras de manera que se necesite transmitir un nmero menor de bits. Al realizar esta
reduccin la distorsin crecer alrededor de 6 dB por cada bit eliminado, ya que al eliminar un bit
se divide por la mitad el nmero de intervalos cuantificados con lo que deben ser el doble de
grandes, duplicando por tanto el error en amplitud.
Una alternativa a la reduccin de la longitud de palabra consiste en convertir la seal PCM uni-
forme en un formato no uniforme. En este caso el tamao del paso de cuantificacin crece con la
magnitud de la muestra tal que el nivel de distorsin es mayor que cuando se dan los niveles ms
altos.
La compensacin est relacionada con la codificacin en punto flotante. Esta tcnica se muestra
en la figura 5.12. El valor de la muestra se expresa como una mantisa y un exponente binario que
determina el desplazamiento que debe realizarse sobre la mantisa para obtener el valor absoluto
correcto sobre una escala PCM. El exponente es el equivalente a la ganancia o al factor de escala
en un sistema compensado.
Figura 5.12 Codificacin en punto flotante
En punto flotante la relacin seal-ruido viene determinada por el nmero de bits en la mantisa.
La figura 5.13 ilustra cmo la relacin seal-ruido vara como una funcin diente de sierra. El
mejor valor, que se obtiene cuando la mantisa es cercana al desbordamiento, es remplazado por
el peor valor cuando la mantisa se desborda y el exponente se incrementa.
Como puede observarse, en el ejemplo mostrado en la figura 5.13, la mxima relacin SNR es de
6db8=48 decibelios con una entrada mxima de 0db. Como el nivel de entrada disminuye y el
nivel de ruido permmanece igual entonces la SNR disminuye a 42 db.Una mayor reduccin en el
nivel de seal tendra como consecuencia que el conversor desplazase el rango (punto A de la
figura 5.13) aumentando la ganacia de la entrada analgica en 6 db. La SNR volvera al valor ini-
cial y el el exponenete cambiara de 7 a 6 para obtener el mismo cambio en el receptor. En este
sistema tan simple, el ruido modulado se escuchara y por ello en la prctica es necesria una pala-
bra mayor para la mantisa.
M
7 6 5 4 3 2 1 0
0 0 1 1 0 0 1 0 = 1 0 0 1 01
M E
= 0 1 1 0 1 1 0 0 0 0 1 0 1 1
M
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.23
Figura 5.13 Ejemplo de sistema con Mantisa de 8 bits y 3 bits de exponente.
La notacin en punto flotante se utiliza en los DSPs ya que facilita los problemas computaciona-
les debidos a longitudes de palabras grandes. As por ejemplo, al multiplicar nmeros en punto
flotante basta con multiplicar las mantisas, mientras que los exponentes slo se suman, redu-
ciendo el coste computacional.
Un sistema en punto flotante necesita un exponente con cada mantisa, lo que es innecesario y
demasiado costoso ya que en los sistemas de audio reales el nivel no cambia tan rpidamente
como para necesitar una informacin tan precisa, por lo que puede considerarse que existe redun-
dancia en los exponentes. Una alternativa ms adecuada es la codificacin en punto flotante en
bloque, tambin conocida como compensacin cuasi-instantnea. En ella la magnitud de la
muestra mayor de un bloque se utiliza para determinar el valor de un exponente que ser vlido
para el bloque completo. Enviar un exponente por bloque requiere una velocidad de datos menor
que en la codificacin en punto flotante.
En la codificacin por bloques la recuantificacin en el codificador aumenta el error de cuantifo-
cacin, pero lo hace a lo largo de la duracin de todo el bloque. La figura 5.14 muestra que si se
da un transitorio hacia el final del bloque, el decodificador reproducir la forma de onda correcta-
mente, pero el ruido de cuantificacin comenzar al principio del bloque y puede producir un
aumento considerable en la distorsin, tambin llamada pre-ruido o pre-eco que es audible antes
del transitorio. Para hacerlo inaudible puede utilizarse un enmascaramiento temporal. Con un
bloque de un milisegundo el efecto es suficientemente breve como para no ser odo.
Otra solucin consiste en utilizar una ventana temporal variable en funcin del contenido del
transitorio de la forma de onda de audio. Cuando ocurren los transitorios musicales se necesitan
bloques cortos y la ganancia de codificacin ser baja. En otro caso los bloques se vuelven mayo-
0 1 2 3 4 5 6 7
Conversor de exponente
Nivel de entrada (db bajo el mximo)
42 36 30 24 18 12 6 0
A
48
48
48
48
48
S
N
R

(
d
b
)
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.24 Tecnologa de los Contenidos Multimedia
res permitiendo una ganancia de codificacin mayor. Mientras que este sistema se utilice slo se
permite codificacin de ganancia, el factor de compresin tiene que limitarse porque se obtiene
poco beneficio del enmascaramiento. Esto se debe a que estas tcnicas producen distorsin que
puede encontrarse en cualquier lugar de toda la banda de audio. Si el espectro de la entrada de
audio es estrecho este ruido no se enmascarar.
Figura 5.14 Transitorio en el final de un bloque de una transformada
La codificacin sub-banda separa el espectro de audio en diferentes bandas de frecuencia, con lo
que posteriormente cada banda puede procesarse individualmente. En las seales de audio reales
muchas bandas contendrn seales de menor nivel que la de tono ms alto. La compensacin
individual de cada banda ser ms eficaz que la de la banda completa. La codificacin sub-banda
tambin permite que el nivel de los productos de distorsin aumente selectivamente de manera
que la distorsin slo se crea a frecuencias en las que el enmascaramiento espectral sea eficaz.
Debe tenerse en cuenta que el resultado de reducir la longitud de palabra de las muestras en un
codificador sub-banda es considerado a menudo como ruido. Estrictamente, el ruido es una seal
no deseada que no est correlacionada con la seal deseada. Esto no sucede generalmente en la
compresin de audio. El elemento aleatorio en la linealizacin en los bits de bajo orden estar de
alguna manera debajo de el final de la palabra reducida. Si la palabra es simplemente redondeada
al entero ms cercano el efecto de la linealizacin se perder produciendo distorsin por la cuan-
tificacin. Como la distorsin se produce en un sistema de banda limitada los armnicos genera-
dos aparecern con alias en la banda. Cuando la recuantificacin se realiza en una sub-banda la
distorsin se confinar a esa sub-banda, tal y como se ilustra en la figura 5.15. Esta distorsin es
anarmnica.
Figura 5.15 Codificacin por transformacin en bloques cortos.
Ruido
enmascarado
Transitorio
Ruido que puede
percibirse si el bloque es
demasiado largo
Nivel de ruido constante
en bloque
Tiempo
Bloque de transformada
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.25
La seal de audio se considera usualmente una forma de onda en el dominio temporal ya que esto
es los que produce un micrfono. Sin embargo, el anlisis espectral permite que cualquier forma
de onda se represente por un conjunto de elementos armnicamente relacionados de amplitud y
fase dadas. En teora es perfectamente posible descomponer una forma de onda peridica en sus
frecuencias y fases, y grabar o transmitir la transformada. Esta puede invertirse y reconstruir la
forma de onda temporal original.
La transformada de una forma de onda tpica de audio cambia con relativa lentitud la mayora de
las veces. La lenta decada de la mayora de los sonidos musicales permite reducir la velocidad
de muestreo de la transformada, con lo que se obtiene una codificacin de ganancia. En algunas
frecuencias el nivel estar por debajo del mximo y puede utilizarse una longitud de palabra
menor. Adems podr obtenerse codificacin de ganancia si los coeficientes que describen las
frecuencias que se enmascararn se cuantificarn menos finamente.
En la prctica aparecen algunas dificultades. Los sonidos reales no son peridicos, contienen
transitorios para los que la transformacin no puede realizarse de forma precisa. Una posible
solucin consiste en separar la forma de onda en dos segmentos cortos y transformar cada uno
individualmente. El retardo se reduce pero existe la posibilidad de que aparezcan efectos no
deseados debido a que la forma de onda ha sido truncada en ventanas temporales rectangulares.
Una solucin es utilizar funciones de ventana, y superponer los segmentos, tal y como se ilustra
en la figura 5.15. Entonces, cada muestra de entrada aparece en slo dos transformadas, pero con
pero variable dependiendo de su posicin a lo largo del eje temporal.
La DFT no produce un espectro continuo sino coeficientes a frecuencias discretas. La resolucin
en frecuencia, es decir, el nmero de coeficientes a diferentes frecuencias, es igual al nmero de
muestras en la ventana. Si se utilizan ventanas superpuestas, se produce el doble de coeficientes
ya que son necesarios tericamente. Adems la DFT necesita clculos intensivos y adems es
necesario utilizar la aritmtica de los nmeros complejos para determinar tanto la fase como la
amplitud. Una alternativa es utilizar la DCT (Discrete Cosine Transform) o la MDCT (Modified
Discrete Cosine Transform), que tiene la capacidad de eliminar la sobrecarga debida a la super-
posicin de las ventanas y volver al dominio crticamente muestreado. El trmino muestreo cr-
tico se utiliza para indicar que el nmero de coeficientes no excede el nmero que se obtendra
sin superposicin de ventanas.
5.4.4 CODIFICACIN SUB-BANDA
La codificacin sub-banda tiene la ventaja de que los sonidos reales no tienen un energa espec-
tral uniforme. La longitud de palabra del PCM de audio se basa en el rango dinmico requerido y
este es generalmente constante e independiente de la frecuencia, aunque cualquier pre-nfasis
puede afectar. Cuando una seal con un espectro no par es expresada como PCM, el rango din-
mico completo se ocupa slo por el componente espectral menos alto, y todos los dems compo-
nentes se codifican con espacio excesivo.
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.26 Tecnologa de los Contenidos Multimedia
En su forma ms simple la codificacin binaria consiste en separar la seal de audio en un
nmero de bandas de frecuencia y compensar cada una de acuerdo con su propio nivel. Las ban-
das en las que hay poca energa producen menores amplitudes que pueden transmitirse con longi-
tudes de palabra cortas. Por tanto, cada banda produce muestras de longitud variable, pero la
suma de todas las longitudes de palabra de las muestras es menor que la del PCM y as puede rea-
lizarse la codificacin de ganancia. Debe tenerse en cuenta que la codificacin sub-banda no se
utiliza slo en el contexto digital, los sistemas de reduccin de ruido Dolby son un ejemplo de
dispositivo analgico que lo utilizan ampliamente.
El nmero de sub-bandas que deben utilizarse depende de las herramientas de conversin que se
combinen con la codificacin sub-banda. Si se intenta optimizar la compresin basada en enmas-
caramiento las bandas debern ser preferiblemente ms estrechas que las bandas crticas del odo,
y entonces se necesitar un gran nmero. Sin embargo, esta caracterstica a menudo no se
alcanza. Por ejemplo los ISO/MPEG Layers I y II usan nicamente 32 sub-bandas. La figura 5.16
muestra la condicin crtica donde el enmascaramiento est en la arista superior de la sub-banda.
La utilizacin de un nmero excesivo de sub-bandas aumenta la complejidad y el retardo de la
codificacin, as como el riego de pre-rizado en los transitorios, los cuales pueden exceder el
enmascaramiento temporal. Por ltimo debe tenerse en cuenta que el proceso de separacin de
bandas es complejo y necesita gran cantidad de clculo.
Figura 5.16 Condicin crtica en la que el tono del enmascaramiento se encuentra en el lmite superior de la sub-banda
5.4.5 FORMATOS DE COMPRESIN DE AUDIO
Existen numerosos formatos para la compresin de audio y en general pueden dividirse en for-
matos estndar internacionales y formatos de propietario.
Dos estndares internacionales, ISO (International Standards Organization) e IEC (International
Electrotechnical Commission), reconocieron rpidamente la importancia de la compresin, y en
1988 establecieron el ISO/IEC/MPEG (Moving Picture Experts Group) para comparar diferentes
tcnicas de compresin con el fin de desarrollar un estndar internacional para la compresin de
video. Los objetivos se extendieron ese mismo ao para incluir el audio, y el grupo MPEG/audio
se constituy con este fin.
Nivel de
enmanscaramiento
Frecuencia
Ruido que puede
enmascararse
Tono de
enmanscaramiento
Frecuencia
La banda estrecha
permite enmascarar
ms ruido
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.27
La codificacin MPEG/audio se utiliza para DAB (digital audio broadcasting) y para el audio de
la emisin de televisin digital.
En Estados Unidos se ha propuesto utilizar una compresin alternativa para el contenido de audio
de las emisiones de televin digital ATSC (Advanced Television Systems Commitee). Este es el
sistema AC-3 desarrollado por los laboratorios Dolby. La estructura de transporte MPEG ha sido
tambin estandarizada para permitir transportar audio codoficado AC-3. El DVD (Digital Video
Disk) puede tambin transportar codificacin de audio AC-3 o MPEG.
Otro codificador popular, que es de propietario, es el ATRAC, que es el que se utiliza en los
MiniDisc
5.5 COMPRESIN DE AUDIO MPEG
El objetivo de la compresin de audio qued bien establecido cuando se form el grupo MPEG/
Audio. En un principio no era necesario para el grupo producir codificadores (codecs) porque el
trabajo existente y los desarrollos hasta ese momentos eran adecuados. Como parte del proyecto
Eureka 147, se desarroll el sistema conocido como MUSICAM (Masking pattern adapted Uni-
versal Sub-band Integrated Coding And Multiplexing). Fue desarrollado por la CCETT en Fran-
cia, IRT en Alemania y Philips en Holanda. Este sistema fue diseado para que fuese apropiado
para la emisin DAB (Digital Audio Broadcasting). En paralelo se desarroll el sistema ASPEC
(Adaptive Spectral Perceptual Entropy Coding), a partir de numerosos sistemas anteriores, por
los laboratorios AT&T Bell Labs, Thomson, la Fraunhofer Society y el CNET. El sistema
ASPEC fue diseado para utilizar altos factores de compresin para permitir la transmisin de
audio sobre RDSI.
Los dos sistemas anteriores fueron implementados completamente en Julio de 1990, cuando la
Corporacin Sueca de Emisiones realiz un test exhaustivo. Como resultado de estas pruebas, el
grupo MPEG/Audio combin las caractersticas de los sistemas ASPEC y MUSICAM en un
nico estndar manteniendo tres niveles de complejidad y de especificaciones.
Los tres niveles, conocidos como layers (capas), son necesarios ya que existen numerosas aplica-
ciones, con diferentes exigencias. Los codificadores de audio pueden trabajar con diferentes
niveles de calidad en las especificaciones y con distintos factores de compresin. Por ejemplo,
los equipos clsicos estereofnicos requieren unas especificaciones de calidad diferentes a los
mono. La complejidad del codificador ser menor cuando el factor de compresin sea menor.
Cuando se necesite una compresin moderada un codificador sencillo ser ms eficaz. Por otro
lado, cuando el factor de compresin aumenta ser necesario emplear un codificador ms com-
plejo para mantener la calidad.
El codificador MPEG Layer I es una versin simplificada del MUSICAM, que es muy apropiado
para aplicaciones de compresin media y bajo coste. El Layer II es idntico al MUSICAM y se
utiliza para DAB y para el contenido audio de la televisin digital DVB. El Layer III es una com-
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.28 Tecnologa de los Contenidos Multimedia
binacin de las mejores caractersticas del ASPEC y el MUSICAM y se utiliza principalmente
para las telecomunicaciones, en las que se suelen necesitar altos factores de compresin.
En cada capa, la codificacin MPEG Audio permite velocidades de muestreo de entrada de 32,
44.1 y 48 KHz y velocidades de salida de 32, 48, 56, 64, 96, 112, 128, 192, 256 y 384 kbits/seg.
La transmisin puede ser mono, canal dual (por ejemplo bilinge) o estreo. Otra posibilidad es
utilizar el modo estreo de manera que el audio se vuelve mono sobre un cierto rango de frecuen-
cias. Esto permite una velocidad de bits menor con la desventaja evidente de que se reduce la
fidelidad estreo.
Las capas del codificador MPEG Audio, (I, II y III), no deben confundirse con los estndar de
codificacin para televisin MPEG-1 y MPEG-2. Estos definen un rango de sistemas para la
codificacin de video y audio mientras que los layers definen tipos de codificacin de audio. El
primer estndar de MPEG-1 comprime audio y video con cerca de 1.5 Mbits/SEG. La codifica-
cin de audio del MPEG-1 puede utilizarse para codificar uno o dos canales a velocidades supe-
riores a 448 kbits/seg. MPEG-2 permite que el nmero de canales crezca hasta cinco: izquierdo,
derecho, centro, izquierdo surround y derecho surround. Con el fin de mantener la compatibili-
dad con MPEG-1, el MPEG-2 convierte los cinco canales de entrada en una seal compatible de
dos canales, Lo, Ro, tal y como se muestra en la figura 5.17.
Figura 5.17 Obtencin de una seal estreo a partir de cinco seales envolventes para permitir la compatibilidad con
un sistema de dos canales.
Los datos de estos dos canales se codifican en un estndar MPEG-1 de audio, siguiendo MPEG-
2 con un sistema de datos subordinado que el decodificador MPEG-1 ignorar. El sistema subor-
dinado contiene datos de otros tres canales de audio. La figura 5.18 muestra como hay ocho
modos en los que estos tres canales pueden obtenerse. El codificador seleccionar el modo que
tendr la menor velocidad de datos para la distribucin de energa dominante en los canales de
entrada. Un decodificador MPEG-2 extraer esos tres canales adems del sistema MPEG-1 de
Lo=L+C+Ls Ls

L
C

R
Rs

Ro=R+C+Rs
Envolvente Izquierdo
(Left Surround)
Centro
Izquierdo (Left)
Derecho (Right)
Envolvente derecho
(Right Surround)
Par compatible estreo
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.29
manera que se recuperan los cinco canales originales mediante una matriz inversa que es dirigida
por los bits de seleccin de modo de la cadena de bits.
Figura 5.18 Combinaciones posibles de seales que deben enviarse, adems del par compatible estreo.
En todos los casos mostrados en la figura 5.18 pueden repuerearse los cinco canales originales a
partir de una matriz inversa adecuada.
Las especificaciones para el MPEG-2 de audio para que se mantenga la compatibilidad con
MPEG-1 era fundamental para algunas aplicaciones pero comprometa las prestaciones ya que
algunas herramientas de codificacin muy tiles no se utilizaban. Por ello el grupo MPEG Audio
desarroll un estndar multicanal que no era compatible ya que incorporaba herramientas de
codificacin adicionales con el fin de obtener mayores prestaciones. Este estndar fue denomi-
nado MPEG-2 AAC (Advanced Audio Coding).
5.6 CODIFICACIN DE AUDIO MPEG LAYER I
La figura 5.19 muestra el diagrama de bloques del codificador Layer I, que es una versin simpli-
ficada del sistema MUSICAM. Un filtro polifsico divide el espectro de audio en 32 sub-bandas
iguales. La salida del banco de filtros es muestreada crticamente. Es decir, la velocidad de salida
de los datos no es mayor que la velocidad de entrada. La compresin de sub-bandas tiene la ven-
taja de que los sonidos reales no tienen espectro de energa uniforme. La longitud de palabra del
PCM audio se basa en el rango dinmico necesario que generalmente es, como se dijo, constante
para todas las frecuencias. Cuando una seal con un espectro no par se convierte en PCM, el
rango dinmico completo se ocupa nicamente por la componente espectral menos alta, y todas
las dems componentes se codifican con espacio excesivo. En su forma ms simple la codifica-
cin sub-banda divide la seal de audio en un nmero determinado de bandas de frecuencia y
cada banda se compensada de acuerdo con su propio nivel. Las bandas en las que hay poca ener-
ga producen amplitudes pequeas que pueden transmitirse con longitudes de palabra pequeas.
Por tanto, cada banda produce muestras de longitud variable, pero la suma de todas las longitudes
de palabra de las muestras es menor que la del PCM y as puede realizarse la codificacin de
ganancia. La figura 5.20 muestra el decodificador.
L R C
L Rs C
Ls R C
Ls Rs C
L R Ls
L R R
Ls R R
L Rs Ls

TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.30 Tecnologa de los Contenidos Multimedia
Figura 5.19 Diagrama de bloques de un codificador de sub-bandas.
Figura 5.20 Diagrama de bloques de un decodificador de sub-bandas
Un codificador supeditado al Layer I, es decir, aquel cuya salida puede ser entendida por cual-
quier decodificador estndar, puede realizarse simplemente de esta manera. Una vez garantizado
que la sintaxis de la cadena de bits es correcta el decodificador no tiene que considerar cmo se
realizaron las decisiones en la codificacin. Sin embargo, los factores de distorsin elevados
necesitan que el nivel de distorsin aumente y esto debe hacerse slo si se sabe que los productos
de distorsin sern enmascarados. En el caso ideal las sub-bandas sern ms estrechas que las
bandas crticas del odo.
La figura 5.16 mostr que la condicin crtica en la que el tono enmascarado est en el lado supe-
rior de la sub-banda. Sin embargo, la utilizacin de un nmero excesivo de sub-bandas aumen-
tar la complejidad y el retardo del codificador. El uso de 32 sub-bandas iguales en los MPEG
Layers I y II es una solucin de compromiso entre ambos factores.
Filtros separadores de banda polifsicos eficientes pueden slo operar con achura de sub-bandas
iguales y por ello en un modelo de audicin basado en la octava las sub-bandas son demasiado
anchas para bajas frecuencias y demasiado estrechas para las altas.
Con el fin de soslayar el problema de la precisin en el filtro sub-banda se utiliza un una transfor-
mada rpida de Fourier para dirigir el modelo de enmascaramiento. El estndar sugiere algunos
de estos modelos de enmascaramientos pero se pueden obtener cadenas de bits adecuadas a partir
de otros modelos. En el Layer-I se utiliza una FFT de 512 puntos. La salida de la FFT se utiliza
Banco de
Filtros
Compresin
Modelo de
enmascaramiento
del factor de escala
Subbandas
FFT
Recuantificacin Multiplexor
Tamao de
escaln
Audio
comprimido
Demultiplexor
Entrada de
audio comprimido
Factor de
escala
Salida Audio
PCM
Muestras
Cuantificacin
inversa
Tamao de
escaln
Expansin
Banco de
filtros
inverso
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.31
para determinar el umbral de enmascaramiento que es la suma de todas las fuentes de enmascara-
miento. Estas fuentes incluyen al menos el umbral de audicin que puede aumentar localmente
por el contenido en frecuencia de la entrada de audio. El grado con el que el umbral crece
depende de si la entrada de audio es sinusoidal o atona (cuasi-ruido). En el caso de una onda sin-
usoidal la magnitud y la fase de la FFT para cada frecuencia ser similar en una ventana y en la
siguiente, mientras que si la seal es tona la informacin de la magnitud y la fase sera catica.
El umbral de enmascaramiento es en efecto una medida del ruido como funcin de la frecuencia,
tal y como ilustra la figura 5.21. El umbral de enmascaramiento se calcula convolucionando el
espectro de la FFT con la funcin ampliada con correcciones por tonalidad. El nivel del umbral
de enmascaramiento no puede caer por debajo de umbral absoluto, que es el umbral de audicin.
Por tanto el umbral de enmascaramiento se sobrepone sobre las frecuencias reales de cada sub-
banda tal que puede establecerse el nivel permitido de distorsin en cada una.
Figura 5.21 (a) Curva que muestra el nivel de ruido observable calculada mediante el modelo de enmascaramiento. (b)
Niveles de ruido en cada subbanda.
Los niveles de ruido en cada subbanda mostrados en la figura 5.21 deben establecerse de forma
que no excedan el nivel de la curva.
Se utilizan bloques de entrada de tamao constante con 384 muestras. A 48 KHz las 384 mues-
tras corresponden a un periodo de 8 mseg. Despus del filtro de sub-banda cada banda contiene
12 muestras por bloque. El tamao del bloque es suficientemente grande para evitar el fenmeno
del pre-enmascaramiento, que se observaba en la figura 5.16. Por tanto el modelo de enmascara-
miento debe garantizar que no se utiliza una recuantificacin masiva en un bloque que contiene
un gran transitorio seguido de un periodo estacionario. Esto puede realizarse comparando los
parmetros del bloque con los de los bloques anteriores, ya que una diferencia significativa indi-
car una actividad transitoria.
(a) Nivel de Ruido
observable
(b) Nivel de Ruido
en cada subbanda
Frecuencia
Subbanda
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.32 Tecnologa de los Contenidos Multimedia
Las muestras de cada bloque de sub-banda, denominadas bin, se compensan de acuerdo con el
valor de pico en los bin. Se utiliza un factor de escala de seis bits para cada sub-banda que se
aplica a las 12 muestras. La ganancia de etapa es de 2 dB y por tanto es posible un cdigo de seis
bits sobre un rango dinmico de 120 dB.
Se utiliza una velocidad de bits de salida fija, y el tamao del bloque se salida codificado ser
fijo. La longitud de palabra en cada bin ser tal que la suma de los bits de todas las sub-bandas es
igual al tamao del bloque codificado. Por tanto, algunas sub-bandas pueden tener longitudes de
palabra grandes si otras las tienen pequeas. El proceso para determinar el tamao del paso de
recuantificacin, y pro tanto la longitud de palabra en cada sub-banda, se denomina localizador
de bit. En el Layer I todas las sub-bandas se tratan de la misma manera y se utilizan 14 clases
diferentes de recuantificaciones. Cada una tiene un nmero impar de intervalos cuantificados.
Cuando se realiza el enmascaramiento la seal se cuantifica con menos presisin hasta que el
nivel de distorsin aumenta hasta el nivel de enmascaramiento. Esta cuantificacin menos pre-
cisa necesita longitudes de palabra ms pequeas y permite una codificacin en ganancia. La
localizacin de bit puede ser iterativa ya que se van realizando ajustes a lo largo de todas las sub-
bandas con el fin de obtener la misma relacin ruido-enmascaramiento, NMR (Noise to masking
ratio). Si la velocidad de datos permitible es adecuada se producir una NMR positiva y entonces
la calidad de la decodificacin ser ptima. Sin embargo, a velocidades de bit ms bajas y en
ausencia de almacenamiento no es posible un aumento en la velocidad de bit. La distorsin de la
codificacin no puede enmascararse y lo mejor que puede hacer el codificador es igualar la NMR
negativa a lo largo del espectro de manera que la distorsin no se enfatice en ninguna sub-banda.
Es posible que en algunas sub-bandas no haya dato alguno, debido a que sus frecuencias no estu-
vieran presentes originalmente o porque el codificador las descarte para obtener una velocidad de
bit menor.
Las muestras de diferentes longitud de palabra en cada bin se ensamblan en el bloque codificado
de salida. A diferencia de un bloque PCM, que contiene muestras de longitud de palabra fija, un
bloque codificado contiene numerosas longitudes de palabra diferentes que pueden variar de una
sub-banda a la siguiente. Con el fin de descomponer el bloque en muestras de distintas longitudes
de palabra y demultiplexar estas muestras en los bins de frecuencias apropiadas, es necesario que
se comunique al decodificador cules fueron las localizaciones de bits utilizadas cuando se
empaquetaron, con lo que es imprescindible algn tipo de sincronismo para permitir que se iden-
tifique el principio del bloque.
El factor de compresin se determina por un sistema de localizacin de bit. Cambiar el tamao
del bloque de salida para obtener un factor de compresin diferente es sencillo. Si se especifica
un bloque mayor el localizador de bit simplemente itera hasta que se ajuste el nuevo tamao de
bloque. Anlogamente el decodificador slo necesita descomponer correctamente el bloque
mayor en muestras codificadas y entonces el proceso de expansin es idntico excepto por el
hecho de que las palabras expandidas contienen menor ruido. Por tanto puede disponerse de
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.33
codificadores con grados de compresin variable que pueden incorporar diferentes prestaciones
de ancho de banda/especificaciones con el mismo hardware.
La figura 5.22.a muestra el formato de la cadena elemental del Layer I. El sistema comienza con
un patrn sncrono para inicializar la fase de descomposicin, y una cabecera que describe la
velocidad de muestreo y cualquier uso de prenfasis. A continuacin sigue un bloque de 32 gru-
pos de cuatro bits que son cdigos de localizacin, que especifican la longitud de palabra utili-
zada en cada una de las sub-bandas y permiten que el descodificador descomponga el bloque de
muestras de las sub-bandas. Seguidamente se encuentra un bloque de 32 grupos de seis bits que
indican los factores de escala, que especifican las ganancias dadas a cada banda durante la com-
presin. El ltimo bloque contiene 32 conjuntos de 12 muestras, que tienen longitudes de palabra
distintas de un bloque al siguiente, y pueden tener una longitud entre 0 y 15 bits. La descomposi-
cin tiene que utilizar la informacin de los cdigos de las 32 localizaciones para analizar cmo
se descomponen los bloques de muestras en muestras individuales de longitud variable. La figura
5.22.b muestra el formato de la cadena elemental del Layer II.
(a)
(b)
Figura 5.22 (a).Formato de la cadena elemental del Layer I. (b) Formato de la cadena elemental del Layer I.
La figura 5.23 muestra el decodificador Layer I MPEG. La cadena elemental se descompone uti-
lizando el patrn de sincronismo y las muestras de longitud variable se ensamblan utilizando los
cdigos de localizacin. Las muestras de longitud variable se convierten en muestras con longi-
tud de palabra de 15 bits aadiendo ceros. Los ndices del factor de escala se utilizan entonces
para determinar los factores de multiplicacin utilizados para reconstruir la amplitud original las
formas de onda de cada sub-banda. Entonces se mezclan las 32 seales de las sub-bandas en un
espectro mediante filtrado de sntesis, que consiste en un banco de filtros pasa-banda que rea-
signa cada sub-banda a su localizacin correcta en el espectro de audio y seguidamente los suma
para producir la salida de audio.
Cabecera CRC
Localizacin
de bt
Factores de
escala
Subbanda muestras
Datos
auxiliares
Cabecera CRC
Localizacin
de bt
Factores de
escala
Subbanda
muestras/
granulos
Datos
auxiliares
CRC
Cdigo
SCFSI
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.34 Tecnologa de los Contenidos Multimedia
Figura 5.23 Decodificador Layer I
5.7 CODIFICACIN DE AUDIO MPEG LAYER II
Este codificador es idntico al MUSICAM. Se utiliza en mismo banco de filtros de 32 bandas y
el mismo esquema de compresin que en el Layer I. Con el fin de proporcionar una mejor resolu-
cin espectral al modelo de enmascaramiento la FFT tiene 1024 puntos. La FFT dirige el modelo
de enmascaramiento que puede ser la misma que la utilizada en el Layer I. La longitud del bloque
aumenta a 1152 muestras. Esta es tres veces la longitud del bloque del Layer I, correspondiendo
a 24 mseg a 48 kHz.
La figura 5.22.b muestra la estructura de la cadena elemental del Layer II. Tras el patrn de sin-
cronismo se enva los datos de localizacin de bit. El proceso de recuantificacin del Layer II es
ms complicado que el del Layer I. Las sub-bandas se clasifican en tres rangos de frecuencia,
baja, media y alta, y la recuantificacin en cada rango es diferente. Las muestras a baja frecuen-
cia pueden cuantificarse en 15 longitudes de palabra diferentes, las frecuencias medias en 7 lon-
gitudes de palabra y las altas en tres. Los datos de localizacin de bits utilizan palabras de cuatro,
tres y dos bits dependiendo del sub-canal al que se refieran. Esto reduce la cantidad de datos de
localizacin de bits que deben ser enviados. En cada caso existe una combinacin extra en el
cdigo de localizacin, que se utiliza para indicar que no se envan datos para esa sub-banda.
El bloque de 1152 muestras del Layer II se divide en tres bloques de 384 muestras de manera que
puede utilizarse la misma estructura de compresin que en el Layer I. Se mantiene el tamao de
paso de 2 dB en los factores de escala pero no se transmiten todos los factores de escala porque
array de
ndices de
factores de
escala
Tabla de
factores de
escala
Control de
decodificador
array de
ndices de
factores de
escala
Filtro
inverso
muestras
Subbanda
de
audio
Salida
de audio
PCM
Expansor Cuantizador
inverso
Tamao de
paso
Informacin de
localizacin
Informacin de codificacin
Factores de
escala
Demux
de
Bitstream
Seal de
entrada
Layer I
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.35
contienen redundancia. En la realidad la diferencia entre factores de escala de bloques sucesivos
en la misma banda supera los 2 dB en menos de un 10% del tiempo. El codificador Layer II ana-
liza el conjunto de tres factores de escala sucesivos en cada sub-banda. En un caso estacionario
seran iguales y slo uno sera transmitido. A medida que un transitorio crece en una sub-banda
ser necesario enviar dos o tres factores de escala, Es necesario enviar un cdigo de dos bits,
denominado SCFSI (scale factor select information), para que el decodificador pueda determinar
cules de los tres factores de escala han sido enviados en cada sub-banda. Esta tcnica divide efi-
cazmente la velocidad de bit del factor de escala.
Del mismo modo que en el Layer I, el proceso de recuantificacin siempre utiliza un nmero
impar de pasos para permitir que uno sea un cero real. Con cdigos de longitud de palabras gran-
des esto no es un problema pero cuando se utilizan tres, cinco o nueve intervalos de cuantifica-
cin es ineficiente poruqe no se usan algunas combinaciones. Por ejemplo, cinco intervalos
necesitan un cdigo de tres bits que permiten ocho posibilidades, con lo que tres no se utilizan.
La solucin es que cuando se usan tres, cinco o nueve niveles se codifican juntos conjuntos de
tres muestras en un "grnulo". La figura 5.24 muestra el proceso de granulado. Con cinco inter-
valos de cuantificacin cada muestra tendra cinco valores diferentes con lo que todas las combi-
naciones posibles de las tres muestras tendran 125 valores diferentes. Dado que se pueden
codificar 128 valores con un cdigo de 7 bits esta agrupacin es ms eficaz que codificar las
muestras de forma separada ya que tres cdigos de cinco niveles necesitaran nueve bits. Las tres
muestras recuantificadas se utilizan para direccionar una tabla que indica el cdigo de grnulo. El
decodificador puede establecer que se ha utilizado la codificacin de grnulo examinando los
datos de localizacin de bit.
Figura 5.24 Proceso de granulado.
Las muestras-grnulos recusntificados en cada sub-banda, los datos de localizacin de bit, los
factores de escala y los cdigos de seleccin de los factores de escala se multiplexan en la cadena
de bits de salida.
Cdigo de 8 bits
En el decodificador En el codificador
Tabla de
consulta
(Look up)
Tabla de
consulta
(Look up)
Cdigo 1
Cdigo 2
Cdigo 3
Cdigo 1
-2, -1, 0, 1, 2
Cdigo 2
-2, -1, 0, 1, 2
Cdigo 3
-2, -1, 0, 1, 2
El Cdigo de 8 bits
puede tener 128 valores
Total de
5x5x5=125 valores
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.36 Tecnologa de los Contenidos Multimedia
La figura 5.25 muestra el decodificador Layer II, que no es mucho ms complejo que el Layer I.
La demultiplexacin separa las muestras de la informacin adicional. Los datos de localizacin
de bit especificarn la longitud de palabra o el tamao de grnulo utilizado, de manera que el blo-
que de muestras puede desagruparse y los grnulos decodifocados. El selector del factor de
escala se utilizan para decodofocar los factores de escala comprimidos obteniendo un factor de
escala por bloque de 384 muestras. La cuantificacin inversa y el filtrado inverso de las sub-ban-
das se realiza igual que en el Layer I.
Figura 5.25 Decodificador Layer II, algo ms complejo que el Layer I debido a la decodificacin de los grnulos y de los
factores de escala.
5.8 CODIFICADOR DE AUDIO MPEG LAYER III
El Layer III es el ms complejo, y slo es realmente necesario cuando deben conseguirse las res-
tricciones ms severas en la velocidad de datos. Es bien conoida la aplicacin del MP3 en la dis-
tribucin de msica por Internet. Consiste en un cdigo transformado basado en el sistema
ASPEC con algunas modificaciones para obtener cierto grado de compatibilidad con el Layer II.
El codificador ASPEC original utilizaba una MDCT (modified discrete cosine transform) directo
sobre las muestras de entrada. En el Layer III esto se modific para utilizar una transformada
hbrida que incorpore los 32 filtros polifsicos de los Layer I y II y mantener el tamao de bloque
de 1152 muestras. En el Layer III las 32 sub-bandas son procesadas por una MDCT crticamente
muestreada.
Las ventanas se superponen de dos a una, y se utilizan dos tamaos de ventana para reducir el
pre-echo en el transitorio. La ventana mayor trabaja con 36 muestras de sub-banda a 24 mseg
slo a 48 kHz y resuelve para 18 frecuencias diferentes, manejando 576 frecuencias (32 filtros
por 18 frecuencias). Los productos de codificacin se extienden a lo largo de este periodo, que es
aceptable en el estacionario, pero no en las cercanas de los transitorios. En este caso la longitud
de la ventana se reduce a 8 mseg. Doce muestras de sub-banda se resuelven en 6 frecuencias dife-
rentes con un total de 192 frecuencias (32 filtros por 6 frecuencias). Esta es la desigualdad de
Heisenberg: al aumentar la resolucin temporal en un factor de tres, la resolucin en frecuencia
disminuye en el mismo factor.
Decodificador de
grnulo
Cuantizacin
inversa
Compensacin
inversa
Banco de
filtros
inverso
Demux
Salida
Decodificador
Factores de escala
Localizacin
de bit
Entrada
Datos de
cadena
Datos de
muestras
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.37
La figura 5.26 muestras los tipos de ventana posibles. Adems de las ventanas simtricas grandes
y cortas, hay un par de ventanas de transicin, conocidas como ventanas de inicio y parada, que
permiten transiciones suaves entre las ventanas de tamaos grande y pequeo. Con el fin de utili-
zar un muestreo crtico las MDCTs deben resolver en un conjunto de frecuencias que sea mlti-
plo de cuatro. La conmutacin entre 576 y 192 frecuencias permite satisfacer este criterio.
Obsrvese que una ventana de 8 mseg es todava demasiado grande como para eliminar el pre-
echo, que se eliminar mediante almacenamiento. La utilizacin de una ventana pequea mini-
miza el tamao del bfer necesario.
Figura 5.26 Funciones de ventana del codificador Layer III. (a) Ventana de longitud normal. (b) Ventana corta para el
tratamiento de transitorios. (c) y (d) Utilizacin de (a) y (b) conmutando entre ellas. (e) Ejemplo de conmu-
tacin de ventanas utilizando ventanas de transicin.
El codificador Layer III es ms complejo que el II y el I principalmente debido a la conmutacin
entre las ventanas. En las seales de audio el pre-echo se asocia con la entropa creciendo sobre
el valor medio, hecho que puede utilizarse para conmutar el tamao de ventana. Se utiliza un
modelo perceptivo ya que tiene la ventaja de la resolucin a altas frecuencias que permite dar
forma al nivel de ruido con mayor precisin que con las 32 sub-bandas de los Layers I y II. Aun-
que la MDCT tiene resolucin a alta frecuencia, no transporta la fase de la forma de onda de una
forma identificable y por tanto no es til para discriminar entre entradas tonales y atonales. Por
ello es todava necesaria una FFT para dirigir el modelo de enmascaramiento, ya que proporciona
datos convencionales sobre la amplitud y la fase.
Se utiliza la cuantificacin no uniforme en la que el tamao del paso de cuantificacin es mayor
cuando la magnitud de los coeficientes crece. Los coeficientes cuantificados son seguidamente
sometidos a una codificacin de Huffman, que es una tcnica en la que los valores de cdigo ms
comunes se localizan en las longitudes de palabras ms cortas. El Layer III tambin mantiene
alguna cantidad de memoria de almacenamiento de manera que el pre.echo pueda ser eliminado
durante los picos de entropa a pesar de que la velocidad de salida de los bits sea constante.
(a) (c)
(b) (d)
(e)
L T S T L
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.38 Tecnologa de los Contenidos Multimedia
La figura 5.27 muestra el codificador Layer III. La salida del filtro de sub-bandas son 32 cadenas
de muestras continuas de banda limitada, que son sometidas a 32 MDCTs paralelos. El tamao
de la ventana puede conmutarse individualmente en cada sub-banda. La FFT paralela dirige el
modelo de enmascaramiento que decide el tamao de la ventana y produce el umbral de enmas-
caramiento para los coeficientes cuantificados. El bucle de control de la distorsin itera hasta que
se alcanza la capacidad de datos de salida con la NMR ms uniforme.
Figura 5.27 Codificador Layer III.
En la figura 5.27 puede observarse la conexin entre el bfer y el cuantizador, que permite que
diferentes frames contengan distintas cantidades de datos.
La figura 5.28 muestra como la ocupacin del bfer es realimentada hacia el cuantificador.
Durante el estacionario los contenidos del bfer disminuyen intencionadamente. El bfer se
vaca ya que la velocidad de salida es fija pero la de entrada ha sido reducida. Cuando llega un
transitorio los coeficientes grandes pueden manejarse llenando el bfer, evitando que la veloci-
dad de los bits de salida aumente, mientras que tambin se evita el pre-echo que se producira si
los coeficientes fuesen fuertemente cuantificados.
Figura 5.28 Codificacin de velocidad variable del Layer III.
Para mantener el sincronismo entre el codificador y el decodificador cuando se realiza almacena-
miento, las cabeceras se envan sncronamente. Sin embargo, la posicin de la frontera entre los
bloques de datos principales que llevan los coeficientes pueden variar respecto la posicin de las
Banco de Filtros
32 bandas
MDCT
32 576 Entrada
Cuantizador no
uniforme
Cdigo de
Huffman
Bfer
FFT de 1024
puntos
Modelo
psico-
acustico
Control de
Cuantizador
Cdigo de
Huffman
Formato
Conmutador de
ventanas
Ocupacin del bfer
Salida
Cuantizador no
uniforme
Bfer
Control de
Cuantizador
Ocupacin del bfer
Tamao del
paso
Coeficientes
Entropa
perceptual
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.39
cabeceras para permitir un tamao de estructura variable. La figura 5.29 muestra cmo el sistema
comienza con un nico patrn de sincronismo que es seguido de la informacin. La informacin
contiene un parmetro denominado "comienzo del los datos principales" que especifica dnde
empiezan los datos principales de la actual estructura. Este parmetro permite que el decodifica-
dor encuentre el bloque de coeficientes en el bfer del decodificador. Como las cabeceras de la
estructura se mantienen en localizaciones fijas, los bloques de datos principales pueden ser inter-
pretados por las cabeceras.
Figura 5.29 Patrn de sincronismo e informacin en el Layer III.
Como puede observarse en la figura 5.29, en el Layer III la velocidad de frame es constante y se
transmite con patrones de sincronismo igualmente espaciados. Los bloques de datos no necesitan
coincidir con el sincronismo. Un puntero despus de cada patrn de sincronismo especifica
dnde comienzan los bloques de datos. En el ejemplo de la figura 5.29 el bloque 2 es el menor y
el 1 y el 3 son ms grandes.
5.9 MPEG-2 AAC- ADVANCED AUDIO CODING
El siguiente sistema estndar MPEG desarroll un sistema realzado conocido como AAC. Se
intent que fuera un estndar que desarrollase las especificaciones ms altas posibles utilizando
nuevas herramientas desarrolladas que no podran ser compatibles con los anteriores codificado-
res. El codificador AAC es el base fundamental del codificador de audio del MPEG-4.
El codificador AAC soporta hasta 48 canales de audio con soporte por defecto monofnico, est-
reo y canales 5.1 (3/2). El concepto de AAC se basa en un nmero de herramientas de codifica-
cin conocidas, estructuradas como mdulos que pueden combinarse de diferentes formas para
producir cadenas de bits con tres prefiles diferentes.
El perfil principal necesita el codificador ms complejo y utiliza todas las herramientas de codifi-
cacin. El perfil de baja complejidad (LC) omite algunas herramientas y restringe la potencia de
otras para reducir los requerimientos de capacidad de procesamiento y memoria. Las herramien-
Reloj del frame
Sncronismo
Info
lado
1 2 1
Sncronismo
Info
lado
2 3
Sncronismo
Info
lado
3 4
Sncronismo
Info
lado
4
1 2 3 4
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.40 Tecnologa de los Contenidos Multimedia
tas restantes en el perfil LC son iguales a las del perfil principal de modo que un decodificador de
nivel principal puede decodificar una cadena de bits de perfil LC.
El perfil de velocidad de muestreo variable (SSR, scaleable sampling rate) divide la entrada de
audio en cuatro bandas de frecuencia iguales, y cada una se traduce en una cadena de bits auto-
contenida. Un decodificador sencillo puede decodificar slo una, dos o tres de ellas para producir
una salida de ancho de banda reducido. No todas las herramientas de AAC estn disponibles en
el perfil SSR.
La mayor complejidad de AAC permite la introduccin de herramientas de codificacin que per-
miten una velocidad de bit menor con una calidad igual o calidad superior para una velocidad de
bits dada. Se presta una mayor atencin a la relacin entre la precisin del dominio temporal y el
frecuencial en el sistema del odo humano.
La figura 5.30 muestra el diagrama de bloques del perfil principal del AAC. El camino de la
seal de audio es recto a travs del centro. El formateador ensambla cualquier cadena de datos
con los datos de audio codificados para producir una cadena de bits adecuada. La seal de
entrada pasa al banco de filtros y al modelo perceptual en paralelo. El banco de filtros consiste en
una MDCT muestreada crticamente al 50% que puede ser conmutada entre longitudes de blo-
ques de 2048 y 256 muestras. A 48 kHz el filtro permite una resolucin de 23 Hz y 21 mseg o
187 Hz y 2.6 mseg. La seal se dirige de izquierda a derecha y la cadena de datos en vertical.
Figura 5.30 Diagrama de bloques del perfil principal del AAC
Como el AAC es un sistema de codificacin multicanal la conmutacin en la longitud de los blo-
ques no puede realizarse de forma indiscriminada ya que producira una prdida de la fase entre
canales. Por ello, si se selecciona bloques cortos el codificador permanecer en el modo de blo-
que corto para mltiplos enteros de ocho bloques. Este hecho se ilustra en la figura 5.31 que tam-
bin muestra el uso de las ventanas de transicin entre los tamaos de los bloques de la misma
forma que en el Layer III.
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.41
Figura 5.31 Bloques cortos en ACC
Los bloques cortos en ACC deben utilizarse en mltiplos de 8 con el fin de que la fase del bloque
grande no se distorsione. Esto permite mantener el sincronismo de bloque en sistemas multica-
nal.
La forma de la funcin de ventana interfiere con la frecuencia del MDCT. En el AAC es posible
seleccionar una ventana sinusiodal o una ventana Kaiser-Bessel derivada (KBD), como funcin
del espectro de la entrada de audio. Estas ventanas permiten diferentes compromisos entre ancho
de banda y velocidad. La ventana KBD acta ms tarde pero es ms abrupto y por tanto presenta
un mejor rechazo a frecuencias mayores de aproximadamente 200 Hz, mientras que la ventana
sinusoidal acta antes pero es menos abrupta y por ello presenta un mejor rechazo a frecuencias
menores de 70 Hz.
Figura 5.32 Dualidad de la transformada.
Tras el banco de filtros se encuentra el mdulo de prediccin intra bloques. Cuando est habili-
tado este mdulo encuentra redundancias entre los coeficientes de un bloque transformado.
Recurdese la dualidad de los dominios temporal y frecuencial. La figura 5.32 muestra que en el
dominio temporal la codificacin predictiva opera bien sobre seales estacionarias pero falla con
Bloque de Transicin
Bloque de Transicin
8 bloques
cortos
Longitud igual a 3 bloques largos
Tiempo
Frecuencia
Tiempo
Frecuencia
(a) (c)
(d) (b)
T T
F F
F

c
i
l

d
e
p
r
e
d
e
c
i
r
D
i
f

c
i
l

d
e
p
r
e
d
e
c
i
r
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.42 Tecnologa de los Contenidos Multimedia
los transitorios. La dualidad en el dominio de la frecuencia consiste en que en este dominio la
codificacin predictiva opera bien sobre seales transitorias pero falla con los estacionarios.
La dualidad de la transformada sugiere que la predicibilidad tambin tendr una caracterstica
dual. Un predictor en eldominio temporal no anticipar el transitorios de la seal mostrada en la
figura 5.32.a mientras que el amplio espectro de esta seal, mostrado en la figura 5.32.b sera de
tratamiento sencillo para un predicitor en el dominio de la frecuencia, avanzando hacia los valo-
res menores del eje frecuencial. En el caso contrario, la seal estacionaria mostrada en la figura
5.32.c es fcilmente tratable en el dominio temporal, mientras que su espectro, mostrado en la
figura 5.32.d no sera fcil en absoluto. De hecho, el pico del espectro no sera predicho. Para
aquellos lectores formados en el tratamiento digital de seales, es importante resear que esto no
es ms que una consecuencia directa del teorema de convolucin.
Del mismo modo un codificador predictivo operando en el dominio temporal produce un espec-
tro de error relacionado con el espectro de entrada. La dualidad de esta caracterstica implica que
un codificador predictivo en el dominio de la frecuencia produce un error de prediccin que est
relacionado con la entrada en el dominio temporal. Esto explica el uso de los trminos modelado
temporal del ruido TNS (temporal noise shaping) utilizada en la documentacin AAC. Cuando se
utiliza durante los transitorios, el modulo TNS produce distorsin que es alineada temporalmente
con la entrada tal que se evita el pre-eco. La utilizacin de TNS tambin permite que el codifica-
dor utilice bloques ms grandes la mayora del tiempo. Este mdulo es en gran medida responsa-
ble del aumento de las prestaciones del AAC.
La figura 5.33 muestra que los coeficientes en los bloques transformados son dispuestos en serie
por un conmutador. Esto puede realizarse desde la frecuencia ms baja a la ms alta o al revs.
Este mtodo de prediccin es un predictor hacia delante convencional en el que se utiliza el resul-
tado de filtrar un nmero dado de coeficientes (20 en el perfil principal) para predecir el coefi-
ciente actual. El valor predicho se resta del valor real para producir un error de prediccin, o
residuo, que es transmitido. Un predictor igual produce en el decodificador la misma prediccin
a partir de los coeficientes iniciales y el error en este caso es cancelado sumando el residuo.
Figura 5.33 Conmutador de los coeficientes en los bloques transformados para disponnerlos en serie.
Predictor
-
+

Coeficientes de un bloque
Error de prediccin
Bloque de errores de prediccin
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.43
La figura 5.33 muestra cmo la prediccin a lo largo del eje frecuencial se realiza utilizando los
coeficientes a lo largo de un bloque e intentando predecir el valor del coeficiente actual a partir
de los valores de algunos anteriores. El error de prediccin se transmite.
Seguido al bloque de prediccin se encuentra un modulo opcional denominado etapa de intensi-
dad-acoplo. Se utiliza para velocidades de bit muy bajas en las que la informacin espacial en los
formatos estreo y sonido envolvente se descarta para mantener bajo el nivel de distorsin. Al
menos sobre parte del espectro una seal mono se transmite con cdigos de amplitud que permi-
ten que la seal sea repartida en el dominio espacial en el decodificador.
La siguiente etapa es el modulo de prediccin inter-bloques. Mientras que el predictor intra-blo-
ques es muy til sobre los transitorios el predictor inter bloques explora las redundancias entre
bloques sucesivos en las seales en estacionario. Esta prediccin slo opera sobre coeficientes
por debajo de los 16 kHz. Para cada coeficiente DCT en un bloque dado el predictor utiliza los
coeficientes cuantificados a partir de las mismas localizaciones en dos bloques previos para esti-
mar el valor actual. Como antes la prediccin se resta para producir un residuo que se transmite.
Obsrvese que es necesario el uso de los coeficientes cuantificados para dirigir al predictor, por-
que esto ser lo que el decodificador tendr que hacer. El predictivo es adaptativo y calcula sus
propios coeficientes a partir de la historia de la seal. El decodificador utiliza el mismo algoritmo
tal que los dos predictores siempre ajusten.
Los coeficientes de audio estn asociados en conjuntos, denominados bandas de factor de escala,
para posterior compresin. Dentro de cada banda de factores de escala la prediccin inter-bloque
puede activarse o desactivarse dependiendo de si se da una codificacin de ganancia.
El uso prolongado de la prediccin hace que el decodificador reparta los errores de bits y elimi-
nen puntos de la cadena de bits. Por ello el proceso de prediccin es inicializado cclicamente.
Los predictores se ensamblan en grupos de 30 y despus se inicializa cierto nmero de estructu-
ras de un grupo diferente hasta que todas hayan sido inicializados. Los cdigos de inicializacin
de los predictores se transmiten en los datos. Tambin se inicializar si se seleccionan estructuras
cortas.
En formato estreo y envolvente 3/2 hay menos redundancia porque las seales tambin trans-
portan informacin espacial. El efecto del enmascaramiento puede ser hasta 20 dB menor cuando
los productos de distorsin estn en diferentes localizaciones en la imagen estreo. Por ello las
seales estreo necesitan una velocidad de bit mucho mayor que dos canales mono, particular-
mente sobre los transitorios que son muy ricos en indicaciones espaciales.
En algunos casos pueden obtenerse mejores resultados convirtiendo la seal a un formato medio-
lateral (MS mid/side) o suma-diferencia antes de la cuantificacin. En sonido envolvente la codi-
ficacin MS puede aplicarse a los pares frontal L/R (izquierdo/derecho) y trasero L/R.
Seguidamente aparece la etapa en la que la distorsin es introducida selectivamente como fun-
cin de la frecuencia tal como se determin por el umbral de enmascaramiento. Esto se realiza
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.44 Tecnologa de los Contenidos Multimedia
mediante de una combinacin de amplificacin y recuantificacin. Los coeficientes o residuos se
agrupan en bandas de factores de escala. La figura 5.34 muestra como el nmero de coeficientes
vara con el fin de dividir los coeficientes en bandas crticas aproximadas. Dentro de la banda de
factores de escala todos los coeficientes se multiplicarn por el mismo factor de escala antes de
recuantificar. Por tanto, en ACC los coeficientes de resolucin fina se agrupan para formar ban-
das de factores de escala. El tamao de estas bandas vara.
Figura 5.34 Variacin del nmero de coeficientes
Los coeficientes que hayan sido multiplicados por un factor de escala grande sufrir menos de
distorsin mediante la recuantificacin mientras que los que hayan sido multiplicados por un fac-
tor de escala pequeo tendrn ms distorsin. Los factores de escala permiten control de ganan-
cia en pasos de 1.5 dB sobre un rango dinmico equivalente a un PCM de 24 bits, y son
transmitidos como parte de los datos de manera que el decodificador puede reconstruir las mag-
nitudes correctas. Los factores de escala son codificados de manera diferente al primero del blo-
que y las diferencias son codificadas mediante un cdigo de Huffman.
La recuantificacin utiliza pasos no uniformes que dan una menor codificacin de ganancia y
tiene un rango de 8191. El tamao de paso global, es decir el que se aplica a todas las bandas de
factores de escala, puede ajustarse a 1.5 dB pasos Tras la recuantificacin los coeficientes son
codificados mediante un cdigo de Huffman.
Hay muchas maneras en las que puede controlarse el codificador y cualquiera que produzca una
cadena de bits adecuada es vlida aunque no se alcancen las especificaciones ms exigentes. Es
necesario controlar las etapas de recuantificacin y de factor de escala para hacer un mejor uso
de las velocidades de bit y del almacenamiento disponibles. Esto no es trivial porque la utiliza-
cin de la codificacin de Huffman despus de recuantificar hace imposible predecir la cantidad
de datos que resultar de un tamao de etapa dado. Esto significa que deben iterarse los procesos.
1 10 20 30 40 49
Nmero de bandas de factores de escala
0
20
40
60
80
100
A
n
c
h
u
r
a

d
e

l
a
s

b
a
n
d
a
s

d
e

f
a
c
t
o
r
e
s

d
e

e
s
c
a
l
a
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.45
Cuando se selecciona una velocidad de bit un buen codificador producir calidad consistente con
ella seleccionando los tamaos de ventana, la prediccin intra e intersistemas y la utilizacin del
almacenamiento para tratar los picos de entropa. Esto sugiere una conexin entre la ocupacin
del bfer y el sistema de control. El modelo analizar la entropa del audio entrante y durante los
periodos de entropa promedio vaciar el bfer mediante un leve aumento del tamao de paso de
cuantificacin de manera que disminuya la velocidad de bit entrante. Al descargar el bfer el
codificador puede soportar temporalmente una velocidad de bit mayor para manejar transitorios
o material difcil.
El proceso de factor de escala se controla tal que el espectro de la distorsin tenga la misma
forma que el umbral de enmascaramiento y el tamao del paso de cuantificacin es controlado
para hacer que el nivel del espectro de distorsin sea tan bajo como sea posible dentro de la velo-
cidad de bit permitida. Si la velocidad de bit permitida es suficientemente alta los productos de
distorsin se enmascararn.
5.10 DOLBY AC-3
De hecho, el sistema Dolby AC-3 es una familia de codificadores basados en la cancelacin del
aliasign en el dominio temporal, TDAC. Permite varios compromisos entre retardo de codifica-
cin y velocidad de bit. En la MDCT se utilizan ventanas con el 50% de superposicin. Por ello
se utiliza un gran nmero de coeficientes, que son submuestreados por un factor de dos para pro-
ducir una transformada crticamente muestreada, que producir un potencial aliasing en el domi-
nio de la frecuencia. Sin embargo, realizando un pequeo cambio en la transformada, los alias de
la segunda mitad de una ventana determinada sern iguales en tamao pero de polaridad opuesta
a los alias de la primera mitad de la siguiente ventana, y por tanto ser cancelada en la recons-
truccin. Este es el principio del TDAC.
La figura 5.35 muestra el diagrama de bloques del codificador AC-3. La entrada de audio se
divide en bloques de 512 muestras superpuestos al 50%. Estas muestras se someten a una trans-
formacin TDAC que utiliza alternativamente transformadas seno y coseno. Las transformadas
producen 512 coeficientes por bloque pero hay redundancia, y cuando se eliminan las redundan-
cias quedan 256 coeficientes por bloque. La forma de onda de entrada se analiza constantemente
para determinar la presencia de transitorios, y si se dan entonces la longitud de bloque se divide
para prevenir el pre-ruido. Esto divide la resolucin en frecuencia pero duplica la resolucin tem-
poral.
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.46 Tecnologa de los Contenidos Multimedia
Figura 5.35 Diagrama de bloques del codificador Dolby AC-3.
Los coeficientes tienen resolucin a alta frecuencia y se combinan selectivamente en subbandas
que aproximan las bandas crticas. Los coeficientes de cada sub-banda se normalizan y se expre-
san en notacin de punto flotante con exponente comn. De hecho los coeficientes representan la
envolvente espectral logartmica de la seal y puede utilizarse para obtener los modelos que rea-
lizan la localizacin de bit. Entonces se recuantifica la mantisa de los coeficientes de acuerdo con
el bit localizado.
La cadena de bits de salida consta de los coeficientes recuantificados y de la envolvente espectral
en la forma de los exponentes, en los que se produce gran cantidad de redundancia. En cualquier
bloque slo se transmite completamente el primer exponente, que corresponde al de la menor fre-
cuencia. Los dems coeficientes se transmiten de forma diferencia. Cuando la entrada tiene un
espectro suave los coeficientes de varias bandas sern los mismos y las diferencias cero. En este
caso los exponentes se pueden agrupar utilizando banderas.
Por otro lado, tambin se utiliza la redundancia temporal. El esquema de sincronismo en el AC-3
utiliza seis bloques. El primero contiene datos absolutos de exponente pero cuando se encuentran
estacionarios de audio los bloques sucesivos pueden utilizar los mismos exponentes.
El receptor utiliza la envolvente espectral para desserializar la mantisa de los coeficientes en lon-
gitudes de palabras correctas. Los exponentes altamente redundantes se decodifican comenzando
con los coeficientes de menor frecuencia en el primer bloque y sumando las diferencias para
crear los restantes. Seguidamente se utilizan los exponentes para convertir los coeficientes a la
notacin de punto fijo. Por ltimo se calculan las transformadas inversas seguidas por una super-
posicin de las ventanas con el fin de obtener los datos PCM.
5.11 AUDIO MPEG-4
La codificacin de audio MPEG-4 aumenta en complejidad de manera anloga a la de codifica-
cin de vdeo. De la misma forma que la codificacin de vdeo MPEG-4 se ha dirigido hacia los
objetos, el MPEG-4 introduce el audio estructurado, en el que la sntesis de audio tiene lugar en
Ventanas de
superposicin
Compresor
punto
flotante
de bloque
subbanda
Cuantizador
Adaptativo
Coeficientes de
la transformada
comprimidos
Salida Audio
Codificada
Entrada de
Audio
PCM
MDCT/
MDST
Envolvente
espectral
Coeficientes de
la transformada
cuantizados
Localizacin
Dinmica de
bit
Codificacin
de
Exponentes
Multiplexor
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.47
el decodificador, colocando esta tcnica en la esfera de los sistemas interactivos y de realidad vir-
tual. En este sentido los formatos previos deben entenderse como de sonido natural, es decir,
aquellos que pueden ser obtenidos con un micrfono. MPEG-4 soporta bien este tipo de sonido
mediante el desarrollo de AAC que se describe seguidamente.
De la misma manera que en la codificacin de vdeo, la de audio MPEG-4 puede basarse en obje-
tos. Por ejemplo, en lugar de codificar las formas de onda de un mezclador estreo, cada fuente
de sonido del mezclador puede considerarse un objeto de sonido que se codifica individualmente.
En el decodificador, se suministra cada objeto de sonido a la etapa de composicin en la que
repartir y mezclar con otros objetos. Cuando la fuente de audio es sinttica o se dispone de una
mezcla de pistas naturales puede utilizarse directamente la codificacin de objetos. Tambin es
posible definir instrumentos virtuales en el decodificador y hacer que cada uno reproduzca trans-
mitiendo una indicacin apropiada.
Tambin soporta bien la codificacin de voz. La voz natural puede codificarse a velocidades de
bits muy bajas y el fin es la inteligibilidad del mensaje, ms bien que la fidelidad. Esto puede rea-
lizarse con varias herramientas, como por ejemplo HVXC (Harminic Vector eXcitation Coding)
o CELP (Code Excited Linear Prediction). MPEG-4 ha estandarizado la transmisin de la infor-
macin de voz en el denominado IPA (International Phonetic Alphabet).
5.12 MPEG-4 AAC
MPEG-4 extiende las herramientas de codificacin MPEG-2 AAC. Las mejoras fundamentales
son la sustitucin de ruido perceptual, PNS (Perceptual noise substitution) y la cuantizacin vec-
torial. Todos los esquemas de codificacin tienen dificultades con el tratamiento del ruido porque
no contiene redundancias. El audio real puede incorporar cierta cantidad de ruido de decodifica-
cin en decodificacin, con lo que tradicionalmente se ha requerido una velocidad de bit alta para
evitar efectos no deseados.
Sin embargo, se ha observado experimentalmente que bajo ciertas circunstancias el oyente no es
capaz de distinguir entre la forma de onda original parecida al ruido tpico y la generada en el
decodificador. Esta es la idea bsica que explota la PNS. En lugar de intentar codificar una
secuencia de ruido difcil, la PNS transmitir la amplitud del ruido y el decodificador lo crear.
El sistema PNS se selecciona en el decodificador si sobre cierto rango no hay un tono dominante
y las formas de onda en el dominio temporal permanecen estables, es decir, no hay transitorios.
En los sistemas que utilizan codificacin de Huffman los smbolos que describen los coeficientes
para cada frecuencia se sustituirn por un indicador (flag) PNS. Los coeficientes desaparecidos
se obtendrn en el decodificador de forma aleatoria. La amplitud del ruido se codifica en pasos
de 1.5 db.
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.48 Tecnologa de los Contenidos Multimedia
En las aplicaciones estreo, en las que se utiliza PNS al mismo tiempo y para la misma frecuen-
cia en ambos canales, el proceso aleatorio en cada canal ser diferente con el fin de evitar la crea-
cin de objeto de ruido.
En MPEG-2 AAC los coeficientes o sus residuos se cuantifican de acuerdo con el sistema de
localizacin de bits, y entonces se codifican con el cdigo de Huffman. A velocidades de bits
bajas la fuerte cuantificacin tendr como consecuencia que aparezcan errores en algunos coefi-
cientes. A velocidades de bits por debajo de los 16 kbits/seg por canal se utiliza un esquema de
codificacin alternativo conocido como TwinVQ (Transform Domain Weigthed Interleaved
Vector Quantization). La cuantificacin vectorial, tambin conocida como cuantificacin de blo-
ques, utiliza bloques en lugar de coeficientes individuales, de manera que cada smbolo transmi-
tido representa el estado de cierto nmero de coeficientes. En un sistema sin prdidas un smbolo
necesitara tantos bits como el resultado de la suma de los coeficientes que deben codificarse. En
la prctica el smbolo tiene muchos menos bits por la cuantificacin, con los errores propios a la
misma. El codificador seleccionar un smbolo tal que minimice el error.
La minimizacin del error se refuerza mediante el entrelazado que se realiza en el decodificador,
tras el cual los coeficientes adyacentes en el espacio de la frecuencia se encuentran en diferentes
bloques. Despus de desentrelazar en el decodificador es necesario reasignar los coeficientes a
sus frecuencias correctas. En la tcnica TwinVQ los smbolos transmitidos tienen longitud de
palabra constante debido a que la tabla de vectores tiene un tamao fijo para una velocidad de bit
dada. Los smbolos de tamao constante tienen la ventaja en presencia de errores en los bits ya
que es ms fcil mantener la sincronizacin.
5.13 COMPRESIN EN ESTREO Y SONIDO ENVOLVENTE
Es evidente que los dispositivos de reproduccin de audio actuales son mayoritariamente de
audio digital, incluso en la electrnica de consumo, debido a que el hardware tiene bajo coste.
Adems, cuando el sonido PCM est correctamente digitalizado produce un deterioro en la cali-
dad del sonido tan pequeo que son despreciables frente a los debidos a las partes analgicas que
permanecen en los sistemas. La nica excepcin seria a este hecho es la compresin con prdidas
en la que no se mantiene la forma de onda original y debe ser cuidadosamente tratada antes de
utilizarse en aplicaciones de calidad alta.
En un sistema monofnico todos los sistemas se emiten a partir de un nico punto y el se produce
enmascaramiento psicoacstico de forma muy extendida. La clase de tcnicas de compresin de
audio como las analizadas anteriormente funcionan bien en sistemas mono. Sin embargo, las
aplicaciones estereofnicas, incluyendo en este contexto los sistemas de sonido envolvente, utili-
zan un criterio diferente. Adems de la informacin timbral que describe la naturaleza de la
fuente de sonido los estereofnicos tambin contienen informacin espacial para describir su
localizacin. El problema fundamental es que en los sistemas estereofnicos el enmascaramiento
no es tan eficaz. Cuando dos fuentes de sonido se encuentran en localizaciones fsicamente dife-
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.49
rentes el grado de enmascaramiento no es tan grande como cuando estn en el mismo sitio.
Lamentablemente todos los modelos de enmascaramiento utilizados en los compresores clsicos
asumen que las fuentes estn en el mismo lugar. Este hecho fue puesto de manifiesto por Michael
Gerzon que introdujo el trmino "unmasking" para describir este hecho.
El sistema auditivo humano tiene la habilidad de concentrarse en una de muchas fuentes de
sonido simultneas basndose en la direccin. El cerebro parece que es capaz de insertar un
retardo de tiempo controlable en las seales nerviosas de un odo con respecto al otro de forma
que cuando el sonido llega de una direccin dada las seales nerviosas de ambos odos son cohe-
rentes, causando que el umbral auditivo estreo sea de 3 a 6 dB, en lugar de los alrededor de 4
KHz del mono. Los sonidos que llegan de otras direcciones son incoherentes y se escuchan
menos bien. Este hecho se conoce como selectividad de la atencin.
La audicin humana puede localizar varias fuentes de sonido simultneamente comparando
constantemente los patrones de excitacin a partir de los dos odos con retardos diferentes. Se
encontrar una fuerte correlacin cuando el retardo corresponda al retardo entre los odos para
una fuente dada. Este mecanismo de retardo variable requiere cierto tiempo, por lo que el odo
reacciona lentamente ante cambios en la direccin de la fuente. Las fuentes oscilantes pueden
seguirse slo por encima de 2 o 3 Hz y la habilidad para localizar estallidos de ruidos mejora
cuando la duracin del estallido est por encima de los 700 milisegundos.
Los sistemas mono evitan estos efectos completamente porque la primera versin de todos los
sonidos alcanzados por el oyente provienen del mismo altavoz. Los sistemas estereofnicos per-
miten selectividad atencional de forma que el oyente puede concentrar sobre diferentes fuentes
de sonido determinadas. Cuando dos fuentes de sonido estn separadas espacialmente, si se uti-
liza este mecanismo para concentrar el sonido en una de ellas las contribuciones de ambos odos
estarn correlacionadas. Esto implica que las contribuciones de los otros altavoces no estn
correlacionadas, reduciendo la capacidad de enmascaramiento considerablemente. Experimental-
mente se observa claramente que el sistema estreo ms pobre es mejor que el mejor sistema
mono. Esto es debido a que estamos acostumbrados a sonidos y reverberaciones que provienen
de diferentes direcciones, y todos ellos sobrepuestos en un sistema mono no son convincentes,
aunque la forma de onda sea muy aproximada.
En la realidad el entorno del sistema auditivo est lleno de reflexiones de sonido. Si los odos
pudieran separar cada una de las reflexiones en una sala reverberante entonces slo se escuchara
una confusa cacofona. En la prctica se escucha muy bien en entornos reverberantes envolven-
tes, mucho mejor de lo que un micrfono puede captar. Esto se debe a la transformada natural del
odo y a la manera en la que el cerebro procesa las seales nerviosas. El odo tiene una capacidad
limitada para la discriminacin de frecuencias en forma de bandas crticas, y tambin en la discri-
minacin temporal. Cuando dos o ms versiones de un sonido llegan al odo en un intervalo de
unos 30 milisegundos, no sern tratados separadamente pero se unirn en un nico sonido. Slo
cuando la separacin temporal es de 50 o 60 milisegundos los sonidos aparecen como ecos pro-
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.50 Tecnologa de los Contenidos Multimedia
venientes de diferentes direcciones. En los entornos reverberantes la mayora de las reflexiones
no afectan a la habilidad para localizar la fuente de sonido. Evidentemente la primera versin de
un sonido que llega al odo es aquella que se dirige por el camino ms corto, que en general es la
que proviene directamente ms que la de la reflexin.
Como consecuencia el odo se ha desarrollado para determinar la direccin de la fuente a partir
del tiempo transcurrido entre la llegada de la primera versin de un transitorio a un odo y al otro.
La intensidad estreo el tipo de seal obtenida con micrfonos o coincidentes opera nicamente
en funcin de las dos amplitudes en los dos altavoces. Las dos seales estarn exactamente en
fase. Como ambos odos escuchan los dos altavoces el espacio entre los estos y los odos con-
vierte la diferencia de intensidades en diferencia de tiempo de llegada, dando la sensacin de
fuentes de sonido virtuales.
Una fuente de sonido virtual prodecente de un punto de emisin tiene anchura cero, es un punto
ideal, y sobre un altavoz tambin ideal aparecera como una fuente puntual virtual. La figura
5.36.a muestra cmo un punto de emisin puro sin mezcla (mezcla seca) aparecera de forma
igualmente espaciada sobre unos altavoces ideales, mientras que la figura 5.36.b muestra lo que
sucede cuando se aade una reverberacin estreo artificial. Esta figura 5.36 tambin es la que se
obtiene con fuentes reales utilizando un par coincidente de mezcladores de alta calidad.
Cuando se escucha el sonido emitido por unos altavoces de alta calidad la compresin de audio
cambia las caractersticas de la figura 5.36.b a la que se muestra en la figura 5.36.c. Incluso para
velocidades de bit altas, es decir, con la compresin ms pequea, se observa una diferencia
audible entre el resultado original y la comprimida. Las fuentes de sonido dominantes se repro-
ducen con bastante exactitud, pero lo que ms llamativo es que el ambiente y la reverberacin se
reduce dramticamente, o incluso est ausente, haciendo que el sonido decodificado sea mucho
ms seco, menos clido, que el original. Tambin se observa que la velocidad de decaimiento de
la reverberacin se acelera, tal y como muestra la figura 5.36.d.
Estos efectos se perciben porque la reverberacin existe unos niveles relativamente bajos. El
codificador supondr que es inaudible debido al enmascaramiento y lo elimina o atena. El
efecto es aparentemente el mismo en los codificadores MPEG Layer II y Dolby AC-3 incluso
aunque su funcionamiento interno es bastante diferente. Esto no debe sorprender porque ambos
se basarn en el mismo modelo psicoacstico de enmascaramiento.
El MPEG Layer III funciona bastante mal en estreo porque la velocidad de bit es menor. Los
transitorios tienen un efecto peculiar por el que el sonido ambiente vendra e ira de acuerdo con
la entropa de una fuente dominante. Una nota de percusin estrechara la etapa de sonido y apa-
recera poco clida, pero seguidamente de la reverberacin lo volvera.
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.51
Figura 5.36 Disminucin de la eficacia de la compresin en sistemas estreo. (a) Resultado espacial de una mezcla sin
reverberacin de un punto de emisin. (b) Resultado despus de reverberaciones artificiales que tambin
se obtienen en una grabacin acstica con mezcladores coincidentes. (c) Reduccin o ausencia del sonido
ambiente y de las reverberaciones. (d) Las reverberaciones tambin pueden disminuor prematuramente.
Mezcla seca
de fuentes puntuales
Altavoz
Izquierdo
Altavoz
derecho
Reverberacin y sonido ambiente
entre las fuentes principales
Altavoz
Izquierdo
Altavoz
derecho
Prdida del sonido ambiente
despus de la reduccin
de la velocidad de bit
Altavoz
Izquierdo
Altavoz
derecho
N
i
v
e
l
Cada prematura
de la reverberacin
Tiempo
Cada natural
de la reverberacin
a)
b)
c)
d)
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.52 Tecnologa de los Contenidos Multimedia
Estos efectos no son sutiles y no requieren una capacidad auditiva especial para observarlos. Pero
todos ellos desaparecen cuando las seales que van a los altavoces se suman para formar mono,
ya que este evita la sensibilidad atencional y el no enmascaramiento no puede suceder. La obser-
vacin de los anteriores efectos no deseados es mucho ms difcil si los altavoces son de baja
calidad. Los altavoces son parte de la cadena de comunicacin y disponen de unas capacidades
tanto timbrales es como espaciales. Si la calidad de los altavoces es baja pueden eliminar gran
parte de la informacin a partir de la seal que el compresor y la codificacin precedentes no
hayan eliminado.
Los efectos anteriores permiten que el oyente localice la fuente de un sonido mediante la concen-
tracin en la primera versin del sonido y el rechazo a las siguientes. Las versiones que puedan
llegar de cualquier lugar simplemente se suman a la intensidad percibida pero no cambian la per-
cepcin de la localizacin de la fuente. Los efectos descritos anteriormente slo permiten el
rechazo de sonidos reverberantes que llegan despus del retardo entre odos. Cuando las reflexio-
nes llegan dentro del intervalo de tiempo de retardo, que es de alrededor de 700 microsegundos,
los efectos anteriores dejan de funcionar y la direccin percibida puede disiparse a partir de que
llega la primera fuente debido a un incremento en el nivel. La figura 5.37muestra esta regin,
conocida como regin de traspaso (trading region). En ella el traspaso de intensidad temporal
sucede dentro del retardo entre odos.
Figura 5.37 Regin de traspaso.
Una vez que se supera el retardo mximo entre los odos el mecanismo de audicin sabe que la
diferencia de tiempo tiene que deberse a la reverberacin. Desgraciadamente los altavoces rec-
tangulares clsicos con caras planas y esquinas abruptas provocan reflexiones con retardos del
orden de 700 microsegundos. Las discontinuidades entre los paneles provocan cambios de impe-
dancia que actan como reflectores acsticos. Los altavoces se convierten en fuentes mltiples
produciendo una secuencia de seales dentro de la intensidad temporal y en lugar de actuar como
una fuente puntual los altavoces actan como una fuente distribuida.
Retardo (ms)
0 0.2 0.4 0.6 0.8
Hacia sonidos
anteriores
Hacia sonidos
ms fuertes
14
12
10
8
6
4
2
Diferencia de
Nivel (db) Regin de traspaso
Siempre hacia
sonidos anteriores
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 5.53
La figura 5.38 muestra que cuando los altavoces actan como una fuente distribuida, no pueden
crear una imagen puntual. Se produce un efecto denominado smear (emborronamiento). Obsr-
vese que las fuentes puntuales han aumentado tal que prcticamente no hay gaps entre ellos,
enmascarando el ambiente de forma efectiva. Si un compresor lo elimina, el efecto no puede
escucharse. Puede suponerse errneamente que el compresor es transparente cuando de hecho no
lo es.
Figura 5.38 Altavoz que acta como una fuente distribuida. No puede producir una imagen estreo puntual, slo una
extensin espacial o una imagen borrosa.
Imagen borrosa
Altavoz Izquierdo
Fuente Distribuida
Altavoz Derecho
TEMA 5. COMPRESIN DE AUDIO UNED - CURSO 2009-2010
5.54 Tecnologa de los Contenidos Multimedia

You might also like