Capítulo 3 Calidad de La Voz

CAPÍTULO 3 CALIDAD DE LA VOZ
2. CONMUTACIÓN DE PAQUETES VS CIRCUITOS
En las redes de conmutación de circuitos se establece un circuito virtual, un camino entre el

origen y el destino por el que circularán todos los paquetes, estos paquetes llegarán en el mismo
orden con que se generaron. Se ofrecen servicios orientados a la conexión como la telefonía.
Previo al establecimiento del circuito virtual, hay una reserva de recursos que garantiza que el
circuito extremo a extremo es posible reduciendo al mínimo la probabilidad de pérdidas.
Las redes de conmutación de paquetes cada paquete es tratado de forma independiente en

cada nodo de la red. Los paquetes pueden llegar desordenados al destino. El servicio suele ser
sin conexión. No hay una reserva de recursos previa por lo que algunos paquetes pueden
perderse.
3. CONCEPTO DE CALIDAD DE LA VOZ
Las consideraciones generales sobre la evaluación de la calidad se encuentran en la

recomendación E.420 de la ITU-T, esta recomendación subraya los aspectos que mayor
influencia ejercen sobre la percepción de la calidad del servicio de telefonía por parte de los
usuarios. Aspectos Importantes:
- Tasa de conectividad: la probabilidad con la que la red dispondrá de recursos para

cursar un intento de llamada.
- Inteligibilidad de la voz: la fidelidad con la que la voz es percibida por el extremo remoto
e indica cuanta información puede extraerse de las palabras del otro extremo. Depende
de la distorsión introducida por los elementos de la red. Es independiente del retardo y
del eco. Ciertas bandas de frecuencias (200-800 HZ) son más importantes para la
inteligibilidad que otras (1000-1200 HZ).
- Codificación de la voz: se codifica la voz después de que la llamada ha sido establecida
y que la voz puede entenderse con claridad. La codificación y la inteligibilidad están
relacionadas y dependen de la tasa binaria y la tasa de error. Cuanto mayor es la tasa
binaria, más probable es obtener una buena calidad de la codificación. La tasa de error
es mayor cuanto menor es la tasa binaria debido a la disminución de la información de
redundancia por la compresión.
4. FACTORES QUE INFLUYEN EN LA CALIDAD
Las redes de conmutación de paquetes deben ofrecer una calidad de servicio telefónico similar
a las redes de conmutación de circuitos sin perder sus características propias.
Los factores que determinan la calidad son la disponibilidad, el jitter, las pérdidas, el retardo y
el ancho de banda.
4.1 DISPONIBILIDAD
La disponibilidad de un sistema es una medida de la probabilidad con que se encontrará en

condiciones de funcionamiento, cuan mayor es la disponibilidad mayor es la probabilidad. Redes
telefónicas RTPC o RDSI presentan disponibilidad de 99,999%.
A la hora del diseño de cualquier sistema se debe analizar el tiempo que el sistema no está
operando por fallos en el hardware y el coste necesario para prevenir dichos fallos. En VoIP los
componentes críticos son las pasarelas, los servidores y los terminales de usuario. Para tolerar
los fallos se usa la redundancia que es la duplicación de los componentes de la red que son
críticos para el funcionamiento de la misma (el sistema de reserva reemplace al principal en caso
de fallas). El encaminamiento de backup es la configuración de terminales de usuario en el caso
de que la llamada no se pueda cursar por carecer de recursos o por estar la red fuera de servicio.
4.2 JITTER
El jitter es la variabilidad del retardo producido porque los paquetes en una red de conmutación
de paquetes no siguen el mismo camino y llegan al destino atravesando distintos nodos de la
red y por lo tanto alcanzarán su objetivo con un retardo diferente. Los paquetes se generan con
una cadena fija pero al llegar al destino esta cadena es variable debido a las diferencias en los
retardos de cola y propagación.
Para acabar con esto se utilizan los buffers de supresión de jitter. La supresión consiste en el
almacenamiento de los paquetes durante un tiempo para que los paquetes que llegan fuera de
secuencia puedan reordenarse y reproducirse en el orden correcto. Cuanto mayor es el jitter de
los paquetes, mayor es el tamaño del buffer de supresión de jitter.
La supresión del jitter introduce un retardo que puede afectar la calidad de la voz.
4.3 PÉRDIDAS
Las pérdidas de paquetes resultan del descarte de paquetes que se producen en los nodos de la
red por la congestión de dichos nodos. Las pérdidas son inevitables debido a que en la
conmutación de paquetes no se hace una reserva previa de recursos. Las pérdidas producen una
disminución en la calidad de la voz. La disminución de la calidad es mayor cuanto mayor sea la
tasa de comprensión del códec. La mejora de la arquitectura de la red es la solución más
inmediata para las pérdidas. Técnicas que atenúan los efectos de las pérdidas:
- Corrección de errores: se incluye información de redundancia que permite recuperar el

valor del paquete perdido a partir del valor de los paquetes perdidos.
- Distribución de errores: consiste en aleatorizar las pérdidas para dispersar sus efectos.
- Recuperación de errores: Sustituye el paquete perdido por otro.
4.4 RETARDO
Es el tiempo invertido por la señal de voz desde el origen hasta el destino. Las redes telefónicas
convencionales se diseñan para que el retardo no supere los 50 ms. La influencia del retardo en
las comunicaciones tiene dos aspectos importantes, el retardo máximo aceptable y las fuentes
de retardo.
El retardo máximo aceptable es un umbral por encima del cual la calidad de la voz es inaceptable
y la comunicación imposible. Este umbral está entorno a los 150 o 200 ms según la
recomendación G.144 de la ITU-T. En las comunicaciones vía satélite se soporta un retardo de
unos 400 ms. El retardo introducido por la digitalización de la señal de voz, la compresión y el
empaquetamiento de las muestras de voz dependen del códec.
El retardo de serialización es el tiempo que invertirá la pasarela para transmitir los paquetes que
llegan a esta por una determinada línea, depende de la línea y del tamaño de la trama. Los
paquetes serializados que viajan por la red hacia el destino invierten un tiempo que deriva en
una contribución fija (retardo de propagación, tiempo que tarda la señal en alcanzar el destino)
y una contribución variable.
4.5 ECO
Se produce cuando el emisor escucha parte de su propia voz junto con la voz del otro
interlocutor o en ausencia de ella. Hay eco acústico debido a un acoplamiento entre el micrófono
y el auricular del teléfono, se soluciona utilizando terminales de gran calidad, y eco eléctrico que
ocurre por una desadaptación de impedancias en el extremo receptor.
En las redes telefónicas convencionales se utilizan dos pares de hilos (uno para tx y otro para rx)
entre el bucle telefónico del usuario y la central de conmutación del operador pero al teléfono
del usuario solo llega un par, por lo tanto es necesaria una conversión que se lleva a cabo por
una bobina híbrida.
En la conversión 2H/4H se produce una desadaptación dando lugar al eco. Si la amplitud es baja
y el retardo en un solo sentido es menor a 50 ms el eco queda enmascarado en redes telefónicas
convencionales.
El retardo del eco debe mantenerse en 16 ms. ERL (eco return loss) es la magnitud de la señal
reflejada. ERL debe ser mayor de 55 dB según la recomendación G.168.
En las redes de voz sobre paquetes solo se produce en los segmentos analógicos de la red y no
en los digitales. Dichos segmentos son llamados circuitos de cola.
Para disminuir los efectos del eco algunas pasarelas y teléfonos IP incluyen canceladores de eco
los cuales llevan a cabo un filtrado adaptativo de la señal recibida que estima el valor del eco
que contiene e intenta neutralizarlo. G.165 y G.168 abordan la cancelación del eco empleando
filtros adaptativos.
4.6 ANCHO DE BANDA
Puede definirse como la cantidad máxima de información que la red es capaz de transportar
(por unidad de tiempo). Una red de voz sobre paquetes debe disponer de ancho de banda
suficiente para cursar las comunicaciones de voz.
Al garantizar que habrá ancho de banda suficiente se reduce la probabilidad de que el retardo,
el jitter o las pérdidas tengan un impacto considerable.
4.6.1 SUPRESIÓN DE LA VOZ
Es un mecanismo para reducir el ancho de banda. La idea es utilizar los instantes de silencio en
una conversación para introducir tráfico de otras conversaciones. Se obtiene reducciones de
hasta el 60 % en el flujo de paquetes. Suele ser responsable del clipping, donde la voz del
interlocutor parece recortada. Tambien las pérdidas, latencia y el jitter pueden producir dicho
fenómeno.
5. MEDIDA DE LA CALIDAD DE LA VOZ
Las medidas suelen clasificar según dos criterios: su grado de intrusismo en la red y su
objetividad. El grado de intrusismo en la red hace referencia al modo en que el proceso de
medida interacciona con dicha red (Sistemas de medida intrusivos y no intrusivos). Sistemas
intrusivos consisten en el envío de una señal conocida por la red y en la comparación de la señal
recibida y la transmitida. No permiten la utilización de esta técnica para medidas en tiempo real
debido a su complejidad y a su elevado coste pero son ideales para la medida de las prestaciones
de un códec en el laboratorio. Los estándares PSQM, PESQ Y PAMS perteneces a este grupo.
Los sistemas no intrusivos o pasivos efectúan medidas en tiempo real mientras el sistema está
en funcionamiento sin interferir en las llamadas existentes y sin necesidad de señal de
referencia, son menos exactas que los intrusivos. Una variante son los agentes embebidos que
pueden incorporarse en la pasarela o en el propio teléfono IP. Medidas pasivas son las escalas
MOS, el modelo E y VQMon.
La objetividad de las medidas hace referencia cuan independiente de la opinión de los sujetos
es la calidad de la voz medida en un determinado conjunto de pruebas. En las redes de voz sobre
paquetes interesa utilizar códec de reducida tasa binaria ya que el ancho de banda es un recurso
escaso.
5.1 ITU-T P.800 (escalas MOS)
Los mecanismos tradicionales empleados para la evaluación de la calidad de la voz en las redes
de telefonía fueron estandarizados por la ITU-T. Este en particular se ha venido utilizando para
los codecs de voz desde 1993. Se tratan de un conjunto de técnicas subjetivas llamadas test ACR
(Absolute Category Rating), dichas técnicas reúnen a una muestra de usuarios a los que se pide
que opinen sobre la calidad que ofrece un determinado sistema de transmisión de la voz. Los
test ACR no utilizan la comparación con una señal de referencia. Previamente se presentan a los
usuarios unos ejemplos predefinidos que les proporciona una base a la hora de evaluar la calidad
de la voz. Estos ejemplos están en la recomendación P.810.
Las escalas MOS evalúan aspectos como la calidad de la voz y el esfuerzo requerido para
entender el significado del mensaje pronunciado por el otro extremo. Para que las escalas MOS
sean realmente significativas es necesario que la muestra de usuarios sea suficientemente
grande y ello aumenta el proceso de elaboración y dependen de factores como la actitud de los
usuarios frente a la prueba o el nivel cultural de los individuos.
5.2 MODELADO PERCEPTUAL DE LA VOZ
Se basan en el modelado de la respuesta del oído humano y la introducción a dicho modelo de

una señal de referencia y de la señal de entrada cuya calidad desea evaluarse. Se someten a una
comparación del que se obtiene una estimación de la diferencia audible.
5.2.1 PSICOACÚSTICA
El comportamiento del sistema audible humano es no lineal. Solo somos sensibles a aquellos
sonidos comprendidos dentro de un rango de amplitudes y frecuencias muy concreto, siendo
esta sensibilidad dependiente de la frecuencia de manera que se define un área de audición.
El espectro audible se divide en zonas denominadas bark, hasta un total de 25 bark. Cada bark
se caracteriza porque el nivel de sonoridad es constante en toda la banda de frecuencias que
comprende.
En la percepción del sonido se ven implicados parámetros como el umbral de audición que es el
nivel de presión sonora mínimo para producir una sensación en el oído humano. No es
constante, varía en función de la frecuencia y de la presencia o ausencia de otros sonidos. Esto
de que un sonido quede oculto por la ocurrencia de otros se conoce como enmascaramiento y
puede ser de tres tipos:
- Enmascaramiento simultáneo: las señales enmascarante y enmascarada ocurren en el

mismo instante de tiempo o con una diferencia tan pequeña que puede considerarse
despreciable.
- Preenmascaramiento: el sonido enmascarado ocurre entre 5 y 20 ms antes que el
enmascarante.
- Postenmascaramiento: el sonido enmascarado ocurre entre 50 y 200 ms después que el
enmascarante.
Este fenómeno se utiliza en algunos codificadores para comprimir aún más la señal evitando
transmitir las señales enmascaradas ya que no se oirán (Codificación de audio MPEG).
Existen otros parámetros que se emplean en la caracterización subjetiva de la percepción sonora

como:
- Roughness y fluctuation strength: miden el índice de modulación de señal en amplitud

o en frecuencia.
- Sharpness: indica el contenido en alta frecuencia del sonido.
- Tonality: representa la riqueza tonal del sonido y suele ser proporcional a la percepción
sonora.
5.2.2 ITU-T P.861 (PSQM)
Recomendación terminada en 1996 por el grupo de estudio SG12 para el análisis objetivo de los
códecs basado en un algoritmo llamado PSQM (PERCEPTUAL SPEECH QUALITY MEASURE). Es
una versión de otro algoritmo, el PAQM (Perceptual Audio Quality Measure) usado en redes
telefónicas. PSQM considera los efectos psicoacústicos en la percepción de la calidad del sonido.
Primero se convierte la representación temporal de las señales x e y al dominio de la frecuencia

dividiéndola en bloques y obteniendo su FFT. Las muestras en frecuencia se enventanan y la
escala frecuencial se transforma a barks, este proceso se conoce como frequency warping.
Después, la señal bajo test y la señal referencia se filtran y se añade al resultado un ruido Hoth
que simula el ambiente de oficina convencional. Restando las dos representaciones de la señal,
se dispone de una estima del error audible en función del timbre y del tiempo.
Esto se utiliza para codecs con tasas binarias entre los 8 kbps y los 16 kbps.
5.2.3 ITU-T P.862 (PESQ)
En las redes de voz sobre paquetes el efecto predominante es el retardo y no la distorsión. Para
esto se creó el algoritmo PESQ (Perceptual Evaluation of Speech Quality) por parte de la ITU y
que fue incluido en el 2001 dentro de la recomendación P.862.
PESQ es la evolución del algoritmo PSQM+ el cual resolvía las distorsiones producidas por las
ráfagas de error pero presentaba problemas a la hora de compensar las variaciones del retardo.
Por otro lado, BT desarrolló el PAMS que manejaba la variabilidad del retardo a la perfección.
PESQ combina las ventajas de ambos aunque no está concebido para aplicaciones de streaming.
Las medidas PESQ son directamente trasladables a las escalas MOS con pocas manipulaciones.
Las escalas PESQ están comprendidas entre 1,0 (peor puntuación) y 4,5 (mejor puntuación) ya
que los usuarios son bastante cautos a la hora de asignar el 5.
Aunque PESQ fue diseñado para aumentar las prestaciones de PSQM incluyendo factores como
distorsión y filtrado, no los analiza todos.
5.3 MODELO E
Es una aproximación matemática a la medida de la calidad de la voz basada en la evaluación de

las características de transmisión de la red de voz sobre paquetes y cuyo objetivo es predecir la
calidad de la voz en función del retardo, el jitter, las pérdidas entre otras características de la
red.
Está especificado en la recomendación ITU-T G.107 y se puede definir como:
R es el factor de transmisión, Ro es la relación señal a ruido, Is modela la degradación que sufre

la señal como consecuencia de su conversión a un formato adecuado para su transmisión por la
red, Ie es el efecto de las pérdidas, Id el retardo y A el margen de seguridad. Si se consideran
valores por defecto la ecuación quedaría de esta manera:
El retardo es uno de los factores más importantes a considerar cuando se estudia la calidad de
la voz:
H(x) es la función de Heavyside.
En torno a los 175 ms un aumento de retardo supone una disminución drástica de la calidad de
la voz.
A partir de R puede obtenerse un valor de la escala MOS de la calidad de la voz.
5.4 VQMon
VQMon (Voice Quality Monitoring), desarrollado por la empresa Telchemy, no tiene en cuenta
los aspectos de la codificación de la señal, pero analiza la degradación que introduce la red
(jitter, pérdidas y retardo) y predice el impacto en la señal de voz reconstruida. Permite medir
en tiempo real la calidad de la voz para todas las llamadas que se estén cursando en un
determinado instante.
VQMon emplea un modelo estadístico para el análisis de las degradaciones que introduce la red
que considera la voz tal y como el usuario la percibe. VQMon no mide solo la tasa de pérdidas
sino también su distribución. La degradación de la calidad de la voz es mucho mayor si las
pérdidas se producen a ráfagas.

Capítulo 3 Calidad de La Voz

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Capítulo 3 Calidad de La Voz

Uploaded by

Copyright:

Available Formats

CAPÍTULO 3 CALIDAD DE LA VOZ

2. CONMUTACIÓN DE PAQUETES VS CIRCUITOS

En las redes de conmutación de circuitos se establece un circuito virtual, un camino entre el

Las redes de conmutación de paquetes cada paquete es tratado de forma independiente en

3. CONCEPTO DE CALIDAD DE LA VOZ

Las consideraciones generales sobre la evaluación de la calidad se encuentran en la

- Tasa de conectividad: la probabilidad con la que la red dispondrá de recursos para

4. FACTORES QUE INFLUYEN EN LA CALIDAD

La disponibilidad de un sistema es una medida de la probabilidad con que se encontrará en

- Corrección de errores: se incluye información de redundancia que permite recuperar el

4.6 ANCHO DE BANDA

4.6.1 SUPRESIÓN DE LA VOZ

5.1 ITU-T P.800 (escalas MOS)

5.2 MODELADO PERCEPTUAL DE LA VOZ

Se basan en el modelado de la respuesta del oído humano y la introducción a dicho modelo de

- Enmascaramiento simultáneo: las señales enmascarante y enmascarada ocurren en el

Existen otros parámetros que se emplean en la caracterización subjetiva de la percepción sonora

- Roughness y fluctuation strength: miden el índice de modulación de señal en amplitud

5.2.2 ITU-T P.861 (PSQM)

Primero se convierte la representación temporal de las señales x e y al dominio de la frecuencia

5.2.3 ITU-T P.862 (PESQ)

Es una aproximación matemática a la medida de la calidad de la voz basada en la evaluación de

Está especificado en la recomendación ITU-T G.107 y se puede definir como:

R es el factor de transmisión, Ro es la relación señal a ruido, Is modela la degradación que sufre

H(x) es la función de Heavyside.

A partir de R puede obtenerse un valor de la escala MOS de la calidad de la voz.

You might also like