Professional Documents
Culture Documents
Las redes de conmutación de paquetes deben ofrecer una calidad de servicio telefónico similar
a las redes de conmutación de circuitos sin perder sus características propias.
Los factores que determinan la calidad son la disponibilidad, el jitter, las pérdidas, el retardo y
el ancho de banda.
4.1 DISPONIBILIDAD
A la hora del diseño de cualquier sistema se debe analizar el tiempo que el sistema no está
operando por fallos en el hardware y el coste necesario para prevenir dichos fallos. En VoIP los
componentes críticos son las pasarelas, los servidores y los terminales de usuario. Para tolerar
los fallos se usa la redundancia que es la duplicación de los componentes de la red que son
críticos para el funcionamiento de la misma (el sistema de reserva reemplace al principal en caso
de fallas). El encaminamiento de backup es la configuración de terminales de usuario en el caso
de que la llamada no se pueda cursar por carecer de recursos o por estar la red fuera de servicio.
4.2 JITTER
El jitter es la variabilidad del retardo producido porque los paquetes en una red de conmutación
de paquetes no siguen el mismo camino y llegan al destino atravesando distintos nodos de la
red y por lo tanto alcanzarán su objetivo con un retardo diferente. Los paquetes se generan con
una cadena fija pero al llegar al destino esta cadena es variable debido a las diferencias en los
retardos de cola y propagación.
Para acabar con esto se utilizan los buffers de supresión de jitter. La supresión consiste en el
almacenamiento de los paquetes durante un tiempo para que los paquetes que llegan fuera de
secuencia puedan reordenarse y reproducirse en el orden correcto. Cuanto mayor es el jitter de
los paquetes, mayor es el tamaño del buffer de supresión de jitter.
La supresión del jitter introduce un retardo que puede afectar la calidad de la voz.
4.3 PÉRDIDAS
Las pérdidas de paquetes resultan del descarte de paquetes que se producen en los nodos de la
red por la congestión de dichos nodos. Las pérdidas son inevitables debido a que en la
conmutación de paquetes no se hace una reserva previa de recursos. Las pérdidas producen una
disminución en la calidad de la voz. La disminución de la calidad es mayor cuanto mayor sea la
tasa de comprensión del códec. La mejora de la arquitectura de la red es la solución más
inmediata para las pérdidas. Técnicas que atenúan los efectos de las pérdidas:
4.4 RETARDO
Es el tiempo invertido por la señal de voz desde el origen hasta el destino. Las redes telefónicas
convencionales se diseñan para que el retardo no supere los 50 ms. La influencia del retardo en
las comunicaciones tiene dos aspectos importantes, el retardo máximo aceptable y las fuentes
de retardo.
El retardo máximo aceptable es un umbral por encima del cual la calidad de la voz es inaceptable
y la comunicación imposible. Este umbral está entorno a los 150 o 200 ms según la
recomendación G.144 de la ITU-T. En las comunicaciones vía satélite se soporta un retardo de
unos 400 ms. El retardo introducido por la digitalización de la señal de voz, la compresión y el
empaquetamiento de las muestras de voz dependen del códec.
El retardo de serialización es el tiempo que invertirá la pasarela para transmitir los paquetes que
llegan a esta por una determinada línea, depende de la línea y del tamaño de la trama. Los
paquetes serializados que viajan por la red hacia el destino invierten un tiempo que deriva en
una contribución fija (retardo de propagación, tiempo que tarda la señal en alcanzar el destino)
y una contribución variable.
4.5 ECO
Se produce cuando el emisor escucha parte de su propia voz junto con la voz del otro
interlocutor o en ausencia de ella. Hay eco acústico debido a un acoplamiento entre el micrófono
y el auricular del teléfono, se soluciona utilizando terminales de gran calidad, y eco eléctrico que
ocurre por una desadaptación de impedancias en el extremo receptor.
En las redes telefónicas convencionales se utilizan dos pares de hilos (uno para tx y otro para rx)
entre el bucle telefónico del usuario y la central de conmutación del operador pero al teléfono
del usuario solo llega un par, por lo tanto es necesaria una conversión que se lleva a cabo por
una bobina híbrida.
En la conversión 2H/4H se produce una desadaptación dando lugar al eco. Si la amplitud es baja
y el retardo en un solo sentido es menor a 50 ms el eco queda enmascarado en redes telefónicas
convencionales.
El retardo del eco debe mantenerse en 16 ms. ERL (eco return loss) es la magnitud de la señal
reflejada. ERL debe ser mayor de 55 dB según la recomendación G.168.
En las redes de voz sobre paquetes solo se produce en los segmentos analógicos de la red y no
en los digitales. Dichos segmentos son llamados circuitos de cola.
Para disminuir los efectos del eco algunas pasarelas y teléfonos IP incluyen canceladores de eco
los cuales llevan a cabo un filtrado adaptativo de la señal recibida que estima el valor del eco
que contiene e intenta neutralizarlo. G.165 y G.168 abordan la cancelación del eco empleando
filtros adaptativos.
Puede definirse como la cantidad máxima de información que la red es capaz de transportar
(por unidad de tiempo). Una red de voz sobre paquetes debe disponer de ancho de banda
suficiente para cursar las comunicaciones de voz.
Al garantizar que habrá ancho de banda suficiente se reduce la probabilidad de que el retardo,
el jitter o las pérdidas tengan un impacto considerable.
Es un mecanismo para reducir el ancho de banda. La idea es utilizar los instantes de silencio en
una conversación para introducir tráfico de otras conversaciones. Se obtiene reducciones de
hasta el 60 % en el flujo de paquetes. Suele ser responsable del clipping, donde la voz del
interlocutor parece recortada. Tambien las pérdidas, latencia y el jitter pueden producir dicho
fenómeno.
5. MEDIDA DE LA CALIDAD DE LA VOZ
Las medidas suelen clasificar según dos criterios: su grado de intrusismo en la red y su
objetividad. El grado de intrusismo en la red hace referencia al modo en que el proceso de
medida interacciona con dicha red (Sistemas de medida intrusivos y no intrusivos). Sistemas
intrusivos consisten en el envío de una señal conocida por la red y en la comparación de la señal
recibida y la transmitida. No permiten la utilización de esta técnica para medidas en tiempo real
debido a su complejidad y a su elevado coste pero son ideales para la medida de las prestaciones
de un códec en el laboratorio. Los estándares PSQM, PESQ Y PAMS perteneces a este grupo.
Los sistemas no intrusivos o pasivos efectúan medidas en tiempo real mientras el sistema está
en funcionamiento sin interferir en las llamadas existentes y sin necesidad de señal de
referencia, son menos exactas que los intrusivos. Una variante son los agentes embebidos que
pueden incorporarse en la pasarela o en el propio teléfono IP. Medidas pasivas son las escalas
MOS, el modelo E y VQMon.
La objetividad de las medidas hace referencia cuan independiente de la opinión de los sujetos
es la calidad de la voz medida en un determinado conjunto de pruebas. En las redes de voz sobre
paquetes interesa utilizar códec de reducida tasa binaria ya que el ancho de banda es un recurso
escaso.
Los mecanismos tradicionales empleados para la evaluación de la calidad de la voz en las redes
de telefonía fueron estandarizados por la ITU-T. Este en particular se ha venido utilizando para
los codecs de voz desde 1993. Se tratan de un conjunto de técnicas subjetivas llamadas test ACR
(Absolute Category Rating), dichas técnicas reúnen a una muestra de usuarios a los que se pide
que opinen sobre la calidad que ofrece un determinado sistema de transmisión de la voz. Los
test ACR no utilizan la comparación con una señal de referencia. Previamente se presentan a los
usuarios unos ejemplos predefinidos que les proporciona una base a la hora de evaluar la calidad
de la voz. Estos ejemplos están en la recomendación P.810.
Las escalas MOS evalúan aspectos como la calidad de la voz y el esfuerzo requerido para
entender el significado del mensaje pronunciado por el otro extremo. Para que las escalas MOS
sean realmente significativas es necesario que la muestra de usuarios sea suficientemente
grande y ello aumenta el proceso de elaboración y dependen de factores como la actitud de los
usuarios frente a la prueba o el nivel cultural de los individuos.
5.2.1 PSICOACÚSTICA
El comportamiento del sistema audible humano es no lineal. Solo somos sensibles a aquellos
sonidos comprendidos dentro de un rango de amplitudes y frecuencias muy concreto, siendo
esta sensibilidad dependiente de la frecuencia de manera que se define un área de audición.
El espectro audible se divide en zonas denominadas bark, hasta un total de 25 bark. Cada bark
se caracteriza porque el nivel de sonoridad es constante en toda la banda de frecuencias que
comprende.
En la percepción del sonido se ven implicados parámetros como el umbral de audición que es el
nivel de presión sonora mínimo para producir una sensación en el oído humano. No es
constante, varía en función de la frecuencia y de la presencia o ausencia de otros sonidos. Esto
de que un sonido quede oculto por la ocurrencia de otros se conoce como enmascaramiento y
puede ser de tres tipos:
Este fenómeno se utiliza en algunos codificadores para comprimir aún más la señal evitando
transmitir las señales enmascaradas ya que no se oirán (Codificación de audio MPEG).
Recomendación terminada en 1996 por el grupo de estudio SG12 para el análisis objetivo de los
códecs basado en un algoritmo llamado PSQM (PERCEPTUAL SPEECH QUALITY MEASURE). Es
una versión de otro algoritmo, el PAQM (Perceptual Audio Quality Measure) usado en redes
telefónicas. PSQM considera los efectos psicoacústicos en la percepción de la calidad del sonido.
Esto se utiliza para codecs con tasas binarias entre los 8 kbps y los 16 kbps.
En las redes de voz sobre paquetes el efecto predominante es el retardo y no la distorsión. Para
esto se creó el algoritmo PESQ (Perceptual Evaluation of Speech Quality) por parte de la ITU y
que fue incluido en el 2001 dentro de la recomendación P.862.
PESQ es la evolución del algoritmo PSQM+ el cual resolvía las distorsiones producidas por las
ráfagas de error pero presentaba problemas a la hora de compensar las variaciones del retardo.
Por otro lado, BT desarrolló el PAMS que manejaba la variabilidad del retardo a la perfección.
PESQ combina las ventajas de ambos aunque no está concebido para aplicaciones de streaming.
Las medidas PESQ son directamente trasladables a las escalas MOS con pocas manipulaciones.
Las escalas PESQ están comprendidas entre 1,0 (peor puntuación) y 4,5 (mejor puntuación) ya
que los usuarios son bastante cautos a la hora de asignar el 5.
Aunque PESQ fue diseñado para aumentar las prestaciones de PSQM incluyendo factores como
distorsión y filtrado, no los analiza todos.
5.3 MODELO E
El retardo es uno de los factores más importantes a considerar cuando se estudia la calidad de
la voz:
En torno a los 175 ms un aumento de retardo supone una disminución drástica de la calidad de
la voz.
5.4 VQMon
VQMon (Voice Quality Monitoring), desarrollado por la empresa Telchemy, no tiene en cuenta
los aspectos de la codificación de la señal, pero analiza la degradación que introduce la red
(jitter, pérdidas y retardo) y predice el impacto en la señal de voz reconstruida. Permite medir
en tiempo real la calidad de la voz para todas las llamadas que se estén cursando en un
determinado instante.
VQMon emplea un modelo estadístico para el análisis de las degradaciones que introduce la red
que considera la voz tal y como el usuario la percibe. VQMon no mide solo la tasa de pérdidas
sino también su distribución. La degradación de la calidad de la voz es mucho mayor si las
pérdidas se producen a ráfagas.