You are on page 1of 27

Universidad Inca Garcilaso de la Vega

Tema

VoIP tratamiento de la voz


Sobre redes de datos

1 Introduccin
VoIP proviene del ingles Voice Over Internet Protocol, que significa "voz
sobre un protocolo de internet". Bsicamente VoIP es un mtodo por el cual
tomando seales de audio analgicas del tipo de las que se escuchan
cuando uno habla por telfono se las transforma en datos digitales que
pueden ser transmitidos a traves de internet hacia una direccin IP
determinada.
VoIP permite la unin de dos mundos histricamente separados, el de la
transmisin de voz y el de la transmisin de datos. Entonces, podemos decir
que VoIP no es un servicio sino una tecnologa. VoIP puede transformar una
conexin standard a internet en una plataforma para realizar llamadas
gratuitas por internet. Usando algunos de los software gratuitos para
llamadas VoIP que estn disponibles en internet de esta forma estariamos
saltandonos a las compaas tradicionales de telefona, y por consiguiente,
sus tarifas.
En el pasado, las conversaciones mediante VoIP solan ser de baja calidad,
esto

se

vio

superado

por

el

desarrollo

tecnologico

en

temas

de

procesamiento digital de seales (PDS), evolucin de los codecs como el


G.729, niveles de procesamiento y la proliferacin de conexiones de banda
ancha, hasta tal punto ha llego la expansin de la telefona IP que existe la
posibilidad de que usted sin saberlo ya haya utilizado un servicio VoIP, por
ejemplo, las operadoras de telefona convencional, utilizan los servicios del
VoIP para transmitir llamadas de larga distancia y de esta forma reducir
costos.
Se sabe que va a llevar algn tiempo pero es seguro que en un futuro
cercano desaparecern por completo las lneas de telfono convencionales
que utilizamos en nuestra vida cotidiana, el avance tecnolgico indica que
estas sern muy probablemente reemplazadas por la telefona IP.
En el presente trabajo nos concentraremos en ver como es tratada la voz y
luego transformada en paquetes de datos para luego ser transmitida a su
destino final a travs de una red IP. Tambin encontraremos tcnicas que
evaluaran la calidad de la voz procesada y transmitida y los diferentes

parmetros que influyen sobre la calidad. Por ultimo analizaremos uno de


los Codecs ms usados en VoIP como es el G.729.

2 Voz sobre IP
2.1 Paquetizacin de la voz
Para poder transmitir las muestras codificadas de voz sobre redes de datos,
es necesario armar paquetes. Si la voz est codificada con ley A, una
conversacin consiste en un flujo de 64 kb/s. Cada muestra dura
125 s. Si bien se podra formar un paquete con cada muestra de voz, esto
generara un sobrecarga (overhead) demasiado importante (recordar que
cada paquete requiere de cabezales). Por otro lado, si se espera a juntar
demasiadas muestras de voz, para formar un paquete con mnima
sobrecarga porcentual, se pueden introducir retardos no aceptables. Un
paquete IP puede tener hasta 1500 bytes de informacin.
Si con muestras de 64 kb/s se quisiera completar los 1500 bytes del
paquete IP, se introducira un retardo de 125s x 1500 = 187,5 ms. Esta
demora no es aceptable en aplicaciones de voz.
Por esta razn, se toman generalmente ventanas de 10 a 30 ms. Las
muestras de voz de cada una de estas ventanas consecutivas se juntan y
con ellas se arman paquetes.

2.2 RTP Real-Time Transport Protocol


El protocolo RTP, basado en el RFC 3550, establece los principios de un
protocolo de transporte sobre redes que no garantizan calidad de servicio
para datos de tiempo real, como por ejemplo voz y video.
El protocolo establece la manera de generar paquetes que incluyen, adems
de los propios datos de tiempo real a transmitir, nmeros de secuencia,
marcas de tiempo, y monitoreo de entrega. Las aplicaciones tpicamente
utilizan RTP sobre protocolos de red no confiables, como UDP. Los
bytes obtenidos de cada conjunto de muestras de voz o video son

encapsulados en paquetes RTP, y cada paquete RTP es a su vez


encapsulado en segmentos UDP.
RTP soporta transferencia de datos a destinos mltiples, usando facilidades
de multicast, si esto es provisto por la red.

Cada paquete RTP consiste en un cabezal y los datos de voz. El cabezal


contiene nmeros de secuencia, marcas de tiempo, y monitoreo de entrega.
El formato de ste cabezal es el mostrado en la figura

Los campos ms relevantes son:


Versin (V)
La versin actual del protocolo es la 2.
CSRC count (CC)
El campo indica la cantidad de identificadores CSRC incluidos en el cabezal
(0 a 15)
Tipo de informacin (PT)
El campo payload identifica el tipo de informacin que viaja en el paquete.
Es un campo de 7 bits, lo que permite diferenciar hasta 128 tipos de
informacin. En audio, este campo indica el tipo de codificacin. Los valores
de este campo se definen en el RFC 3551. Algunos valores de ejemplo se
muestran en la siguiente tabla

Nmero de secuencia (Sequence Number)


El campo correspondiente al nmero de secuencia es de 16 bits. Con cada
paquete enviado, el emisor incrementa en uno el nmero de secuencia. Esto
permite al receptor detectar paquetes perdidos, o fuera de orden.
Marca de tiempo (Time Stamp)
Este campo es de 32 bits. Indica el momento al que corresponde la primera
muestra de la ventana de informacin que viaja en el paquete. Este campo
es utilizado por el receptor, para reproducir las muestras con la misma
cadencia con las que fueron obtenidas. Es a su vez til para medir el jitter.
En audio, el campo Time Stamp se mide en unidades de 125 s (o sea, en
unidades de muestreo). Si por ejemplo un paquete de 160 bytes de audio en

Ley A contiene el campo TimeStamp con el valor 1, el siguiente paquete


contendr el campo TimeStamp en 160.
Identificador del origen (SSRC - Synchronization Source Identifier)
El campo correspondiente al SSRC es de 32 bits. Tpicamente cada flujo en
una sesin RTP tiene un identificador diferente. El origen establece este
nmero, asegurando que no se repita.
Identificador del tributario (CSRC - Contributing Sources Identifier)
Pueden existir hasta 15 campos CSRC, de acuerdo al valor de CC. Esta lista
identifica a cada uno de los interlocutores cuando el audio que se enva es
producido en un mezclador o mixer (por ejemplo, cuando se enva el audio
de varios participantes de una conferencia)
2.3 RTCP RTP Control Protocol
El RFC 3550 establece, adems del protocolo RTP, un protocolo de control,
RTCP, encargado de enviar peridicamente paquetes de control entre los
participantes de una sesin. El protocolo RTCP tiene las siguientes funciones
principales:

Proveer realimentacin acerca de la calidad de los datos


distribuidos (por ejemplo, de la calidad percibida de VoIP). Esta
realimentacin permite adaptar dinmicamente la codificacin, o
tomar acciones tendientes a solucionar problemas cuando se detecta
degradacin en la calidad de la comunicacin.

Transporte del CNAME (Canonical Name) de cada originador. Este


identificador permite asociar varios flujos RTP con el mismo
origen (por ejemplo, flujos de audio y video provenientes del mismo
emisor).

Adaptar dinmicamente la frecuencia de envo de paquetes de


control RTCP de acuerdo al nmero de participantes en la sesin.
Dado que los paquetes se deben intercambiar todos contra todos,
es posible saber cuantos participantes hay, y de esta manera calcular
la frecuencia de envos de esto paquetes.

2.4 Ancho de banda


Dado que para el envo de voz sobre redes es necesario armar paquetes,
el ancho de banda requerido depender de la sobrecarga (overhead)
que generen estos paquetes.
Como se ha visto, para el envo de voz sobre redes de paquetes se utiliza el
estndar RTP. ste protocolo a su vez se monta sobre UDP, el que a su vez
se monta sobre IP, el que, en la LAN, viaja sobre Ethernet.

Esta suma de protocolos hace que el ancho de banda requerido para el


trfico de voz sobre Ethernet sea bastante mayor al ancho de banda del
audio.
Para una muestra o ventana de 20 ms, y con codificacin de audio Ley
A, se obtienen 160 bytes de voz por trama.
Bytes de voz/trama = 64 kb/s * 20 ms / 8 = 160 bytes
El paquete IP (incluyendo los protocolos RTP y UDP) agrega 40 bytes
adicionales
Bytes de paquete IP = 160 + 40 = 200 bytes
La trama Ethernet agrega otros 26 bytes:
Bytes de Trama Ethernet = 200 + 26 = 226 bytes
En este ejemplo, cada 20ms se generan 226 bytes que se deben enviar por
la LAN. Esto equivale a un ancho de banda de 90,4 kb/s (comprese con los
64 kb/s del flujo de audio)
Ancho de banda LAN = 226 * 8 / 20 ms = 90.4 kb/s Es de hacer notar que
este clculo fue hecho para el envo de audio en una direccin. Como las
comunicaciones son bidireccionales, el ancho de banda real requerido en la
LAN ser el doble. Pueden utilizarse tcnicas de supresin de silencio, en
las que no se envan paquetes cuando no hay audio. En este caso, el ancho
de banda total es similar al ancho de banda unidireccional.
Por lo visto anteriormente, el ancho de banda de la voz paquetizada en la
LAN depende del tamao de la ventana (tpicamente 10, 20 o 30 ms) y el

CODEC utilizado. De forma general podemos agregar tambin que el


tamao del paquete de voz depender del tipo de red por la cual se enviar
la informacin.
La siguiente tabla muestra los anchos de banda unidireccionales necesarios
utilizando redes IP sobre Ethernet

2.5 Factores que afectan la calidad de la voz sobre redes de


paquetes
Se describirn algunos de los parmetros ms influyentes en la calidad de la
voz transmitida a travs de la red de datos:
Factor de compresin
Para poder transmitir la voz a travs de una red de datos, es necesario
realizar previamente un proceso de digitalizacin. En telefona clsica, ste
proceso se realiza utilizando CODECs que implementan la ley A o ley ,
obteniendo una seal digital de 64 kb/s. Este proceso, se realiza de acuerdo
a la recomendacin G.711 de la ITU-T. Sin embargo, cuando se dispone de
velocidades de red reducidas, es conveniente tratar de minimizar el ancho
de banda requerido por las seales de voz. Para ello, se han desarrollado
varias

recomendaciones,

que

reducen

la

velocidad

de

transmisin

requerida, a expensas de degradar la calidad de la voz.


Muchos equipos comerciales soportan varias de ellas y algunos otros
incluyen tambin CODECS Open source como el iLBC (codec de Internet de
bajo bitrate) y el Speex.

La siguiente tabla resume las recomendaciones de la ITU-T respecto a los


algoritmos estandarizados de compresin de voz y que son ampliamente
utilizados en la actualidad para VoIP.

Prdida de paquetes
A diferencia de las redes telefnicas, donde para cada conversacin se
establece un vnculo estable y seguro, las redes de datos admiten la
prdida de paquetes.
Esto est previsto en los protocolos seguros de alto nivel, y en caso de
que ocurra, los paquetes son reenviados. En los protocolos diseados para
trfico de tiempo real generalmente no se recibe confirmaciones de
recepcin de paquetes, ya que si el canal es suficientemente seguro, estas
confirmaciones cargan intilmente al mismo.
En aplicaciones de voz y video, el audio es encapsulado en paquetes y
enviado, sin confirmacin de recepcin de cada paquete.
Si el porcentaje de perdida es pequeo, la degradacin de la voz tambin lo
es.
Los porcentajes de perdida admisibles dependen de otros factores,
como por ejemplo la demora de transmisin y el factor de compresin
de la voz.
Existen tcnicas para hacer menos sensible la degradacin de calidad en la
voz frente a la prdida de paquetes. La ms sencilla consiste en
simplemente repetir el ltimo paquete recibido.
Tambin cuentan como perdidos los paquetes que llegan a destiempo o
fuera de orden.

Demora
Un factor importante en la percepcin de la calidad de la voz es la demora.
La demora total est determinada por varios factores, entre los que se
encuentran:

Demora debida a los algoritmos de compresin.- En forma


genrica, cuanto mayor es la compresin, ms demora hay en el
proceso (los CODECS requieren ms tiempo para codificar cada
muestra).

Demoras de procesamiento.- Es el tiempo involucrado en el


procesamiento de la voz para la implementacin de los protocolos.
Dependen de los procesadores utilizados.

Demoras propias de la red (latencia).- Las demoras propias de la


red estn dadas por la velocidad de transmisin de la misma, la
congestin, y las demoras de los equipos de red (routers, gateways,
etc.).

Las demoras no afectan directamente la calidad de la voz, sino la


calidad de la conversacin. Hasta 100 ms son generalmente tolerados,
casi sin percepcin de los interlocutores. Entre 100 y 200 ms las demoras
son notadas. Al acercarse a los 300 ms de demora, la conversacin se
vuelve poco natural. Pasando los 300 ms la demora se torna crtica,
haciendo muy dificultosa la conversacin.
Un efecto secundario, generado por las demoras elevadas, es el eco. El eco
se debe a que parte de la energa de audio enviada es devuelta por el
receptor.

En

los

sistemas

telefnicos

este

efecto

no

tiene

mayor

importancia, ya que los retardos o demoras son despreciables, y por lo


tanto, el eco no es percibido como tal.
Cuando la demora de punta a punta comienza a aumentar, el efecto del eco
comienza a percibirse.

Eco
Si el tiempo transcurrido desde que se habla hasta que se percibe el retorno
de la propia voz es menor a 30 ms, el efecto del eco no es percibido.
Asimismo, si el nivel del retorno est por debajo de los 25 dB, el efecto del
eco tampoco es percibido. En las conversaciones telefnicas habituales, el
eco existe en niveles perceptibles (mayores a 25 dB), pero la demora es
mnima, por lo que el eco no es perceptible. Las excepciones son las
comunicaciones va satlite, en las que la demora promedio es del orden de
los 150 ms. Para estos casos, las compaas telefnicas disponen
generalmente de sofisticados equipos canceladores de eco.
Variaciones en la demora (Jitter)
El jitter es la variacin en las demoras (latencias). Por ejemplo, si dos
puntos comunicados reciben un paquete cada 20 ms en promedio, pero en
determinado momento, un paquete llega a los 30 ms y luego otro a los 10
ms, el sistema tiene un jitter de 10 ms.
El receptor debe recibir los paquetes a intervalos constantes, para poder
regenerar de forma adecuada la seal original. Dado que el jitter es
inevitable, los receptores disponen de un buffer de entrada, con el
objetivo de suavizar el efecto de la variacin de las demoras. Este buffer
recibe los paquetes a intervalos variables, y los entrega a intervalos
constantes.
Es de hacer notar que este buffer agrega una demora adicional al
sistema, ya que debe retener paquetes para poder entregarlos a
intervalos constantes.
Cunto ms variacin de demoras (jitter) exista, ms grande deber ser el
buffer, y por lo tanto, mayor demora ser introducida al sistema.
Tamao de los paquetes
El tamao de los paquetes influye en dos aspectos fundamentales en la
transmisin de la voz sobre redes de datos: La demora y el ancho de
banda requerido.
Para poder transmitir las muestras codificadas de voz sobre una red de
datos, es necesario armar paquetes, segn los protocolos de datos
utilizados (por ejemplo, IP). Un paquete de datos puede contener varias

muestras de voz. Por ello, es necesario esperar a recibir varias muestras


para poder armar y enviar el paquete.
Esto introduce un retardo o demora en la transmisin. Desde ste punto de
vista, parece conveniente armar paquetes con la mnima cantidad de
muestras de voz (por ejemplo, un paquete por cada muestra). Sin
embargo, hay que tener en cuenta que cada paquete tiene una cantidad
mnima de informacin (bytes) de control (cabezal del paquete, origen,
destino, etc.). Esta informacin (sobrecarga u overhead), no aporta a la
informacin real que se quiere transmitir, pero afecta al tamao total del
paquete, y por tanto al ancho de banda.
La duracin de las ventanas de voz se encuentran entre 10 a 30 ms, valor
que se aporta a la demora total.
A continuacin un cuadro comparativo de los CODECS ms usados en VoIP y
sus ventajas y desventajas:

3 CODEC G.729
El codec G.729 estndar ITU, se basa en el Algoritmo Code Excited Linear
Prediction (CELP) y sus variantes CS-ACELP.
Perteneciente a la familia de los codificadores paramtricos, los cuales se
basan en la obtencin de los parmetros de un modelo de produccin de
seal de voz.
Los codificadores paramtricos analizan por prediccin lineal el filtro
correspondiente al modelo de generacin de seal de voz.
Digitalizacin de la voz
Como primer paso la voz debe ser obtenida mediante un transductor y
luego pasar a travs de PDS en el cual ser muestreada y cuantificada, para
la codificacin existen diversas tcnicas pero la que usaremos ahora esta
bajo el esquema de la recomendacin G.729 con el algoritmo CS-ACELP.
(Procesamiento Digital de Seales)

CS-ACELP y sus variantes


Est basado en una estructura conjugada algebraica de CELP con bajo
retardo aproximadamente de 8 Kbit/s.
Se ha diseado para aplicaciones de redes inalmbricas y multimedia.
CS-CELP es un codificador de bajo retardo con tamaos de trama de 10 ms,
un lookahead de 5 ms y un retardo total del algoritmo de 15 ms.
El algoritmo se basa en un esquema CELP de anlisis-sntesis con dos libros
de cdigos (codebook).
Existen dos versiones del algoritmo:
La G.729 original con un coste de 20 MIPS y MOS 4,0
Y la G.729 Anexo A, menos compleja, 11 MIPS y MOS 3,76.
La norma G.729 Anexo B define un algoritmo de compresin de silencios lo
cual permite tanto a al G.729 como a la G.729 A operar a bit rates menores.
Hay extensiones planeadas de la G.729 a 6,4 Kbit/s y 12 Kbit/s pero q aun
no son comerciales.
4 Medida de la calidad de voz en redes IP

La VoIP enfrenta problemticas propias de las redes de datos, que se


manifiestan como degradaciones en la calidad del servicio percibida por los
usuarios (QoE).
Estas degradaciones pueden deberse por ejemplo a retardos, jitter
(diferencia de retardos) y prdida de paquetes, entre otros factores. Para
que la tecnologa de VoIP pueda ser utilizada en las Empresas, es esencial
garantizar una calidad de voz aceptable. Para ello se han desarrollado
mtodos para medirla. Estos mtodos se dividen en subjetivos y objetivos.
Los mtodos subjetivos de medida de la calidad de servicio, se basan en
conocer directamente la opinin de los usuarios.
Tpicamente resultan en un promedio de opiniones (por ejemplo, en un valor
de MOS Mean Opinin Score). Los mtodos objetivos . A su vez se
subdividen en intrusivos (se inyecta una seal de voz conocida en el canal y
se estudia su degradacin a la salida) y no intrusivos (monitorean ciertos
parmetros en un punto de la red y en base a estos permite establecer en
tiempo real la calidad que percibira un usuario).
4.1 Mtodos Subjetivos
La calidad de la voz se establece a travs de la opinin del usuario. La
calidad de audio puede ser evaluada directamente (ACR = Absolute
Category Rating), o en forma comparativa contra un audio de referencia
(DCR = Degradation Category Rating). Con evaluaciones directas (del
tipo ACR) se califica el audio con valores entre 1 y 5, siendo 5 Excelente y
1 Malo. El MOS (Mean Opinin Score) es el promedio de los ACR
medidos entre un gran nmero de usuarios.
Si la evaluacin es comparativa, (del tipo DCR), el audio se califica tambin
entre 1 y 5, siendo 5 cuando no hay diferencias apreciables entre el audio
de referencia y el medido y 1 cuando la degradacin es muy molesta. El
promedio de los valores DCR es conocido como DMOS (Degradation MOS).
La metodologa de evaluacin subjetiva ms ampliamente usada es la del
MOS (Mean Opinin Score), estandarizada en la recomendacin ITU-T P.800.
Adicionalmente, se puede evaluar la calidad del audio y la calidad de la
conversacin, las que pueden ser diferentes. La calidad de la conversacin
implica una comunicacin bidireccional, donde, por ejemplo, los retardos
juegan un papel muy importante en la calidad percibida. Los valores

obtenidos con las tcnicas ACR (es decir, el MOS) puede estar sujeto al tipo
de experimento realizado. Por ejemplo, si se utilizan varias muestras de
buena calidad, una en particular puede ser calificada peor que si esa misma
muestra se presenta junto a otras de peor calidad.
Los mtodos subjetivos son en general caros y lentos porque requieren un
gran panel de usuarios. Son dependientes entre otros factores del pas, del
idioma, de las experiencias previas de los usuarios.
4.2 E-Model
La industria de las telecomunicaciones ha aceptado una representacin
numrica de la calidad de la voz, llamada MOS (Mean Opinion Score), y
estandarizada en la recomendacin ITU-T P.800. La calidad de la voz es
calificada con un nmero, entre 1 y 5. El valor numrico de MOS es
proporcional a la calidad de la voz. 1 significa muy mala calidad y 5 significa
excelente. Los valores son obtenidos mediante el promedio de las opiniones
de un gran grupo de usuarios.
La ITU-T ha creado un modelo en la recomendacin ITU-T G.107, llamado
EModel, para estimar o predecir la calidad de la voz en redes IP (VoIP)
percibida por un usuario tpico, en base a parmetros medibles de la red. El
resultado del E-Model es un factor escalar, llamado R (Transmission
Rating Factor), que puede tomar valores entre 0 y 100. El E-model
toma en cuenta una gran cantidad de factores que pueden deteriorar la
calidad de la voz percibida, como por ejemplo, el uso de compresin, los
retardos de la red, as como tambin los factores tpicos en telefona como
la prdida, ruido y eco. Puede ser aplicado para estimar la calidades de la
voz en redes de paquetes, tanto fijas como inalmbricas.
El E-Model puede ser utilizado para evaluar como se ver afectada la
calidad de la voz en una red en base a parmetros mensurables. El modelo
parte de un puntaje perfecto (100) y resta diversos factores que
degradan la calidad, segn se puede ver en la ecuacin.
R = Ro - Is - Id Ie_eff + A ...........................(1)
Donde:

Ro Representa la relacin seal/ruido bsica (antes de ingresar en la red)


que incluye fuentes de ruido, tales como ruido ambiente. El valor inicial
puede ser como mximo 100. Las fuentes de ruido independientes del
sistema como el ruido ambiental, pueden hacer que este valor inicial sea
menor a 100.
Is Es una combinacin de todas las degradaciones que aparecen de forma
ms o menos simultnea con la seal vocal. Por ejemplo, volumen excesivo
y distorsin de cuantizacin.
Id Representa las degradaciones producidas por el retardo y el eco Ie_eff
Effective equipment impairment factor. Representa las degradaciones
producidas por los cdecs y por las prdidas de paquetes de distribucin
aleatoria.
A Factor de Mejoras de Expectativas. Muchas veces, los usuarios estn
dispuestos a aceptar peor calidad de voz si saben que se estn utilizando
tecnologas no clsicas (por ejemplo celulares o VoIP). Permite compensar
los factores de degradacin cuando existen otras ventajas de acceso para el
usuario.
Los valores de R varan entre 0 y 100, correspondiendo los valores ms altos
a mejores calidades de voz.
Los tres tipos de degradaciones (Is, Id y Ie, eff) se subdividen, a su vez, en la
combinacin de otros factores, como se detalla a continuacin.
Clculo de Is
Is = Iolr + Ist + Iq

..................... (2)

Donde:
Iolr Representa la disminucin de calidad producida por valores demasiado
bajos de OLR (Overall Loudness Rating). El OLR se calcula, a su vez, como
OLR = SLR + RLR

............................(3)

Siendo:
SLR (Send Loudness Rating), es la prdida entre la boca del emisor y el
micrfono del aparato telefnico. RLR (Receive Loudness Rating), es la
prdida entre el parlante del
aparato telefnico y el odo del receptor.
Ist Representa la degradacin producida por efectos locales no ptimos, y
depende esencialmente del factor STMR (Side Tone Masking Rating).

Parte de la seal recibida por el micrfono es transmitida, dentro del mismo


telfono, al parlante, generando un efecto local que hace que la persona
que habla se escuche por el odo en el que tiene el tubo o microtelfono. La
atenuacin de la seal que pasa del micrfono al parlante del mismo
aparato se conoce como STMR. Si este valor no est dentro de los
parmetros adecuados, genera una sensacin de eco, o de lnea
muerta, segn el caso, bajando la calidad de la comunicacin.
Iq Representa la degradacin producida por la distorsin de cuantificacin.
Se calcula en base a unidades qdu . 1 qdu se define como el ruido de
cuantizacin que resulta de una codificacin y decodificacin completas en
Ley A o Ley
La frmula de clculo detallada de los parmetros (Iolr, Ist, Iq) puede verse
en la recomendacin G.107.
Clculo de Id
Id = Idte + Idle + Idd

..............................(4)

Donde:
Idte Expresa una estimacin para las degradaciones debidas al eco para el
hablante. Se calcula en base al factor TELR (Talker Echo Loudness
Rating) y la demora media T de punta a punta en un sentido. El factor TELR
es la medida de la atenuacin del eco percibido por el hablante.
Idle Representa degradaciones debidas al eco para el oyente. Se calcula en
base al factor WEPL (Weighted Echo Path Loss) y la demora media Tr de ida
y vuela. El factor WEPL es la medida de la atenuacin entre la seal
directa recibida por el oyente, la seal retardada recibida como eco.
Idd Representa la degradacin producida por retardos absolutos demasiado
largos Ta, que se producen incluso con compensacin perfecta del eco. Si Ta
< 100 ms, el factor Idd es 0.
La frmula de clculo detallada de los parmetros (Idte, Idle, Idd) puede
verse en la recomendacin G.107.

El efecto de la demora en el valor de R del Modelo EModel, se grafica en


la siguiente figura, asumiendo todos los otros factores ideales

Puede verse como hasta 175 ms el valore de R es mayor que 90, y se


encuentra en la zona de Muy satisfechos. Sin embargo, luego de los 175
ms, el efecto de las demoras degrada fuertemente la comunicacin,
hacindola poco natural.
Si a la grfica anterior se le suma el efecto del eco, varios TELR, el modelo E
predice las siguientes curvas:

Es de hacer notar que el valor TELR es la medida de la atenuacin del eco


percibido por el hablante. Cuanto ms atenuado el eco percibido (mayor
valor en db de TELR), menor efecto tiene el eco sobre la degradacin. En la
medida que aumenta el eco, el valor de R decrece rpidamente con el
retardo.
Clculo de Ie_eff
Ie-eff representa las degradaciones producidas por los cdecs y por las
prdidas de paquetes, segn la siguiente frmula:

Donde
Ie Es un valor que depende del Cdec utilizado, y representa la degradacin
percibida producida por los diferentes algoritmos de compresin.
Ppl Representa la probabilidad de prdida de paquetes
Bpl Se define como el factor de robustez contra prdida de paquetes, y es
un valor preestablecido para cada Cdec
BurstR Es la Relacin de rfaga, y se define como:

Si no existen prdida de paquetes (Ppl=0), el factor Ie-eff depende


nicamente del tipo de Codec utilizado Los valores de Ie para los diferentes
Codecs se detallan en la siguiente tabla:

En una red sin prdida de paquetes y sin eco, el valor de R del EModel,
depender de la demora y de los codecs utilizados, segn se muestra en la
siguiente grfica, para G.711, G.729A y G.723.1 (notar que la grfica
negra coincide con las grficas anteriores)

Clculo de A
A representa un Factor de Mejoras de Expectativas. Muchas veces, los
usuarios estn dispuestos a aceptar peor calidad de voz si saben que se
estn utilizando tecnologas no clsicas (por ejemplo celulares o VoIP). No
existe, por consiguiente, ninguna relacin entre A y los dems parmetros
de transmisin.
El cuadro siguiente presenta los valores tpicos de A para diferentes
tecnologas, segn la recomendacin ITU-T G-113

Relacin de R y MOS
El modelo relaciona el valor de R con el MOS, con un gran nivel de
aproximacin, segn la siguiente ecuacin:

Las siguiente figuras muestran la relacin entre R y MOS, segn la frmula

anterior:

Aplicacin del E-model


El RFC 3611 [15] define campos de reportes extendidos (XR, Extended
Reports) en el protocolo RTCP que permiten intercambiar informacin acerca
de la calidad de la comunicacin. En este RFC se incluye la posibilidad de
intercambiar informacin del valor de R entre fuentes y destinos, as como
los valores percibidos de MOS-LQ (MOS listening quality) y MOS-CQ (MOS
conversational quality)
4.3 OTROS MODELOS DE MEDICION
4.3.1 ITU-T P.862 (PESQ)
La recomendacin ITU-T P.862 [16] presenta un mtodo objetivo para la
evaluacin de la calidad vocal de extremo a extremo de redes telefnicas de
banda estrecha y cdecs vocales.
Esta Recomendacin describe un mtodo objetivo para predecir la calidad
subjetiva de la voz telefnica utilizando los cdecs ms comunes. Presenta
una descripcin de alto nivel del mtodo, explica la forma de utilizar este
mtodo y parte de los resultados de referencia obtenidos por la Comisin de
Estudio 12 de la ITU-T en el periodo 1999-2000. Proporciona adicionalmente
una implementacin de referencia escrita en el lenguaje de programacin
ANSI-C.
El mtodo objetivo descrito se conoce por "evaluacin de la calidad
vocal por percepcin" (PESQ, perceptual evaluation of evaluation of
speech quality) y es el resultado de varios aos de trabajos de desarrollo.
PESQ compara una seal inicial X(t) con una seal degradada Y(t) que se
obtiene como resultado de la transmisin de X(t) a travs de un sistema de
comunicaciones (por ejemplo, una red IP). La salida de PESQ es una
prediccin de la calidad percibida por los sujetos en una prueba de escucha
subjetiva que sera atribuida a Y(t).
El primer paso de PESQ consiste en una alineacin temporal entre las
seales iniciales X(t) y degradada Y(t). Para cada intervalo de seal se
calcula un punto de arranque y un punto de parada correspondientes.
Una vez alineadas, PESQ compara la seal (entrada) inicial con la salida
degradada alineada, utilizando un modelo por percepcin, como el
representado en la siguiente figura

Lo esencial en este proceso es la transformacin de las dos seales, la


inicial y la degradada, en una representacin interna que intenta reproducir
la representacin psicoacstica de seales de audio en el sistema auditivo
humano, teniendo en cuenta la frecuencia por percepcin (Bark) y la
sonoridad (Sone).
El modelo cognitivo de PESQ termina brindando una distancia entre la seal
vocal inicial y la seal vocal degradada (nota PESQ), la que corresponde a
su vez con una prediccin de la MOS subjetiva. La nota PESQ se hace
corresponder a una escala similar a la de MOS, un nmero nico en una
escala de 0,5 a 4,5, aunque en la mayora de los casos la gama de las
salidas estar entre 1,0 y 4,5, que es la gama normal de valores de MOS
que suelen darse en un experimento sobre la calidad de voz.
La descripcin detallada del algoritmo es compleja, y puede verse en la
Recomendacin referenciada.
El mtodo PESQ es objetivo e intrusivo, ya que requiere del envo de una
seal conocida de referencia para evaluar la calidad percibida de la voz.
Algunos sistemas lo implementan enviando un par de segundos de audio
conocido, lo que basta para poder aplicar el mtodo.

5 Ventajas de la Voz sobre IP

La primer ventaja y la ms importante es el costo, una llamada

mediante telefona VoIP es en la mayora de los casos mucho ms barata


que su equivalente en telefona convencional.
Esto es bsicamente debido a que se utiliza la misma red para la
transmisin de datos y voz, la telefona convencional tiene costos fijos que
la telefona IP no tiene, de ah que esta es ms barata. Usualmente para una
llamada entre dos telfonos IP la llamada es gratuita, cuando se realiza una
llamada de un telfono IP a un telfono convencional el costo corre a cargo
del telfono IP.

Integracin sobre su Intranet de la voz como un servicio ms de su

red, tal como otros servicios informticos.

Las redes IP son la red estndar universal para la Internet, Intranets y

extranets.

Estndares efectivos (H.323)

Interoperabilidad de diversos proveedores

Uso de las redes de datos existentes

Independencia de tecnologas de transporte (capa 2), asegurando la

inversin.

Menores costos que tecnologas alternativas (voz sobre TDM, ATM,

Frame Relay)

6 Conclusiones
En conclusin si a todo lo anterior, se le suma el fenmeno creciente
llamado Internet, junto con el potencial ahorro econmico que este tipo de
tecnologas puede llevar acarreado, la conclusin es clara: El VoIP (Protocolo
de Voz Sobre Internet - Voice Over Internet Protocol) es un tema "caliente" y
estratgico para las empresas.
Hoy, desregulacin mediante, la telefona sobre IP empieza a ver su hora
ms gloriosa y es el fruto ms legtimo de la convergencia tecnolgica.
La transmisin de la voz sobre redes de datos debe su desarrollo a la rpida
evolucin de las tecnologas de procesamiento digital de seales y al
desarrollo conjunto de algoritmos de compresin que permiten aprovechar
el ancho de banda de Internet.
Existen algoritmos de codificacin que pueden minimizar aun ms el ancho
de banda necesario para la transmisin de voz, pero el sacrificio est en la
calidad perceptual.

En la actualidad muchas de las marcas que comercializan Equipos de Voz


sobre IP poseen soporte para varios de estos CODECS y en algunos casos
son utilizados de acuerdo al ancho de banda disponible en la red y otros
autosensando el cdec utilizado por el equipo remoto.

7 Referencias
TIA/TSB 116-A Telecommunications - IP Telephony Equipment Voice
Quality Recommendations for IP Telephony, Mar 1, 2006
http://www.w3.org/AudioVideo/9610_Workshop/paper11/paper11.html
Calidad de servicio percibida en servicios de voz y video sobre IP, Pedro
Casas
Hernandez, Diego Guerra Vidal, Ignacio Irigaray Bayarres, Universidad de la
Republica, Proyecto de fin de carrera, Ingenieria Elctrica Plan 97,
telecomunicaciones, 30 de Agosto de 2005.
Transmisin de voz sobre IP con protocolo basado en el algoritmo lms,
Carlos
Alberto Busso Recabarren, tesis para optar al grado de magister en ciencias
de la
ingenieria mencin elctrica, santiago de chile JULIO 2003.
An E-Model Implementation for Speech Quality Evaluation in VoIP Systems,
Leandro Carvalho, Edjair Mota, Regeane Aguiar, Ana F. Lima, Jos Neuman
de
Souza, Anderson Barreto, Federal University of Amazonas (UFAM), Federal
University of Cear (UFC), Nokia Institute of Technology (INdT).
Simulacin of voice over IP for the Battlespace Communications
System(land),
Ian Grivell and Raymee Chau, department of defense of Australia, 2004.
AdaMOS: Algoritmo MOS-Adaptativo para fonts VoIP, Bruno de Azevedo
Vianna, Nilmax Teones Moura, Clio Vinicius Neves de Albuquerque, Vinod E.
F.
Rebello e Cristina Boeres, Instituto de Computao Universidade Federal
Fluminense(IC/UFF)

You might also like