Tesis UTPL (Voip Estetoscopio

UNIVERSIDAD TCNICA PARTICULAR DE LOJA
La Universidad Catlica de Loja

ESCUELA DE ELECTRONICA Y TELECOMUNICACIONES

ESTUDIO DE UN CDEC DE COMPRESIN DE AUDIO PARA MEJORAR LA
CALIDAD DE SERVICIO DE SONIDOS ESTETOSCPICOS SOBRE UNA RED IP

TESIS PREVIA A LA OBTENCIN DEL TTULO DE
INGENIERO EN ELECTRNICA Y TELECOMUNICACIONES

AUTORES:

VICENTE MIGUEL MARTNEZ CHUQUIMARCA
PEDRO DAMIN VLEZ SALAS

DIRECTORA:

ING. KATTY ALEXANDRA ROHODEN JARAMILLO

LOJA ECUADOR

2010

CERTIFICACIN: ACEPTACIN PROYECTO DE FIN DE CARRERA

Loja, enero de 2010

Ing. Katty A. Rohoden
Escuela de Electrnica y Telecomunicaciones GESE

Dejo constancia de haber revisado y estar de acuerdo con el proyecto de fin de
carrera, titulado: Estudio de un cdec de compresin de audio para mejorar la
calidad de servicio de sonidos estetoscpicos sobre una red IP.

Presentado por:
Vicente Miguel Martnez Chuquimarca
Pedro Damin Vlez Salas

Particular que comunico para los fines legales pertinentes.

----------------------------------------
Ing. Katty Alexandra Rohoden

Visto Bueno Direccin Escuela

F).....................................
Ing. Jorge Luis Jaramillo Pacheco
DIRECTOR DE LA ESCUELA DE ELECTRNICA Y
TELECOMUNICACIONES

Enero de 2010
iii

CESIN DE DERECHOS

Vicente Miguel Martnez Chuquimarca y Pedro Damin Vlez Salas, declaramos ser
autores del presente trabajo y eximamos expresamente a la Universidad Tcnica
Particular de Loja y a sus representantes legales de posibles reclamos o acciones
legales.

Adicionalmente declaramos conocer y aceptar la disposicin del Art. 67 del Estatuto
Orgnico de la Universidad Tcnica Particular de Loja que en su parte pertinente
textualmente dice: Forman parte del patrimonio de la Universidad la propiedad
intelectual de investigaciones, trabajos cientficos o tcnicos y tesis de grado que se
realicen a travs o con el apoyo financiero, acadmico o institucional (operativo) de
la Universidad.

Los Autores

Vicente M. Martnez Pedro D. Vlez

iv

AUTORA

Las ideas, opiniones, conclusiones, recomendaciones y ms contenidos expuestos
en el presente informe de tesis son de absoluta responsabilidad de los autores.

Vicente Miguel Martnez Chuquimarca
Pedro Damin Vlez Salas

v

INTRODUCCIN

Para aplicaciones en telemedicina, como realizar un diagnstico remoto, es
importante tener en cuenta cmo se van a transmitir los datos. El propsito de este
proyecto de investigacin es realizar un anlisis de cdecs de compresin de audio
ya disponibles, para determinar cul es el ms apropiado en cuanto a la transmisin
de sonidos estetoscpicos en tiempo real. Adems, se ha realizado un estudio que
abarca la determinacin de caractersticas tcnicas de los diferentes sonidos tanto
cardacos como respiratorios, teniendo en cuenta varias anomalas posibles que se
presentan comnmente en pacientes, con el afn de determinar los rangos de
frecuencias en que se encuentran localizados estos sonidos y su ancho de banda
dentro del espectro de frecuencias auditivas. Una vez realizado este estudio, se
analizaron varios cdecs de audio utilizados actualmente en transmisin de tiempo
real, para poder escoger el ms adecuado en este tipo de aplicacin, teniendo
siempre en cuenta el ptimo uso de lo que podra ser un canal de transmisin,
evitando elegir algn cdec que pueda significar un desperdicio de ancho de banda.
Despus de seleccionar el cdec de compresin, se procedi a analizarlo para
tener especificaciones de lo que significa utilizar este cdec.

El presente trabajo servir como referencia para futuras investigaciones que se
dediquen al anlisis de sonidos transmitidos en enlaces, tanto guiados o no
guiados, pudiendo servir como base del procedimiento a seguir en caso que se
requieran realizar investigaciones similares a esta. El esquema mostrado en el
Anexo A presenta de forma general la aplicacin sobre la cual se utilizar el
compresor de audio. Una vez seleccionado el cdec de compresin para este tipo
de sonidos, se puede tener la pauta para las especificaciones tcnicas que la red
de telemedicina deber tener en lo que se refiere a los protocolos de transmisin a
utilizar. Como en este proyecto ya se define un cdec recomendable para la
transmisin de sonidos estetoscpicos, es posible implementar un sistema de
videoconferencia que utilice un estndar que incluya al cdec seleccionado, dando
paso a que el proyecto se expanda en varios tipos de interfaces.

vi

La manera en que se llev a cabo este estudio involucr la recoleccin de dieciocho
archivos de sonidos en formato digital, tanto cardacos como respiratorios. Se
procur que cada uno de estos sonidos no haya sido comprimido mediante
mtodos que contienen prdidas, como lo es MP3, porque eso podra omitir
informacin importante para el anlisis. Cada archivo de sonido fue analizado
utilizando la herramienta MATLAB, obteniendo su forma de onda (amplitud en
funcin del tiempo), su espectrograma (frecuencia en funcin del tiempo) y su
densidad de potencia espectral (potencia en funcin de la frecuencia). Estos tipos
de anlisis permitieron, de manera grfica, apreciar cmo es el comportamiento de
cada sonido, pudiendo ver los componentes de las anomalas en cada caso y as
tomar un criterio de en qu tipo de frecuencias se encuentra cada sonido. Una vez
realizado todo este anlisis, se procedi a recrear una tabla comparativa que
contiene todos los datos tcnicos recolectados para determinar frecuencias
mximas y mnimas del peor de los casos posibles, llegando a conclusiones que en
los sonidos respiratorios se pueden encontrar frecuencias ms altas que en los
sonidos cardacos. Con la ayuda de los datos de esta tabla se propuso las
caractersticas de un cdec ideal que servira para comprimir los datos de los
sonidos en estudio de manera que no se atenen frecuencias que contengan
informacin importante. Esto permite hacer una comparacin con cdecs ya
existentes y seleccionar el ms apropiado a esta aplicacin.

Este proyecto empieza con la descripcin tcnica de los sonidos, contenidos en
cada muestra, tratando de obviar la descripcin mdica de cada uno de ellos,
puesto que no influye a los resultados de este proyecto de investigacin. Luego, se
describe cmo funciona la compresin de datos de forma general, para entender
cmo afecta a una seal cuando es sometida a este procedimiento. Es importante
entender estos conceptos y as poder realizar una correcta eleccin del cdec.
Despus, se menciona brevemente el funcionamiento de la transmisin de datos en
tiempo real en una red de datos, incluyendo conceptos bsicos de cmo funcionan
los protocolos que permiten este tipo de aplicacin y partiendo de los aspectos
tomados en cuenta en aplicaciones ya existentes como Voz sobre IP (VoIP) para
establecer las recomendaciones que una red de esta ndole debe tener, haciendo
bsicamente un enfoque en lo que concierne a la transmisin de sonidos, ignorando
la transmisin de vdeo. Dentro de la comparacin de los cdecs de compresin
considerados, se ha incluido informacin relevante a este proyecto como el ancho
vii

de banda, la frecuencia mxima que cada uno abarca, el ndice de retardo que este
tiene en una transmisin en tiempo real y su tasa de bits por segundo (bits/s).
Finalmente, en base al cdec ideal propuesto, en referencia a las conclusiones
obtenidas en esta investigacin, se seleccion un cdec de compresin de los
analizados, recomendado para esta aplicacin, seguido por las conclusiones y
recomendaciones.

viii

OBJETIVOS

OBJETIVO GENERAL

Estudiar un cdec de compresin de audio que mejore la calidad de servicio de los
sonidos estetoscpicos para ser transmitidos sobre una red IP.

OBJETIVOS ESPECFICOS

Estudiar los valores de tiempo, frecuencia y potencia de sonidos
estetoscpicos.
Describir el funcionamiento de una red IP orientada a la transmisin de
sonido en tiempo real.
Estudiar los conceptos bsicos de compresin de audio.
Recopilar y comparar diferentes cdecs de compresin de audio utilizados
en transmisin en tiempo real.
Seleccionar y analizar un cdec de compresin para la transmisin de
sonidos estetoscpicos en tiempo real.

ix

TABLA DE CONTENIDO

Cesin de derechos.... iii
Autora.. iv
Introduccin.. v
Objetivos.. viii
Tabla de contenido. ix
Lista de figuras. xi
Lista de tablas.. xiii

1 Auscultacin.. 1
1.1 Auscultacin cardaca.. 1
1.1.1 Ruidos normales 1
1.1.2 Ruidos normales alterados... 3
1.1.3 Ruidos anormales.. 3
1.2 Auscultacin pulmonar.... 10
1.2.1 Sonidos normales.. 12
1.2.2 Sonidos adventicios.. 16

2 Compresin de datos.. 23
2.1 Algunas mediciones.... 24
2.2 Compresin de audio... 25
2.2.1 El sonido. 25
2.2.2 Digitalizacin del sonido.... 26
2.2.3 El odo humano.. 26
2.2.4 Mtodos convencionales de compresin 28
2.2.5 Compresin de audio con prdidas 29

3 Transmisin de sonido en tiempo real sobre una red IP 30
3.1 Criterios para evaluar el servicio VoIP.. 31
3.1.1 Requisito de servicio antes de los intentos de llamada... 31
3.1.2 Requisito de servicio durante la llamada... 31
3.1.3 Requisito de servicio al finalizar la llamada... 33
3.2 Protocolos para la transmisin de audio en tiempo real..... 33
3.2.1 Protocolo de transporte en tiempo real (RTP).. 34
x

4 Cdecs de compresin de audio... 36
4.1 Cdec ideal 36
4.2 Algunos cdecs considerados 37
4.2.1 G.711. 38
4.2.2 G.711.1.. 38
4.2.3 G.722. 39
4.2.4 G.723.1.. 39
4.2.5 G.726. 40
4.2.6 G.728. 40
4.2.7 G.729. 41
4.2.8 Speex. 41
4.2.9 Vorbis I. 42
4.3 Comparacin de las caractersticas de los cdecs de compresin
considerados para la transmisin de sonido en tiempo real. 42

5 Cdec de compresin Vorbis I.. 45
5.1 Descripcin general . 45
5.2 Funcionamiento. 46
5.3 Comparacin de sonidos estetoscpicos utilizando formatos wav y ogg. 47

Conclusiones 53
Recomendaciones .. 54
Bibliografa y referencias 55
Glosario de trminos mdicos... 58
Anexos. 60

xi

LISTA DE FIGURAS

Figura 1.1 Vlvulas del corazn y la direccin en que fluye la sangre en las
fases distole y sstole 2
Figura 1.2 Forma de onda del sonido de un corazn normal.. 3
Figura 1.3 Niveles de potencia del sonido de un corazn normal... 4
Figura 1.4 Espectrograma de un corazn normal.. 4
Figura 1.5 Ruidos cardacos anormales.. 5
Figura 1.6 Forma de onda del ruido anormal clic de eyeccin 5
Figura 1.7 Niveles de potencia del ruido anormal clic de eyeccin 6
Figura 1.8 Espectrograma del ruido anormal clic de eyeccin 6
Figura 1.9 Forma de onda del ruido anormal chasquido de apertura.. 7
Figura 1.10 Niveles de potencia del ruido anormal chasquido de apertura 8
Figura 1.11 Espectrograma del ruido anormal chasquido de apertura 8
Figura 1.12 Forma de onda del ruido anormal estenosis mitral 9
Figura 1.13 Niveles de potencia del ruido anormal estenosis mitral 9
Figura 1.14 Espectrograma del ruido anormal estenosis mitral 10
Figura 1.15 Forma de onda del ruido anormal defecto septal atrial. 11
Figura 1.16 Niveles de potencia del ruido anormal defecto septal atrial. 11
Figura 1.17 Espectrograma del ruido anormal defecto septal atrial. 12
Figura 1.18 Niveles de potencia del sonido normal bronquial...... 13
Figura 1.19 Espectrograma del sonido normal bronquial.. 14
Figura 1.20 Niveles de potencia del sonido normal traqueal. 15
Figura 1.21 Espectrograma del sonido normal traqueal 15
Figura 1.22 Niveles de potencia del sonido adventicio crujido. 17
Figura 1.23 Espectrograma del sonido adventicio crujido. 17
Figura 1.24 Niveles de potencia del sonido adventicio chillido. 18
Figura 1.25 Espectrograma del sonido adventicio chillido. 19
Figura 1.26 Niveles de potencia del sonido adventicio silbido.. 20
Figura 1.27 Espectrograma del sonido adventicio silbido.. 21
Figura 1.28 Niveles de potencia del sonido adventicio estridor de un beb... 21
Figura 1.29 Espectrograma del sonido adventicio estridor de un beb...... 22
Figura 2.1 (a) Umbral de sensibilidad del odo humano en un ambiente silencioso.
(b) Umbral de sensibilidad debido al efecto de enmascaramiento.. 27

xii

Figura 3.1 Protocolos para la transmisin de audio en tiempo real, segn el
modelo TCP/IP. 34
Figura 4.1 Diagrama de bloques del cdec ideal 39
Figura 5.1 Diagrama de bloques del algoritmo de Vorbis I 46
Figura 5.2 Comparacin de formas de onda de un corazn normal, utilizando
formatos wav y ogg a 8 kbits/s... 48
formatos wav y ogg a 16 kbits/s. 49
formatos wav y ogg a 24 kbits/s. 49
Figura 5.5 Comparacin de formas de onda del ruido anormal clic de eyeccin,
utilizando formatos wav y ogg a 8 kbits/s..... 50
utilizando formatos wav y ogg a 16 kbits/s... 50
utilizando formatos wav y ogg a 24 kbits/s... 51
Figura 5.8 Comparacin de densidad de potencia espectral de un corazn
normal, utilizando formatos wav y ogg a 8, 6 y 24 kbits/s.. 51
Figura 5.9 Comparacin de densidad de potencia espectral del ruido anormal
clic de eyeccin, utilizando formatos wav y ogg a 8, 6 y 24 kbits/s.. 52
Figura 5.10 Comparacin de densidad de potencia espectral del sonido normal
traqueal, utilizando formatos wav y ogg a 8, 6 y 24 kbits/s 52
Figura A.1 Esquema de la aplicacin de telemedicina, utilizando un cdec de
compresin de sonido.. 60

xiii

LISTA DE TABLAS

Tabla 4.1 Comparacin de las caractersticas relevantes de los cdecs de
compresin de audio para transmisin en tiempo real.. 43
Tabla C.1 Comparacin de las caractersticas de los sonidos cardacos.. 64
Tabla C.2 Comparacin de las caractersticas de los sonidos pulmonares 65

1

CAPTULO 1: AUSCULTACIN

La auscultacin es un mtodo utilizado para escuchar los ruidos o sonidos
generados por cierta parte del cuerpo que se desee examinar [1,2,4]. En principio,
la auscultacin se puede realizar directamente con el odo, pero habitualmente se
utiliza un estetoscopio o fonendoscopio, el cual se compone bsicamente de una
membrana y una campana, que permiten amplificar los sonidos agudos y graves,
respectivamente [2].

Los ruidos o sonidos corporales son generados por el flujo sanguneo o flujo de
aire, cuya interpretacin puede contener informacin de mucha importancia en el
diagnstico del estado de un paciente. De esta forma, se puede clasificar dos
principales tipos de auscultacin: auscultacin cardaca, y auscultacin pulmonar
[3].

En cada parte del cuerpo a examinar, existen los llamados focos de auscultacin,
los cuales son puntos principales donde se deben analizar los ruidos corporales [2].
A continuacin, se detallan dichos ruidos, analizando caractersticas afines a su
procesamiento digital, como la frecuencia, amplitud, y tiempo de duracin.

1.1 AUSCULTACIN CARDACA

1.1.1 RUIDOS NORMALES

Los ruidos o sonidos cardacos son generados por el cierre de las vlvulas del
corazn. Estos ruidos conforman lo que comnmente se conoce por latido del
corazn. El corazn est compuesto por cuatro vlvulas (tricspide, mitral,
pulmonar y artica) y cuatro cavidades (dos aurculas y dos ventrculos), mostradas
en la Figura 1.1. Un latido del corazn se compone de dos fases, llamadas distole
y sstole, que producen los dos ruidos cardacos normales R1 y R2 respectivamente
[3,5]. El proceso es el siguiente:

2

Distole: las aurculas se llenan de sangre y se contraen, impulsando la sangre
hacia los ventrculos a travs de las vlvulas tricspide y mitral. El cierre de estas
dos vlvulas genera el primer ruido cardaco normal R1 [2].

Figura 1.1 Vlvulas del corazn y la direccin en que fluye la sangre en las fases distole y sstole [2].

Sstole: el ventrculo derecho impulsa sangre a los pulmones para oxigenarlos,
regresa por la aurcula izquierda, pasa al ventrculo izquierdo y luego se distribuye
hacia el corazn y otras partes del cuerpo a travs de las vlvulas pulmonar y
artica, respectivamente. El cierre de estas dos vlvulas genera el segundo ruido
cardaco normal R2 [2].

En la Figura 1.2 se puede observar la grfica de la forma de onda del sonido
producido por un corazn normal
1
. Fcilmente se identifican dos componentes
principales, que sern detallados posteriormente, adems de dos ruidos adicionales
de pequea amplitud en relacin a los dos primeros.

En las Figuras 1.3 y 1.4 es posible comprobar de forma grfica que las
componentes principales de frecuencia de este sonido se encuentran por debajo de
los 500 Hz, teniendo picos prominentes en el rango de 100-300 Hz. Las frecuencias
por debajo de -75 dB/Hz (detallado con lnea verde) no son perceptibles al odo, de
acuerdo a varias pruebas realizadas en Matlab.

Rango de frecuencias del sonido cardaco normal: 50-300 Hz
Variacin de potencia entre el rango de frecuencia: -55 hasta -75 dB/Hz

1
Las Figuras desde la 1.2 hasta la 1.29, exceptuando a la Figura 1.5, son grficas obtenidas utilizando
Matlab, analizando sonidos pregrabados con extensin wav [10]. El cdigo utilizado se encuentra en el
Anexo B.
3

1.1.2 RUIDOS NORMALES ALTERADOS

Las alteraciones de los ruidos cardacos normales generan un cambio en la
intensidad de los ruidos, debido al instante en el cual se cierran las vlvulas o a la
velocidad con que se cierran. En el segundo ruido cardaco R2 tambin se puede
generar un desdoblamiento, que es la separacin de los ruidos generados por las
vlvulas pulmonar y artica, pero mantienen su rango de frecuencia y su tiempo de
duracin [3].

Figura 1.2 Forma de onda del sonido de un corazn normal [6].

1.1.3 RUIDOS ANORMALES

Los ruidos anormales son los siguientes:

Ruidos de llenado ventricular. Tercer ruido R3 y cuarto ruido R4: el tercer ruido es
un ruido de baja frecuencia localizado despus del segundo ruido normal R2. El
cuarto ruido es un ruido de baja frecuencia localizado justo antes del primer ruido
normal R1 [5]. Se pueden apreciar en la Figura. 1.5.
4

Figura 1.3 Niveles de potencia del sonido de un corazn normal [6].

Figura 1.4 Espectrograma de un corazn normal [6].

5

Clics sistlicos de eyeccin. Artico y pulmonar: son ruidos de alta frecuencia tipo
metlicos que aparecen despus del primer ruido R1 (Figuras 1.6, 1.7, 1.8).

Figura 1.5 Ruidos cardacos anormales
2
[5].

Figura 1.6 Forma de onda del ruido anormal clic de eyeccin [6].

En este tipo de anomala se presentan componentes de frecuencias ms altas que
en las de los latidos de un corazn normal. En la Figura 1.7 en el rango de 100-200
Hz es posible ver componentes de potencia mayores que el resto del espectro,
habiendo un rango de frecuencia de 50-400 Hz de acuerdo al espectrograma de la
Figura 1.8.

2
Los ruidos R1, R2, R3, y R4 tambin son denotados como S1, S2, S3, y S4, respectivamente.
6

Figura1.7. Niveles de potencia del ruido anormal clic de eyeccin [6].

Figura 1.8 Espectrograma del ruido anormal clic de eyeccin [6].

7

Rango de frecuencias del ruido anormal clic de eyeccin: 0-400 Hz

Chasquidos de apertura de las vlvulas A-V: mitral y tricspide: posee ruidos de alta
frecuencia que aparecen inmediatamente despus del segundo ruido (Figuras 1.9,
1.10, 1.11).

Rango de frecuencias del ruido anormal chasquido de apertura: 0-500 Hz

Figura 1.9 Forma de onda del ruido anormal chasquido de apertura [6].

Estenosis mitral: este tipo de patologa presenta componentes de alta frecuencia
antes del primer ruido incrementando su frecuencia hasta R1 (Figuras 1.12, 1.13,
1.14). Adems se presentan componentes de gran amplitud en el ruido R3. En las
Figuras 1.13 y 1.14 se puede observar que el rango de frecuencias que cubre este
tipo de sonido va desde 50 hasta 500 Hz.

8

Figura 1.10 Niveles de potencia del ruido anormal chasquido de apertura [6].

Figura 1.11 Espectrograma de ruido anormal chasquido de apertura [6].

9

Figura 1.12 Forma de onda del ruido anormal estenosis mitral [6].

Figura 1.13 Niveles de potencia del ruido anormal estenosis mitral [6].

10

Figura 1.14 Espectrograma del ruido anormal estenosis mitral [6].

Rango de frecuencias del ruido anormal estenosis mitral: 50-500 Hz

Defecto septal atrial: en este caso, existen componentes de frecuencia altas entre el
sonido R4 y el primer sonido R1, adems se puede apreciar un incremento en las
componentes de frecuencia de la apertura de los dos sonidos principales (Figuras
1.15, 1.16, 1.17). En las Figuras 1.16 y 1.17 es posible ver que el rango de
frecuencias se encuentra entre 50 y 350 Hz.

Rango de frecuencias del ruido anormal defecto septal atrial: 50-350 Hz

1.2 AUSCULTACIN PULMONAR

Dentro de los sonidos obtenidos utilizando un estetoscopio con propsitos de medir
la condicin de un paciente relacionado a su salud respiratoria se pueden clasificar
en sonidos normales y adventicios.
11

Figura 1.15 Forma de onda del ruido anormal defecto septal atrial [6].

Figura 1.16 Niveles de potencia del ruido anormal defecto septal atrial [6].

12

Figura 1.17 Espectrograma de ruido anormal defecto septal atrial [6].

1.2.1 SONIDOS NORMALES

Las caractersticas de los sonidos normales dependen del lugar en donde se est
ubicando el diafragma del estetoscopio, ya que debido a la composicin anatmica
de la parte torcica, el sonido que viaja a travs de los pulmones hacia la superficie
del cuerpo puede ser afectado por las capas que forman los tejidos, msculos,
cartlagos y huesos, creando una alteracin como lo hara un filtro. Es por esto que
para realizar un diagnstico de la condicin respiratoria de una persona se toman
muestras desde la superficie de la caja torcica al igual que en la trquea [8].

Sonidos normales pulmonares: para que un sonido obtenido desde el rea donde
se encuentran ubicados los pulmones sea diagnosticado normal es necesario que
se encuentre dentro de la banda de 100-1000 Hz [7]. Las componentes bajas de
este sonido se dan debido a la ausencia de niveles acsticos agudos. Una muestra
tomada desde esta rea es afectada por las paredes del pecho y los tejidos,
actuando como un filtro pasa bajas con una frecuencia de corte de
aproximadamente 1500 Hz, y la energa sonora cae rpidamente entre los 100 y
13

200 Hz, como se puede observar en la Figura 1.18. Dentro de este rango tambin
se encuentran los sonidos producidos por los msculos respiratorios y por el
corazn, a frecuencias entre 200 y 250 Hz, los mismos que no pueden ser
apreciados con facilidad en las grficas junto a componentes de sonidos
respiratorios, ya que se sobreponen debido a su mayor potencia. Adems, existe un
retraso de fase complicado por un nmero de factores como lo pueden ser las
resonancias torcicas, las cuales indican reflexiones internas en frecuencias bajas y
el potencial de caminos de propagacin mltiples [8].

Utilizando sonidos de muestra para el anlisis de la teora, se puede observar que
un sonido normal bronquial tomado en el rea donde se encuentra ubicados los
pulmones, posee niveles significativos de potencia en un rango de frecuencias
desde 0 hasta 1000 Hz. Como se puede observar en las Figuras 1.18 y 1.19, los
niveles de potencia empiezan a ser imperceptibles a partir de los 1000 Hz.

Rango de frecuencias del sonido normal bronquial: 0-1000 Hz

Figura 1.18 Niveles de potencia del sonido normal bronquial [6].

14

Figura 1.19 Espectrograma del sonido normal bronquial [6].

Sonidos normales traqueales: cuando el sonido es escuchado desde la trquea es
menos filtrado y adems se puede notar un aumento en el espectro de hasta 1200
Hz [9], permitiendo un rango desde menos de 100 hasta 3000 Hz. Debido a que el
nmero de capas y obstculos que se encuentran entre el pasaje de la trquea y la
superficie del cuerpo es menor, la informacin que se puede recolectar en esta rea
es de mayor detalle y nitidez. La principal energa de los sonidos traqueales se
extiende desde 50 Hz hasta 1000 Hz, con una cada de potencia pronunciada por
una frecuencia de corte de 850 Hz [8], la cual es mayor en contraste al rango de
100-250 Hz que se encuentra en los sonidos pulmonares. Este lugar de medicin
es ideal para poder localizar la presencia de ronquidos.

En las Figuras 1.20 y 1.21 se puede observar un cambio en el rango de frecuencias
de un sonido normal tomado desde la ubicacin de la trquea, obteniendo un rango
de frecuencias desde 0 hasta 1600 Hz. Los niveles de potencia ya no son
perceptibles a partir de los 1600 Hz.

15

Figura 1.20 Niveles de potencia del sonido normal traqueal [6].

Figura 1.21 Espectrograma del sonido normal traqueal [6].

16

Rango de frecuencias del sonido normal traqueal: 0-1600 Hz

1.2.2 SONIDOS ADVENTICIOS

Los sonidos adventicios son los caracterizados por contener componentes que no
estn dentro de los rangos normales. Seran conocidos como los sonidos
producidos a raz de la presencia de infecciones, bloqueos y enfermedades
respiratorias relacionadas. Estos sonidos muestran componentes con mayor
energa en frecuencias fuera del rango normal. Estos sonidos son conocidos como
crujidos, chillidos, silbidos, ronquidos y estridor. Cada uno con caractersticas
diferentes en el espectro de frecuencia, lo que da paso a que un anlisis
computacional de estos sonidos sea una forma acertada de identificacin de la
enfermedad [6,7,8].

Por ejemplo, la presencia de asma en un paciente genera un incremento de
componentes en altas frecuencias en los llamados sonidos bronquiales, los cuales
tienen componentes de hasta 600-1000 Hz [9]. Un paciente con enfisema presenta
un decremento y variabilidad ms largo de la amplitud de transmisin en
frecuencias bajas. Una edema pulmonar cardiognica incrementa la amplitud del
sonido transmitido en las paredes del pecho en una forma lineal [8].

Crujidos: son sonidos que se encuentran frecuentemente en enfermedades cardio-
respiratorias. Su duracin es menor a 20 ms y su espectro de frecuencias va desde
100 hasta 2000 Hz [9]. Pansterkamp [8] describe estos sonidos como explosiones
miniaturas escuchadas ms en la inhalacin que en la exhalacin. La parte inferior
de los pulmones es la fuente ms rica en este sonido.

En las Figuras 1.22 y 1.23 se obtienen rangos de frecuencias desde 0 hasta 1500
Hz. Los niveles de potencia empiezan a ser imperceptibles a partir de los 1500 Hz.

Rango de frecuencias del sonido adventicio crujido: 0-1500 Hz

17

Figura 1.22 Niveles de potencia del sonido adventicio crujido [6].

Figura 1.23 Espectrograma del sonido adventicio crujido [6].

18

Chillido: es un silbido corto en la inhalacin que ocurre en enfermedades
pulmonares restrictivas. Este sonido aparece ocurrir siempre junto con los crujidos.
Estos sonidos raramente exceden los 400 ms de duracin

[9].

En las Figuras 1.24 y 1.25 se obtiene un rango de frecuencias desde 0 hasta 1100
Hz. Los niveles de potencia empiezan a caer a partir de los 1100 Hz. En la Figura
1.25 es posible ver las componentes en donde se encuentran los chillidos antes del
segundo 2 y despus del segundo 4.

Rango de frecuencias del sonido adventicio chillido: 0-1100 Hz

Figura 1.24 Niveles de potencia del sonido adventicio chillido [6].

Silbido: es un ruido que ocurre cuando existe una obstruccin de las vas
respiratorias, y es un parmetro para medir la severidad de asma. Son sonidos
pulmonares musicales, tambin llamados continuos, debido a que su duracin es
ms larga que la de los crujidos. Estos sonidos no se extienden ms que 250 ms.
Su forma es una sinusoide de rango de frecuencias se extiende desde menos que
100 Hz hasta ms de 1000 Hz

[8]. Pasterkamp sugiere que el silbido produce
19

componentes en frecuencias entre 350-950 Hz y en cambio, Gavriely menciona que
las componentes de este sonido se encuentran entre 80-1600 Hz. Su frecuencia
dominante se encuentra por encima de los 100 Hz alrededor de los 400 Hz

[9]. Este
tipo de ruido se encuentra presente en el asma, estenosis y en la aspiracin de un
cuerpo extrao.

Figura 1.25 Espectrograma de sonido adventicio chillido [6].

En las Figuras 1.26 y 1.27 se tienen resultados de un paciente infante con silbidos,
se observa un rango de frecuencias de 0-1200 Hz, con una duracin de 250 ms por
silbido. Los niveles de potencia ya no son perceptibles a partir de los 1200 Hz.

Rango de frecuencias del sonido adventicio silbido: 0-1200 Hz

Ronquido: los ronquidos son ruidos comnmente escuchados al dormir. Se sugiere
que son producidos por vibraciones en las paredes de la orofaringe. Estos
demuestran una intensidad mayor a -50 dB y contienen una frecuencia fundamental
entre 30 y 250 Hz [9]. Son repeticiones de estructuras sonoras que estn
relacionadas a secreciones y colapsos en las vas respiratorias [8]. Descritos
20

temporalmente, son series de sinusoides atenuadas rpidamente con una duracin
menor a 100 ms.

Figura 1.26 Niveles de potencia del sonido adventicio silbido [6].

Rango de frecuencias de los sonidos adventicios ronquido: 0-1000 Hz

Estridor: son silbidos de larga duracin usualmente producidos por la obstruccin
de la laringe o la trquea. Tienen un pico prominente en 1000 Hz. Este sonido
puede ser escuchado cerca del paciente sin la necesidad de utilizar un
estetoscopio. La envolvente del pico y la complejidad del espectro dependen de la
enfermedad. Una obstruccin fija generar un pico constante y una obstruccin
dinmica modular el pico en frecuencia.

En las Figuras 1.28 y 1.29 es posible observar un caso diferente a los sonidos
previos, la muestra se habra tomado a un paciente infante de pocos meses de
edad. Las componentes de frecuencia se encuentran en un rango mucho ms
amplio de lo mencionado en otros casos siendo desde 100-1300 Hz con una
componente prominente en 1000 Hz. Cada componente de esta enfermedad tiene
una duracin de 700 ms.
21

Figura 1.27 Espectrograma del sonido adventicio silbido [6].

Figura 1.28 Niveles de potencia del sonido adventicio estridor de un beb [6].

22

Figura 1.29 Espectrograma de sonido adventicio estridor de un beb [6].

Rango de frecuencias de los sonidos adventicios estridor: 0-1300 Hz

El Anexo C muestra las Tablas C.1 y C.2, las cuales brindan una comparacin de
las caractersticas de inters de los sonidos cardacos y pulmonares,
respectivamente. No comprenden todas las anomalas que se pueden presentar en
un paciente, pero constan las ms comunes.

Como resultado de esta comparacin, se obtienen los valores mximos y mnimos
de sus componentes en frecuencia, su ancho de banda y su tiempo de duracin. En
la Tabla C.2 se han aadido valores como el tiempo de respiracin.

23

CAPTULO 2: COMPRESIN DE DATOS

Aunque el tema de compresin de datos parezca netamente tcnico, en realidad
nace de una necesidad del ser humano. Desde hace ya ms de 3 siglos, el hombre
ha intentado transmitir informacin ahorrando recursos, como es el caso de Samuel
Morse y su conocida Clave Morse. Otro ejemplo de compresin de datos es el
alfabeto Braille, ideado por el francs Louis Braille y pensado para personas ciegas
[16]. De esta manera, se puede observar a la compresin de datos como una
necesidad natural del hombre interesado en las comunicaciones.

Se define a la compresin de datos como el proceso de convertir los datos de
entrada en datos de salida de menor tamao. Los datos de entrada se conocen
como datos fuente o datos originales, y los datos de salida como datos comprimidos
o simplemente salida [16].

Actualmente existe una infinidad de mtodos para comprimir datos, y de acuerdo al
tipo de datos, se utilizan distintos cdecs de compresin que brindan diferentes
resultados, pero todos los cdecs se basan en el mismo principio: remover la
redundancia de los datos originales [16].

Existen muchos algoritmos que comprimen los datos de forma eficaz, pero si se
analizan estos algoritmos, y se descubre una forma de comprimir aun ms a la
informacin, muchas de las veces se llega a un aumento considerable de
procesamiento, lo cual se ve reflejado en ms ciclos de mquina y afecta al tiempo
de compresin [16], dando un salto hacia atrs en lo que respecta a la optimizacin
de la compresin de datos.

Debido a que la compresin de datos se basa en la eliminacin de redundancia,
existe un lmite hasta donde un archivo puede ser comprimido, esto ocurre cuando
todas las redundancias posibles han sido removidas.

Existen algunos mtodos de compresin que eliminan informacin para obtener una
mejor compresin. Cuando se descomprime, el resultado no es igual a los datos
originales, pero si la prdida de informacin es pequea, sta ser imperceptible.
Este tipo de compresin se utiliza especialmente en imgenes, vdeos o sonidos. La
24

compresin sin prdidas es muy utilizada en archivos de texto o programas de
computacin, donde no se pueden eliminar bits de informacin [12,16].

Cuando se utiliza el mismo algoritmo para la codificacin y decodificacin de datos,
se conoce como compresin simtrica. Se utiliza compresin asimtrica cuando
tanto la codificacin como la decodificacin tienen diferentes prioridades [16], como
por ejemplo en archivos de audio, donde el decodificador debe ser muy rpido,
capaz de descomprimir el archivo y reproducirlo en tiempo real.

2.1 ALGUNAS MEDICIONES

Para evaluar el rendimiento de un compresor de datos, hay que definir algunas
mediciones.

Relacin de compresin: es la relacin entre el tamao de los datos de salida y el
tamao de los datos de entrada.

Rclocion Jc comprcsion =
Iomoo Jc los Jotos Jc soliJo
Iomoo Jc los Jotos Jc cntroJo

Un valor de 1 significa que los datos de salida son idnticos a los datos de entrada,
y no se ha encontrado redundancia en los datos de entrada. Un valor de 0.7
significa que el archivo comprimido ocupa el 70% del tamao que ocupaba el
archivo original [16].

Factor de compresin: es el inverso de la relacin de compresin.

Foctor Jc comprcsion =
Iomoo Jc los Jotos Jc cntroJo
Iomoo Jc los Jotos Jc soliJo

En este caso, un valor superior a 1 significa que el archivo ha sido comprimido. Este
valor es ms familiar para los usuarios debido a que mientras el factor de
compresin es mayor, significa que los datos tienen mejor compresin [16].

(2.1)
(2.2)
25

2.2 COMPRESIN DE AUDIO

Existen dos caractersticas importantes en el momento de analizar la compresin de
audio: (1) puede ser con prdidas, y (2) necesita un decodificador muy rpido [16].

Un archivo de audio, al igual que un archivo de imagen o vdeo, puede perder un
poco de informacin sin degradar significativamente su calidad, de modo que
existen cdecs de audio con prdidas y sin prdidas. Pero a diferencia de un
archivo de texto, un usuario muchas veces querr acceder a un archivo de audio sin
necesidad de descomprimirlo y almacenarlo nuevamente. Esta es la razn de que
la mayora de cdecs de audio sean asimtricos. El audio a menudo es almacenado
en su forma codificada, y debe ser decodificado en tiempo real para que un usuario
pueda acceder a l [16].

2.2.1 EL SONIDO

Al sonido se lo puede definir desde dos puntos de vista: intuitivamente y
cientficamente. Intuitivamente se puede decir que el sonido es la sensacin que
detecta nuestros odos y que es interpretada por nuestro cerebro. Cientficamente el
sonido es una perturbacin fsica dada en un medio, y se propaga a travs del
medio gracias al movimiento de los tomos y molculas [16].

Como cualquier otra seal, el sonido tiene tres caractersticas principales:
velocidad, amplitud y frecuencia. La velocidad del sonido depende del medio y la
temperatura por donde se propaga. La velocidad del sonido de 343.8 m/seg se da
cuando el sonido se propaga en el aire, a nivel del mar y a una temperatura de
20C [16].

La amplitud es lo que se percibe como sonidos fuertes o dbiles. Se experimenta el
sonido cuando las molculas de aire golpean el diafragma del odo y aplican
presin sobre l. La sensibilidad del odo humano hacia el nivel de sonido depende
tambin de la frecuencia [12,16].

26

2.2.2 DIGITALIZACIN DEL SONIDO

El proceso de digitalizacin del sonido consta de tres etapas principales: muestreo,
cuantificacin y codificacin [11]. Mientras se toman ms muestras del sonido
original, la calidad del sonido digital ser mayor, pero as mismo el archivo ser
mayor. La solucin a este problema la da la frecuencia de Nyquist, que es el doble
de la frecuencia mxima del sonido [16].

Debido a que el odo humano es sensible en los rangos desde 16-20 Hz hasta
20000-22000 Hz [16], un sonido digital de alta fidelidad deber ser muestreada a
una frecuencia un poco mayor al doble de 22000 Hz, es decir 44100 Hz [12,16]. Si
algn sonido es muestreado a una frecuencia menor a la mencionada, el resultado
estar distorsionado, mientras que al utilizar una frecuencia mayor, su
reconstruccin no genera ninguna mejora en el sonido [16].

Ya que se tiene el nmero de muestras a tomar de un sonido, es necesario
establecer el tamao de cada muestra (cuantificacin). En la prctica, se utilizan
tamaos de 8-bits y 16 bits, y algunas tarjetas de sonido de alta calidad utilizan
muestras de hasta 32-bits [16].

La diferencia se puede identificar en el siguiente ejemplo. Supngase que el sonido
de mayor amplitud genera 1 voltio. Al utilizar 8-bits se tendra 256 niveles de voltaje,
y cada nivel tendra 0.004 voltios aproximadamente. Esto quiere decir que cualquier
sonido que est por debajo de este nivel se procesar como silencio. A diferencia
de si se utilizan 16-bits, el nivel ms bajo sera 15 microvoltios aproximadamente, lo
cual permitira distinguir sonidos mucho ms bajos que 4 milivoltios. Utilizando 16-
bits se mejora la calidad del sonido, pero se estara utilizando el doble del tamao
de lo que se podra comprimir con 8-bits. Sin embargo, utilizando 8-bits se
obtendra una seal reconstruida de baja calidad [16].

2.2.3 EL ODO HUMANO

La sensibilidad del odo humano no es uniforme, lo cual permite establecer un
umbral de sensibilidad del odo [12,16]. La Figura 2.1 (a) muestra este umbral de
27

sensibilidad. Cabe sealar que la voz humana tiende a estar en el rango de 600 Hz
a 6000 Hz [12].

Figura 2.1 (a) Umbral de sensibilidad del odo humano en un ambiente silencioso. (b) Umbral de
sensibilidad debido al efecto de enmascaramiento [12].

La existencia de un umbral de sensibilidad permite intuir en un cdec de
compresin con prdidas. Bsicamente se tendra que eliminar el sonido por debajo
del umbral. Ya que se habla de la frecuencia, el codificador debe analizar el
espectro del sonido a ser comprimido en cada instante. Si la frecuencia est por
debajo del umbral, el dato puede ser eliminado [12].

Adems de esta caracterstica, un compresor de audio debe considerar el
enmascaramiento de frecuencia y el enmascaramiento temporal, lo que se conoce
como codificacin perceptual [12,16].

El enmascaramiento de frecuencia se da cuando un sonido que normalmente se
podra escuchar, es enmascarado por otro sonido ms fuerte, a una frecuencia
cercana. Un buen cdec de compresin debe ser capaz de identificar este tipo de
casos, y eliminar los sonidos que se encuentran enmascarados, ya que de todas
formas no se escucharan [12,16].

El enmascaramiento temporal ocurre cuando un sonido fuerte es precedido o
seguido por otro sonido dbil a una frecuencia igual o cercana. Si el intervalo de
tiempo entre estos dos sonidos es corto, el sonido dbil no va a ser audible. En este
caso el sonido dbil podra ser eliminado [12,16].

28

2.2.4 MTODOS CONVENCIONALES DE COMPRESIN

Existen varios mtodos convencionales de compresin de audio. Algunos cdecs
sin prdidas pueden ser tiles, pero depende del tipo de sonido a comprimir. Los
mtodos que se analizarn brevemente son los mtodos RLE (run-length
encoding), mtodos estadsticos y mtodos basados en diccionario [16].

Un mtodo RLE se basa en el principio de que si un dato x ocurre n veces
consecutivas, se almacenar como xn. Aplicado a los sonidos, podra ser eficiente
al comprimir un sonido uniforme y repetitivo si se utilizan 8-bits por muestra, ya que
la variacin entre muestra y muestra sera de 4 milivoltios. Sin embargo, al utilizar
16-bits, este mtodo se tornara ineficiente, ya que no se encontraran muchos
datos consecutivos repetidos [16].

Un mtodo estadstico asigna distintos tamaos de cdigo a cada caracter (en este
caso a cada muestra). Los caracteres que tengan mayor probabilidad de ocurrencia
son asignados por cdigo de menor longitud, y los caracteres que tengan menor
probabilidad de ocurrencia son asignados con cdigo de mayor longitud, de manera
que se optimice el nmero de bits en cada caracter [18]. Un archivo de audio
extenso por lo general tendr una distribucin plana, de modo que es poco probable
que existan muestras cuya probabilidad vare significativamente frente a las otras
muestras [16], de modo que este mtodo no siempre sera eficiente aplicndolo a
un archivo de audio.

Un mtodo basado en diccionario busca frases repetidas dentro del archivo a
comprimir. Este mtodo es poco eficiente al comprimir audio, debido a que,
existirn frases repetidas cuyas muestras varen analgicamente en muy poco
voltaje, y debido a la resolucin del ADC (conversor anlogo-digital), pertenezcan a
diferentes niveles de cuantificacin [16]. Esto reducira notoriamente la capacidad
de compresin del cdec.

29

2.2.5 COMPRESIN DE AUDIO CON PRDIDAS

Frente a los mtodos previamente expuestos, es mucho ms eficaz utilizar mtodos
con prdidas al comprimir sonidos, eliminando datos que el odo humano no pueda
percibir. Estos mtodos se basan en que una seal analgica, al ser digitalizada,
pierde informacin. Si cuidadosamente se elimina ms datos, al ser reproducido y
comparado con el archivo original, la diferencia no se distinguira [12,16].

Existen dos mtodos propuestos para este tipo de compresin: compresin de
silencio y companding (compressing/expanding).

La compresin de silencio es una adaptacin del mtodo RLE al sonido. Este
mtodo se basa en que existen archivos de audio que contienen largos perodos de
sonido con volumen bajo, que respondern eficazmente a la compresin de
silencio. Este mtodo requiere un parmetro controlado por usuario que especifique
la muestra de mayor tamao a ser eliminada. Adems, se requieren dos parmetros
adicionales, que no necesariamente deben ser controlados por el usuario. El
primero especifica el nmero mnimo de muestras consecutivas a eliminar, y el
segundo especifica el nmero mnimo de muestras consecutivas audibles que
determinarn la finalizacin del silencio [16].

Companding utiliza el hecho de que se necesita ms precisin de muestras en los
sonidos suaves (de baja amplitud) que en los sonidos fuertes (de mayor amplitud).
Normalmente, un ADC convierte el voltaje analgico en varios niveles de voltaje de
igual magnitud, es decir lo hace de forma lineal. Un mtodo de compresin basado
en companding examina cada muestra de sonido y aplica una ecuacin no lineal
para determinar los niveles de voltaje y asignar bits. Este mtodo no est basado
solamente en ecuaciones, sino que pueden ser distribuciones logartmicas, como es
el caso de las leyes A y , que son estndares internacionales [16].

30

CAPTULO 3: TRANSMISIN DE SONIDO EN TIEMPO REAL SOBRE UNA RED
IP

En el momento que se quiere realizar la transmisin de datos que contenga
informacin acerca de sonidos, se puede optar por dos caminos: enviar los datos
previamente almacenados y recibirlos luego de una espera larga en relacin al
instante en que se inici la transmisin; o transmitir y recibir los paquetes con una
demora relativamente baja, haciendo la recepcin instantnea o tambin llamado
transmisin en tiempo real.

En el caso de la transmisin de los sonidos estetoscpicos, se concibe la idea de
que existe una transmisin en tiempo real, la cual permite dar un diagnstico
inmediato luego de que se est analizando la condicin del paciente mediante el
respectivo examen. Lo ms importante en este tipo de aplicacin es, en el mejor de
los casos, recibir la informacin completa del examen auditivo, pero como eso no es
muy comn en la realidad por causa de fenmenos que alteran la calidad y
contenido de la informacin, es importante tomar en cuenta los parmetros que
puedan presentar problemas en la recepcin de la informacin, para decidir el tipo
de compresor que se puede utilizar y que pueda ayudar de manera eficiente a dar
un diagnstico adecuado.

Una aplicacin recientemente utilizada y que se encuentra en auge, es la
transmisin de Voz sobre IP, o tambin llamado VoIP. El principio de esta
aplicacin consiste en la capacidad de establecer una conversacin telefnica
sobre una red IP con similares caractersticas y calidad a una conversacin
realizada sobre los circuitos de una central telefnica.

Este proyecto se puede familiarizar con el presente tema, teniendo en cuenta el
ancho de banda, tasa de muestreo y calidad de servicio. Se inicia con las
consideraciones ya establecidas para este sistema y su adaptacin para la
aplicacin de transmisin de sonidos estetoscpicos sobre una red IP, basndose
en las caractersticas tcnicas de sonidos cardacos y respiratorios tratados en el
captulo 1.

31

3.1 CRITERIOS PARA EVALUAR EL SERVICIO VOIP

Segn Khasnabish, los parmetros y criterios para poder calificar una conversacin
de Voz sobre IP se enmarcan en: requisitos de servicio antes de los intentos de
llamada, requisitos de servicio durante la llamada y requisitos de servicio al finalizar
la llamada [17].

3.1.1 REQUISITOS DE SERVICIO ANTES DE LOS INTENTOS DE LLAMADA

Antes de empezar una llamada se debe contar con la disponibilidad de recursos de
cmputo y de red para dar cabida a los pedidos de llamada. Esto incluye recolectar
informacin en la identificacin de las partes, y procesar esta informacin para
determinar la mejor ruta para iniciar una sesin, utilizando el Protocolo de Tiempo
Real (RTP), el Protocolo de Datagrama de Usuario (UDP) y el Protocolo de Internet
(IP). El tiempo total que toma establecer una llamada es medido desde el momento
en que el ltimo dgito de la parte inicial se ha terminado de ingresar.

De acuerdo a las recomendaciones de la UIT-T E.721 (Unin Internacional de
Telecomunicaciones), el retraso de la seal de contestacin deber ser 750 ms
para llamadas locales, 1.5 segundos para llamadas de larga distancia y 8 segundos
para llamadas de larga distancia internacional. Este tipo de requerimientos estn
presentes para poder simular un ambiente de llamada similar al que se tiene
cuando se utiliza el telfono conectado a la red de telefona pblica. No
necesariamente seran estos aplicables al ambiente requerido para la transmisin
de sonidos estetoscpicos.

3.1.2 REQUISITOS DE SERVICIO DURANTE LA LLAMADA

Una vez que se ha establecido una sesin VoIP, la seal puesta en paquetes
deber ser entregada desde la fuente al destino en tiempo real sin comprometer la
integridad de la seal. Esto es hablando en un sistema ideal, puesto que existen
varios factores que pueden alterar la seal y el desempeo de la transmisin. Los
32

parmetros relevantes de inters son la codificacin de voz, procesamiento, retraso
por envolvente, prdida de paquetes, buffering y estrategias de reconstruccin.
Todos estos parmetros contribuyen a un valor agregado a los problemas que
pueden existir dentro de una comunicacin. Es por esto que es necesario entender
a qu clase de comunicacin se va a enfrentar para priorizar los parmetros que se
quiere que afecten menos a la seal.

Dentro de las consideraciones y estndares, por ejemplo, para la codificacin G.711
en ambos extremos, el retraso por codificacin y procesamiento no deber exceder
el 15% del retraso de boca-a-odo. Cuando se utilizan mecanismos de codificacin
avanzados, por ejemplo para G.723 y G.729, el retraso en la red receptora o
emisora puede ser tan alto como el 30% de los 150 ms, y el presupuesto de retraso
para la red de transporte es reducido a 60 ms. Estos tipos de escenarios requieren
enlaces de alta velocidad en la red de trasporte y operarlos a tasas de utilizacin
bajas.

El tiempo requerido para transmitir un paquete de VoIP de 128 bytes (o una
muestra de 7 ms de G.711 o PCM (modulacin por pulsos codificados), de voz
codificada) en un enlace IP pasivo en una red WAN es [(128x8)/(128x10
5
)] u 8 ms.
Este valor de retraso puede ser 15 ms cuando el enlace se vuelve moderadamente
utilizado, y 50 ms cuando el enlace se vuelve altamente utilizado.

Para aliviar este problema, cualquiera de las siguientes tcnicas pueden ser
usadas: (a) reducir el tamao de los paquetes VoIP usando una muestra ms
pequea de voz y/o comprimir los encabezados RTP/UDP/IP utilizando las
recomendaciones sugeridas en RFC 2008 de IETF (Grupo de Trabajo en Ingeniera
de Internet); (b) usar IntServ de IETF para ofrecer una prioridad mayor de emisin
para paquetes de voz; (c) usar los enlaces IP WAN moderadamente rpidos para
aplicaciones VoIP, y peridicamente monitorear la utilizacin de este enlace para
poder enrutar las llamadas de VoIP por la ruta menos utilizada; y (d) utilizar enlaces
de capacidad alta cuando informacin de trfico de tiempo real y tiempo no real es
transmitida sobre el mismo enlace.

El retraso de la propagacin de la seal depende de la distancia fsica entre las dos
partes y del medio de transmisin. El estndar G.114 de la UIT-T establece que el
33

retraso en el transporte de voz de una va debe de ser por debajo de 150 ms para
una comunicacin de buena calidad en tiempo real [11].

3.1.3 REQUISITOS DE SERVICIO AL FINALIZAR LA LLAMADA

Despus de que una sesin VoIP es completada, la Bitcora de Llamada y el
Rcord Detallado de Llamada (CDR) deben ser mantenidos. El CDR debe capturar
y guardar correctamente la anatoma de la llamada.

Estas recomendaciones pueden ser adaptadas para la transmisin de sonido sobre
IP. El envo de sonidos estetoscpicos no demandara un retraso bajo en la
transmisin, pero s una calidad de recepcin superior a la que se puede concebir
en la transmisin de Voz sobre IP. En el caso que se pierda un segmento del
sonido en una conversacin de voz, se pueden implementar tcnicas de
interpolacin para poder reconstruir ese sonido, o rellenarlo de tal forma que solo se
perciba una baja insignificante en la calidad de sonido. Sin embargo, en la
transmisin de sonidos estetoscpicos, el relleno o retransmisin de la informacin
debe ser analizado cuidadosamente, de forma que no cause confusin en el
momento del anlisis de los sonidos, y que se puede reflejar en un mal diagnstico.

3.2 PROTOCOLOS PARA TRANSMISIN DE AUDIO EN TIEMPO REAL

El servicio de VoIP utiliza protocolos RTP/UDP/IP [11]. El protocolo TCP (Protocolo
de Control de Transmisin) es raramente utilizado en transmisin de audio en
tiempo real, porque un error en un paquete y una retransmisin del mismo podran
introducir un espacio demasiado grande en el sonido [12]. En la Figura 3.1 se
resumen los protocolos a utilizar, segn el modelo TCP/IP.

34

Figura 3.1 Protocolos para la transmisin de audio en tiempo real, segn el modelo TCP/IP.

3.2.1 PROTOCOLO DE TRANSPORTE EN TIEMPO REAL (RTP)

Este tipo de protocolo es utilizado en aplicaciones tanto de audio como de
videoconferencia. Su funcin es el de multiplexar varios flujos de datos en tiempo
real en un slo flujo de paquetes UDP. La cabecera de cada datagrama RTP
contiene una marca de tiempo (timestamp) que determina el orden en el cual la
carga til debe de ser reorganizada en el receptor. Adems, esta cabecera
determina el tipo de codificacin del sonido para este caso.

En la acumulacin de informacin, dos tercios de cada datagrama es informacin
de cabecera. Se concluye as, que el consumo real de ancho de banda es mayor de
lo que parece.

Para poder calcular el tamao de la carga til se puede utilizar la siguiente frmula
que relaciona la velocidad del cdec, el retardo en datagrama y el tamao de la
carga til.

Iomoo Jc corgo til (cn Bytcs) =
IclociJoJ Jcl coJcc [
bits
s
x rctorJo cn Jotogromo (ms)
8 _
bits
bytc
] x 1uuu [
ms
s

Por ejemplo, a 64 kbit/s, un datagrama de voz a 20 ms implica que el lado del
emisor produzca un datagrama de 160 bytes de carga til cada 20 ms [12]. En el
caso del sonido analizado correspondiente a un corazn normal, su tiempo de
(3.1)
35

duracin es de 500 ms y si se toma una tasa de transmisin de 64 kbits/s se tendra
como resultado un datagrama de 4000 bytes de carga til cada 500 ms. Para el
caso del sonido respiratorio normal bronquial, con un tiempo de 1000 ms, se
obtiene como resultado 8000 bytes de carga til cada 1 segundo.

Tambin existe el Protocolo de Control de Transporte en Tiempo Real (RTCP), el
cual va de la mano con el RTP, a diferencia que este segundo maneja
retroalimentacin, sincronizacin e interfaz de usuario, pero no porta ningn tipo de
datos.

36

CAPTULO 4: CDECS DE COMPRESIN DE AUDIO

Cuando se habla de transmisin de sonido sobre una red IP, es necesario vincular este
tema con la compresin y codificacin del sonido a transmitirse. Esto es porque el
tamao del sonido debe ser reducido para que sea ms fcil de transmitir, cancelando
las componentes que no son necesarias, como por ejemplo el ruido blanco, y poder
determinar la mejor forma de enviarlo por medio de datagramas sin tener prdidas
significativas.

4.1 CDEC IDEAL

Con la descripcin de los captulos anteriores, es posible reunir algunas caractersticas
que determinaran a un cdec ideal para la transmisin de sonidos estetoscpicos
sobre una red IP. En base a estas caractersticas se realizar la eleccin del cdec, el
cual debe satisfacer de mejor forma las necesidades expuestas a continuacin. El
diagrama de bloques del cdec ideal se muestra en la Figura 4.1.

El cdec debe procesar hasta una frecuencia de 2000 Hz, debido a los datos
observados en los sonidos respiratorios (los cardacos son de menor
frecuencia).
El cdec debe soportar una tasa de muestreo mnima de 4 kHz (frecuencia de
Nyquist).
Con una frecuencia de muestreo de 4 kHz se obtendrn 4000 muestras por
cada segundo, es decir, se va a tomar muestras cada 250 s.
El algoritmo utilizado por el cdec deber realizar una transformacin a sus
componentes en frecuencia, debido a que la informacin se concentra en
intervalos de frecuencia cortos, permitiendo la eliminacin de armnicas
imperceptibles por el odo humano.
Si se utilizan 8 bits por muestra, se obtendran 4000 x 8 = 32000 bits/s.
37

El mayor tiempo de duracin se presenta en los sonidos respiratorios, siendo
1800 ms, lo cual sera representado por 7200 muestras, que equivaldran a
7200 x 8 = 57600 bits/s.
Si se utilizan 16 bits por muestra, se obtendran 4000 x 16 = 64000 bits/s.
Para los 1800 ms, se necesitaran 7200 x 16 = 115200 bits/s.
El retraso permitido por el cdec no debe superar significativamente los 150 ms,
en base al estndar G.114 de la UIT-T.

Figura 4.1 Diagrama de bloques del cdec ideal.

4.2 ALGUNOS CDECS CONSIDERADOS

Existen muchos tipos de cdecs de compresin para sonido, pero solo algunos se han
considerado como una opcin debido a que deben ser aplicables a la transmisin en
tiempo real. Dentro de los estndares de la UIT se pueden observar recomendaciones
como G.711, G.723.1, G.728, etc. que son muy utilizados y sern expuestos
brevemente. Adems, se han considerado dos cdecs de compresin basados en
cdigo abierto, cuya flexibilidad de parametrizacin los hace interesantes para su
anlisis.

38

4.2.1 G.711

El cdec G.711 es un cdec de compresin de audio para seales de frecuencias que
caracterizan a la voz. Este cdec fue lanzado en 1972 y es todava aplicado en
estndares de videoconferencia como H.320 y H.232. Debido a que utiliza 8 bits por
muestra, es suficiente para poder ser utilizado en aplicaciones de telefona. Este cdec
utiliza tcnicas de modulacin por pulsos codificados (PCM) junto con dos algoritmos
de compresin logartmicos, la Ley- utilizado en Norte Amrica y Japn, y la Ley-A
utilizado en Europa y el resto del mundo [19].

Frecuencia de Muestreo: 8 kHz
Frecuencia mxima de la seal: 4000 Hz
Tasa de bits: 64 kbits/s
Latencia (Retraso): 1 ms

4.2.2 G.711.1

El cdec G.711.1 es una extensin del cdec G.711 lanzada en 2008, permitiendo
muestrear seales a 16 kHz, denominado como banda ancha y siendo tambin
compatible con 8 kHz, denominado como banda angosta. Este cdec utiliza una
estructura de codificacin de tres capas: modulacin por codificacin de pulso (PCM)
de la banda inferior incluyendo la retroalimentacin de ruido, extensin embebida de
PCM con asignacin adaptativa de bits para mejorar la calidad de la capa basada en la
banda inferior (0-4000 Hz), y codificacin de cuantificacin de vector para la banda
superior (4000-8000 Hz) basado en la transformacin discreta de coseno modificada
(MDCT) [20].

Frecuencia de Muestreo: 16 kHz, 8 kHz
Frecuencia mxima de la seal: 8000 Hz, 4000 Hz
Tasa de bits: 80 y 90 kbits/s (para 16kHz), 64 y 80 kbits/s (para 8 kHz)
Latencia (Retraso): 11.87 ms
39

4.2.3 G.722

El cdec G.722, lanzado en 1988, es utilizado para aplicaciones de voz de banda
ancha con frecuencias desde 50 hasta 7000 Hz, y ofrece mayor calidad y claridad en
audio a coste del ancho de banda. Este cdec es til en aplicaciones en una red de
VoIP fija, donde el ancho de banda no es limitado. Este cdec de compresin utiliza el
mtodo de Modulacin por Pulsos Codificados Diferencial Adaptativo (ADPCM), el cual
cambia el tamao de la etapa de cuantificacin, teniendo un factor adaptativo de escala
[21].

Frecuencia de Muestreo: 16 KHz

4.2.4 G.723.1

El cdec G.723.1 es un cdec de compresin de audio utilizado para el transporte de
seales de voz, el cual las comprime en frames de 30 ms. Este cdec toma un bloque
de 240 muestras y utiliza la codificacin predictiva (ACELP) para reducirlo ya sea a 24
o a 20 bytes [12]. Es utilizado en aplicaciones de VoIP debido a su bajo requisito de
ancho de banda, pero no es capaz de transportar de forma ptima tonos de msica o
tonos de fax, debido a su baja tasa de bits. Posee un algoritmo de look-ahead de 7.5
ms lo que crea un retardo total de 37.4 ms [22].

Tasa de bits: 6.4 kbits/s, 5.3 kbits/s

40

4.2.5 G.726

El cdec G.726 es un cdec de compresin de audio que fue lanzado en 1990 para
seales de voz que utiliza el mtodo de ADPCM (PCM Diferencial Adaptativo). Este fue
elaborado para reemplazar los estndares G.721 y G723. Se introdujo una nueva tasa
de bits a 16 kbits/s. Utiliza 2 (16 kbits/s), 3 (24 kbits/s), 4 (32 kbits/s) y 5 (40 kbits/s)
bits por muestra. La aplicacin principal a 24 y 26 kbits/s es para canales de
sobrecarga que transportan seal vocal en Equipos de Multiplicacin de Circuitos
Digitales (DCME). La aplicacin a 40 kbits/s es la del transporte de seales de mdem
de datos en DCME. Este cdec es utilizado en troncales internacionales y redes de
telefona [23].


4.2.6 G.728

El cdec G.728 es un cdec para seales de voz que utiliza un algoritmo de Prediccin
Lineal con Excitacin por Cdigo de Bajo Retardo (LD-CELP) para la codificacin a 16
kbits/s. Este cdec fue lanzado en 1992 [24].


41

4.2.7 G.729

El cdec G.729 utiliza el algoritmo de compresin de datos de audio CS-ACELP que
comprime la voz digitalizada en paquetes de duracin de 10 ms. Es usado en redes
VoIP donde se debe preservar el ancho de banda. Originalmente opera a 8 kbits/s pero
existen extensiones que permite que este opere a 6.4 kbits/s y 11.8 kbits/s. Los tonos
de fax y de audio de alta calidad no pueden ser transportados ptimamente usando
este estndar [25].


4.2.8 SPEEX

El cdec Speex es un cdec de compresin de cdigo abierto diseado para
aplicaciones de VoIP y transmisiones de voz. El algoritmo utilizado es el Speech
Encoding. Soporta una amplia calidad de voz y valores de tasa de bits. Tiene un
funcionamiento dinmico de tasa de bits pudiendo ajustarse desde 2.15 kbits/s hasta
44 kbits/s. Adems presenta una gran robustez a prdidas de paquetes en una
transmisin de datos [26].

Frecuencia de Muestreo: 8 kHz, 16 kHz, 32 kHz
Frecuencia mxima de la seal: 4000 Hz, 8000 Hz, 16000 Hz
Tasa de bits: 2.15 44 kbits/s
Latencia (Retraso): 30 ms (8 kHz), 34 ms (16 kHz)

42

4.2.9 VORBIS I

Vorbis I es un cdec de compresin de sonido libre de patentes y regalas que soporta
tasas de muestreo de desde 8 kHz hasta 192 kHz. Adems es usado para la
representacin de varios rangos de canales (monoaural, polifnico, estreo,
cuadrafnico, 5.1, hasta 255 canales discretos). Se puede configurar a varias tasas de
bits desde 16 hasta 128 kbits/s por canal. Utiliza el mtodo de transformacin discreta
de coseno modificada (MDCT) [27].

Frecuencia de Muestreo: 8 192 kHz
Frecuencia mxima de la seal: 4000 95000 Hz
Tasa de bits: 45 - 500 kbits/s
Latencia (Retraso): >100 ms

4.3 COMPARACIN DE LAS CARACTERSTICAS DE LOS CDECS DE
COMPRESIN CONSIDERADOS PARA LA TRANSMISIN DE SONIDO EN
TIEMPO REAL

La Tabla 4.1 realiza una comparacin de las caractersticas ms relevantes de los
cdecs de compresin mencionados con anterioridad. Adems, se incluyen los valores
de relacin de compresin y factor de compresin a cada cdec.

Al realizar una comparacin entre las caractersticas del cdec ideal y las
caractersticas de los cdecs resumidos en la Tabla 4.1, se puede concluir que el
cdec de compresin Vorbis I es el que ms se asemeja al cdec ideal propuesto,
debido a las siguientes razones:

Su algoritmo de compresin, mtodo de transformacin discreta de coseno
modificada, se basa en la transformada de Fourier, lo que permite trabajar en el
dominio de la frecuencia.

43

Tabla 4.1 Comparacin de las caractersticas relevantes de los cdecs de compresin de sonido para

Cdec Algoritmo
Frecuenciade
Muestreo[kHz]
Retraso[ms]
Tasadebits
porsegundo
[kbits/s]
Relacinde
compresin[%]
Factorde
compresin[X:1]
G.711
PCM,leyA,
ley
8 1 64 50 2
G.711.1
MDCT,leyA,
ley
8 11,87 64 50 2
16 11,87 96 38 2,67
G.722 ADPCM
16 4 64 25 4
G.723.1 ACELP 8 1
5,3 4 24,15
6,4 5 20,00
G.726 ADPCM
8 0,125 40 31 3,20
G.728 CELP
8 0,625 16 13 8
G.729 CSACELP
8 15 8 6 16
SPEEX
Speech
Encoding
8
30
2,15 2 59,53
16 24,6 9 10,41
32 32 44,2 9 11,58
VORBISI MDCT 8192 >100
45 35 2,84
64 50 2
80 63 1,60
96 75 1,33

Su frecuencia de muestreo puede ser configurable a 8 kHz, siendo esta la
frecuencia de muestreo ms baja registrada por la mayora de los cdecs
analizados.
Pese a que Vorbis I maneja retrasos superiores a 100 ms, este valor es
considerado dentro del rango sugerido por el estndar G.114 de la UIT-T para
una transmisin aceptable en tiempo real.
Su tasa de bits es variable, lo cual permite flexibilidad para codificar sonido
utilizando menos bits en porciones de seal con escasa informacin, y ms bits
en porciones que contienen mayor informacin.
Vorbis I registra factores de compresin bajos en relacin al resto de cdecs
analizados. Sin embargo, puede llegar a tener similar factor de compresin que
44

el estndar G.711, que es el requerido por la mayora de protocolos de
La mayora de estndares propuestos por la UIT-T se basan en el anlisis de
seales de voz, donde prevalecen las amplitudes pequeas. Estos algoritmos
utilizan distribuciones logartmicas como la ley-A y la ley-, los cuales no son
eficaces con sonidos estetoscpicos, debido a que, tanto las amplitudes
grandes como las pequeas tienen igual probabilidad de ocurrencia.

45

CAPTULO 5: CDEC DE COMPRESIN VORBIS I

5.1 DESCRIPCIN GENERAL

Vorbis I es un cdec de compresin de sonido de cdigo abierto desarrollado por la
fundacin Xiph.org, empezado en 1993 por Chris Montgomery [27].

Este cdec compresor se puede adaptar a un rango de muestreo de 8 kHz hasta
192 kHz y tasas de bits desde 45 kbits/s hasta 500 kbits/s. Puede ser utilizado con
una amplia gama de canales desde los monoaurales hasta 255 canales discretos.
Es posible utilizar una tasa de muestreo de 44 kHz a 56 kbits/s para as poder
realizar transmisiones en tiempo real a velocidades de Dial-up [27]. Todo esto se lo
puede realizar con la parametrizacin en el cdigo fuente provisto en la pgina web
de esta fundacin, http://www.xiph.org.

La organizacin auspiciante de este cdigo menciona una mejor calidad de sonido
en el momento de la reproduccin que la que proporciona MP3 [27]. Para dar
soporte a sus aseveraciones, han dejado al pblico del internet una seccin donde
se pueden hacer comparaciones auditivas de diferentes archivos codificados
utilizando los dos cdecs de compresin.

Su algoritmo de compresin est basado en la transformada de Fourier, utilizando
el tipo IV de la transformada de coseno discreta modificada (MDCT), la cual
expresa una secuencia finita de puntos de datos en trminos de la suma de
funciones de coseno oscilando a frecuencias distintas. Fue creado en 1987 por
Princen, Johnson, y Bradley. Est diseado para aplicaciones que contienen series
de bloques consecutivos en donde bloques subsecuentes son solapados de
manera que la ltima mitad de un bloque coincida con la primera mitad del siguiente
bloque. Adems, la MDTC evita que los artefactos de compresin, producidos por
compresiones de alto ndice, ocurran de las fronteras entre bloques, haciendo que
este algoritmo sea atractivo para aplicaciones de compresin de seales en tiempo
real [28].

46

En el caso de un enlace en tiempo real, es posible configurar este cdec junto con
el protocolo RTP. Para poder identificar como se debe de proceder en el momento
de la decodificacin, Vorbis I presenta un encabezado en donde se detalla la forma
en cmo fue codificada la seal original. Toda esta informacin va despus del
encabezado RTP [27]. Es posible encontrar toda la informacin necesaria en el sitio
web de la fundacin.

Cuando se habla de los sonidos estetoscpicos, los valores mximos de frecuencia
superior registrados fueron de 1600 Hz por lo que el uso de una frecuencia de
muestreo de 8 kHz sera utilizada ya que es la ms baja que se puede utilizar con
este codificador. Con una tasa de muestreo de 45 kbits/s, se puede llegar a niveles
de calidad iguales que G.711 a 64 kbits/s. Esto significara una tasa de compresin
ms alta que la demostrada por G.711. Adems sin olvidar que Vorbis permite una
variacin de tasa de bits segn se vea conveniente.

5.2 FUNCIONAMIENTO

En la Figura 5.1 se puede ver el diagrama de bloques del algoritmo de Vorbis I.
Este se basa en la cuantizacin vectorial (VQ) y la transformacin con ventanas
solapadas, conocido como la Transformada Discreta de Coseno Modificada. Las
ventanas pueden tener una de las longitudes especficas de 2048 o 512 muestras.
La ms corta se utiliza slo cuando se codifica una seal de sonido crtica con
cambios repentinos en el dominio del tiempo [29].

Figura 5.1 Diagrama de bloques del algoritmo de Vorbis I [29].

Despus de la transformacin al dominio de la frecuencia, la seal es analizada por
un modelo psicoacstico y la parte inaudible del espectro es removida. Luego un
vector de piso es generado para cada uno de los canales. Este vector es una
47

representacin de baja resolucin del espectro de audio para el canal dado en ese
tiempo. El piso representa la curva como una representacin linear interpolada en
una escala de amplitud en dB y una escala de frecuencia lineal [29].

El siguiente paso en el proceso de codificacin es la eliminacin de la curva de piso
del espectro de audio. Se mantiene la informacin restante llamada residuo. Los
vectores de residuos de los canales son transformados de una representacin
cartesiana a polar. Este proceso es llamado acoplamiento de canal. Siguiente a
eso, la informacin es codificada por cuantizacin de vectores en cascada. Los
resultados son codificados con el algoritmo de Huffman para eliminar ms
redundancia. El producto final de todo este proceso es el paquete de Vorbis.
Finalmente esos paquetes son encapsulados en un contenedor universal Ogg y el
contenido incluido est listo para la distribucin [29].

5.3 COMPARACIN DE SONIDOS ESTETOSCPICOS UTILIZANDO
FORMATOS WAV Y OGG

En el momento de aplicacin del cdec Vorbis I, se puede hacer un anlisis de las
caractersticas en tiempo, amplitud y frecuencia de los sonidos comprimidos y
contenidos en la extensin ogg, que es el contenedor que utiliza Vorbis I para sus
archivos. Se considera la frecuencia de muestreo de 8000 Hz para la aplicacin,
siendo sta la ms baja que se puede utilizar. Adicionalmente se crean distintas
versiones de las nuevas muestras de sonido a diferentes tasas de muestreo: 8, 16,
24 kbits/s, siendo las nicas posibles cuando se utiliza la frecuencia de muestreo
mencionada. Esta aplicacin se ha realizado en los sonidos: cardaco normal,
cardaco clic de eyeccin y respiratorio normal traqueal. La finalidad de esta
comparacin es observar el comportamiento de discriminacin y similitud de Vorbis
I en razn a los sonidos en su formato wav sin compresin.

En las Figuras 5.2 a la 5.7, se puede observar la comparacin de los sonidos con
respecto a su original en extensin wav
1
. En las grficas de forma de onda, tanto de
los sonidos cardiacos normal (Figuras 5.2, 5.3 y 5.4) y clic de eyeccin (Figuras 5.5,

1
Las Figuras desde la 5.2 hasta la 5.10 son grficas obtenidas utilizando Matlab, analizando sonidos
pregrabados con extensin wav [10] y convirtindolos a extensin ogg utilizando el programa ACE-
HIGH MP3 WAV WMA OGG Converter [30]. El cdigo utilizado se encuentra en el Anexo B.
48

5.6 y 5.7), se puede ver que la seal no es alterada radicalmente a pesar de las
tasas bajas de bits. Esto es un aspecto positivo para la eleccin de Vorbis I, puesto
que no se presenta un cambio de fase significativo en la seal comprimida.

En lo que concierne a la densidad espectral, como se puede apreciar en las Figuras
5.8, 5.9 y 5.10, es posible observar que la concentracin de potencia en las
frecuencias significativas para cada caso se mantiene con pocas variaciones de la
seal original; adems, se muestra una variacin de potencia baja a frecuencias
altas siendo positivo para la eliminacin de componentes correspondiente a
interferencia o ruido en este rango. En el caso de la compresin a una tasa de bits
de 8kbits/s, existe una cada de potencia considerable a partir de los 3000 Hz
aproximadamente, debido a que esta frecuencia se acerca a la frecuencia mxima
de estas caractersticas de compresin. En el resto de casos se puede ver que a
esa misma frecuencia de 3000 Hz es donde se empieza a estabilizar la variacin de
potencia, lo cual se debe al comportamiento de Vorbis I de eliminar sonidos que son
inaudibles.

Figura 5.2 Comparacin de formas de onda de un corazn normal, utilizando formatos wav y ogg a 8
kbits/s [31].

49

kbits/s [31].

kbits/s [31].
50

Figura 5.5 Comparacin de formas de onda del ruido anormal clic de eyeccin, utilizando formatos
wav y ogg a 8 kbits/s [31].

51


Figura 5.8 Comparacin de densidad de potencia espectral de un corazn normal, utilizando formatos
wav y ogg a 8, 16 y 24 kbits/s [31].
52

Figura 5.9 Comparacin de densidad de potencia espectral del ruido anormal clic de eyeccin,
utilizando formatos wav y ogg a 8, 16 y 24 kbits/s [31].

Figura 5.10 Comparacin de densidad de potencia espectral del sonido normal traqueal, utilizando
formatos wav y ogg a 8, 16 y 24 kbits/s [31].
53

CONCLUSIONES

Los mtodos de compresin de audio con prdidas son eficaces al comprimir
sonidos estetoscpicos, debido a la existencia de un umbral de sensibilidad del
odo humano.
Los sonidos estetoscpicos concentran mayor informacin en rangos cortos de
frecuencia, lo cual permite realizar un mejor proceso de codificacin en las
componentes espectrales de cada sonido, debido a que se puede asignar un
mayor nmero de bits a las bandas donde exista mayor concentracin de
potencia espectral.
El protocolo a considerar en una transmisin en tiempo real es el protocolo
RTP/UDP, debido a que es no orientado a la conexin, es decir, no realiza
retransmisiones en caso de fallos en la transmisin de sonidos estetoscpicos,
como lo hace el protocolo TCP, sacrificando confiabilidad a cambio de
velocidad, lo que se prioriza en la transmisin de sonidos estetoscpicos.
Un cdec ideal para la compresin de sonidos estetoscpicos debe contener
las siguientes caractersticas mnimas: 4 kHz de frecuencia de muestreo, 8 bits
por muestra y 32 kbits/s de tasa de bits.
Los cdecs de compresin de voz no son eficaces para la compresin de
sonidos estetoscpicos, debido a que son desarrollados para amplitudes y
frecuencias especficamente de voz, cuyos rangos varan notoriamente a los
establecidos en los sonidos estetoscpicos.
El cdec de compresin Vorbis I presenta la mejor opcin para la transmisin
de sonidos estetoscpicos en tiempo real, debido a su flexibilidad de
parametrizacin de frecuencia de muestreo y tasa de bits.

54

RECOMENDACIONES

Para el anlisis de muestras de sonidos estetoscpicos es importante tomar en
cuenta que por lo general, las enfermedades hacen que se generen seales
altamente no estacionarias, por lo que es necesario analizarlas en frecuencia y
en tiempo simultneamente.
Al realizar el anlisis de sonidos, es recomendable utilizar sonidos que no
hayan sido previamente comprimidos por algn otro tipo de cdec, como por
ejemplo MP3, debido a que su calidad disminuye.
Las grficas de forma de onda, espectrograma, y densidad de potencia
espectral obtenidas en Matlab son importantes para obtener los parmetros
necesarios de evaluacin ya que estn expresadas en funcin de la frecuencia,
tiempo y potencia.
Se recomienda utilizar cdecs de compresin que sean configurables, debido
al constante incremento de demanda hacia el uso de aplicaciones de
telemedicina sobre redes IP.
A ms de las caractersticas tcnicas del cdec de compresin Vorbis, cabe
resaltar que ste es de cdigo abierto y no posee limitaciones de patentes y
licencias, lo cual lo hace de libre uso para el pblico.

55

BIBLIOGRAFA Y REFERENCIAS

[1] J. S. Osorio, L. F. Cuesta, F. Gmez, Diseo y construccin de un
fonocardigrafo digital con visualizacin en LabVIEW, Revista Ingeniera
Biomdica, vol. 1, pp. 42-46, mayo 2007.
[2] DALCAME, Fonocardiograma, http://dalcame.com/fono.htm, septiembre 2005.
[3] J.G. Glez, M. Prez, J. A. Pelayo, C. H. Esparza, Electrofongrafo, V Exposicin
de Diseos de Sistemas Electrnicos, de Computacin y de Informtica
Septiembre de 1998, pp. 1-3, Mxico D.F., noviembre 2001.
[4] V. Kudriavtsev, V. Polyshchuk, D. L. Roy, Heart energy signature spectrogram for
cardiovascular diagnosis, BioMedical Engineering OnLine, 6:16, pp. 1-14, 4 mayo
2007.
[5] J. D. Echeverry, A. F. Lpez, J. F. Lpez, Reconocimiento de valvulopatas
cardacas en seales de fonocardiografa empleando la transformada Gabor,
Scientia Et Technica, ao/vol. XIII, nm. 034, pp. 139-143, mayo 2007.
[6] Matlab Signal Processing Toolbox, Version 7.7.0.471 (R2008b), The
MathWorks, Inc., 3 Apple Hill Drive, Natick MA 01760-2098, 2008.
[7] L. Lores, Anlisis acstico del sonido respiratorio traqueal durante las maniobras
de espiracin forzada. Comparacin entre sujetos sanos y pacientes afectos de
asma bronquial durante la prueba broncodilatadora, pp. 29-52, Barcelona, 11
octubre 2002.
[8] H. Pansterkamp, S. S. Kraman, G. R. Wodicka, Respiratory Sounds. Advances
Beyond the Stethoscope, American Journal of Respiratory and Critical Care
Medicine, vol. 156, pp. 974-984, 1997.
[9] A. R. A. Sovijrvi, L. P. Malmberg, G. Charbonneau, J. Vanderschoot, F.
Dalmasso, C. Sacco, M. Rossi, J. E. Earis, Characteristics of breath sounds and
adventitious respiratory sounds, European Respiratory Review, 10:77, pp. 591-
595, 2000.
[10] 3M Littman Estetoscopios, Sonidos de corazn y pulmn,
http://solutions.3m.com.ar/wps/portal/3M/es_AR/Littmann/stethoscope/education/h
eart-lung-sounds/, 2009.
[11] J. M. Huidrobo, R. Conesa, Sistemas de Telefona, Paraninfo, Thomson, pp. 294-
297, 2006.
[12] A. S. Tanenbaum, Redes de Computadoras, Pearson, Prentice Hall, pp. 680-683,
2003.
[13] F. Ohrtman, Voice over 802.11, Artech House, pp. 28-29, 2004.
56

[14] Recomendaciones UIT-T, Sistemas y equipos terminales videotelefnicos de
banda estrecha, UIT- T H.320, pp. 1-3, Ginebra, marzo 2004.
[15] Recomendaciones UIT-T, Sistemas de comunicacin multimedia basados en
paquetes, UIT-T H.323, pp. 1-30, Ginebra, junio 2006.
[16] D. Salomon, Data compression: The Complete Reference, Springer, pp. 1-13, 719-
734, 2007.
[17] B. Khasnabish, Implementing Voice over IP, John Wiley & Sons Inc., pp. 49-58,
2003.
[18] N. Abramson, Teora de la Informacin y Codificacin, Paraninfo, pp. 15-56, 1981.
[19] Recomendaciones UIT-T, Modulacin por impulsos codificados (MIC) de
frecuencias vocales, UIT-T G.711, Ginebra, noviembre 1988.
[20] Recomendaciones UIT-T, Extensin incorporada de banda ancha para la
modulacin por impulsos codificados, UIT-T G.711.1, Ginebra, marzo 2008.
[21] Recomendaciones UIT-T, Codificacin de audio de 7 kHz dentro de 64 kbit/s, UIT-
T G.722, Ginebra, noviembre 1988.
[22] Recomendaciones UIT-T, Cdec de voz de doble velocidad para la transmisin en
comunicaciones multimedios a 5,3 y 6,3 kbit/s, UIT-T G.723.1, Ginebra, mayo
2006.
[23] Recomendaciones UIT-T, Modulacin por impulsos codificados diferencial
adaptativa (MICDA) a 40, 32, 24, 16 kbit/s, UIT-T G.726, Ginebra, diciembre 1990.
[24] Recomendaciones UIT-T, Codificacin de seales vocales a 16 kbit/s utilizando
prediccin lineal con excitacin por cdigo de bajo retardo, UIT-T G.728, Ginebra,
octubre 1992.
[25] Recomendaciones UIT-T, Codificacin de la voz a 8 kbit/s mediante prediccin
lineal con excitacin por cdigo algebraico de estructura conjugada, UIT-T G.729,
Ginebra, enero 2007.
[26] J. M. Valin, The Speex Codec Manual, 2007.
[27] Xiph Org. Foundation, Vorbis I Specification, 2 junio 2009.
[28] Wikipedia, Modified discrete cosine transform,
http://en.wikipedia.org/wiki/Modified_discrete_cosine_transform, noviembre 2009.
[29] CESNET, Ogg Vorbis: Subjective assessment of sound quality,
http://www.cesnet.cz/doc/techzpravy/2006/vorbis/, diciembre 2006.
[30] ACE-HIGH MP3 WAV WMA OGG Converter, Trial version, Version 3.20,
http://www.audio-converter.com/, 2003.
[31] A. Fernandez, Vorbis ogg audio encoding/decoding, Matlab 6.0 Toolbox, febrero
2006.
57

[32] Instituto de Investigacin y Desarrollo Qumico-Biolgico IQM, Medciclopedia,
http://www.iqb.es/diccio/diccio1.htm, 2007.

58

GLOSARIO DE TRMINOS MDICOS

Asma: desorden inflamatorio crnico de las vas respiratorias en el cual muchas
clulas y elementos celulares juegan diversos papeles, en particular los mastocitos,
eosinfilos, linfocitos T, neutrfilos y clulas epiteliales. En los sujetos susceptibles,
esta inflamacin causa episodios recurrentes de jadeos, dificultades respiratorias,
opresin en el pecho y tos, en particular por la noche y por la maana temprano. Estos
episodios estn usualmente asociados a una obstruccin amplia pero variable de las
vas respiratorias, a menudo reversible espontneamente o con un tratamiento. Esta
inflamacin tambin ocasiona un aumento asociado de hipersusceptibilidad bronquial
a una variedad de estmulos [32].

Aurcula: cada una de las dos cavidades superiores del corazn, aurcula derecha y
aurcula izquierda que reciben la sangre de las venas [32].

Chasquido: ruido breve, seco y sbito. Puede ser articular, valvular, rtmico, dentario,
etc. [32].

Coartacin artica: malformacin cardaca congnita caracterizada por un
estrechamiento localizado de la aorta que produce un aumento de la presin en la
zona proximal al defecto y una disminucin de la presin en la zona distal a ste [32].

Crujido: ruido producido cuando dos cuerpos rozan uno con el otro [32].

Defecto septal: problema cardaco congnito en el cual existe un hoyo en la pared que
separa las cmaras del corazn [32].

Desdoblamiento (de los ruidos cardacos): falta de sincronismo en los ruidos
producidos por las vlvulas en ambos lados del corazn [32].

Edema pulmonar: infiltracin de serosidad en el tejido pulmonar; enfermedad
frecuentemente mortal, caracterizada por la expectoracin espumosa rosada,
descenso considerable de la tensin sangunea y asistolia aguda. Se observa
generalmente como complicacin de la enfermedad de Bright y de la insuficiencia
cardaca, y en algunas intoxicaciones [32].

59

Enfisema: estado de un tejido distendido debido a la presencia de aire en el tejido
celular subcutneo o pulmonar [32].

Estenosis: estrechez patolgica congnita o adquirida de un vaso, orificio o conducto
[32].

Estridor: sonido agudo parecido a un silbido [32].

Eyeccin: expulsin forzada de algo, en particular la sangre desde un ventrculo del
corazn [32].

Insuficiencia artica: trastorno caracterizado por el flujo retrgrado de la sangre desde
la aorta al ventrculo izquierdo [32].

Orofaringe: porcin bucal de la faringe o garganta; es la regin anatmica posterior de
la boca, se extiende desde el paladar blando hasta el hueso hioides e incluye el tercio
posterior de la lengua [32].

Regurgitacin: flujo retrgrado de la sangre de una vlvula cardaca defectuosa [32].

Ronquido: ruido producido por la vibracin del velo del paladar durante el sueo, en
particular durante la inspiracin [32].

Silbido: ruido que hace el aire al pasar por un conducto estrecho [32].

Vlvulas cardacas: son cinco, cuatro en la parte superior: la vlvula mitral entre la
aurcula y el ventrculo izquierdo; la tricspide entre la aurcula y el ventrculo derecho;
la artica a la entrada de la aorta; y la pulmonar de la arteria pulmonar (estas dos
ltimas se llaman tambin vlvulas sigmoideas o semi-lunares); y la vlvula de
Eustaquio entre el borde anterior de la vena cava inferior y el orificio auriculoventricular
derecho [32].

Ventrculo: vientre o cavidad pequea [32].

60

ANEXOS

ANEXO A: ESQUEMA DE LA APLICACIN DE TELEMEDICINA, UTILIZANDO UN
CDEC DE COMPRESIN DE SONIDO.

Figura A.1 Esquema de la aplicacin de telemedicina, utilizando un cdec de compresin de sonido
1
.

1
Grficos tomados de:
http://www.win-health.com/actinic/acatalog/electronic_stethoscopes.html
http://es.wikipedia.org/wiki/Archivo:Computer-aj_aj_ashton_01.svg

61

ANEXO B: CDIGOS EN MATLAB

B.1 CDIGO EN MATLAB PARA EL ANLISIS GRFICO DE SONIDOS
ESTETOSCPICOS

El cdigo utilizado para el anlisis de los sonidos estetoscpicos pregrabados lee un
archivo de formato wav y grafica su forma de onda, espectrograma y densidad de
potencia espectral. El siguiente cdigo es el utilizado para analizar el sonido de la
anomala chasquido de apertura. Para el anlisis de los sonidos respiratorios se obvi
la grfica de forma de onda debido a que no proporciona informacin fcilmente
apreciable.

Cdigo: [6]

%Lectura del sonido de extensin .wav
FILEWAV = 'Chasquido de apertura.wav';
[resp, Fs] = wavread(FILEWAV);

%Figuras
figure (1)
t=(1:length(resp))/Fs;
plot(t,real(resp))
axis('tight')
xlim([0.7 1.4])
xlabel('Tiempo [seg]')
ylabel('Amplitud')
title('Ruido Anormal Chasquido de Apertura')

figure (2)
[S,F,T,P] = spectrogram(resp,512,256,512,Fs,'yaxis');
surf(T,F,10*log10(abs(P)),'edgecolor','none')
colormap(jet); axis tight; ylim([0 1000]); xlim([0.7 1.4])
view(0,90);
ylabel('Frecuencia [Hz]')
title('Espectrograma Ruido Anormal Chasquido de Apertura')

figure (3)
periodogram(resp,[],'twosided',512,Fs);
xlim([0 4])
title('Densidad de potencia espectral Ruido Anormal Chasquido de
Apertura')
xlabel('Frecuencia [kHz]')
ylabel('Potencia [dB/Hz]')

clear all

62

B.2 CDIGO EN MATLAB PARA LA COMPARACIN GRFICA DE SONIDOS
ESTETOSCPICOS UTILIZANDO FORMATOS WAV Y OGG

El cdigo utilizado para la comparacin entre los sonidos estetoscpicos pregrabados
de formato wav y ogg, grafica sus forma de onda, y densidad de potencia espectral. El
siguiente cdigo es el utilizado para comparar el sonido de un corazn normal. Para el
anlisis del sonido respiratorio normal traqueal se obvi la grfica de forma de onda
debido a que no proporciona informacin fcilmente apreciable.

Cdigo: [6,31]

%Lectura del sonido de extensin .wav
FILEWAV = 'normal.wav';
[resp, Fs] = wavread(FILEWAV);

%Lectura del sonido de extensin .ogg
FILE = 'normal1';%lectura del sonido de extensin .ogg fs=8000Hz
8kbits/s
[Y1,FS1,NBITS,encoding_info,tag_info] = OGGREAD(FILE);
16kbits/s
24kbits/s

%Figuras
figure (1)
t=(1:length(resp))/Fs;
plot(t,real(resp), 'b-')
hold on;
t2=(1:length(Y1))/FS1;
plot(t2,real(Y1), 'r-')
axis('tight')
xlim([0.1 0.6])
ylabel('Amplitud')
title('Corazn Normal')

figure (2)
[S,F,T,P] = spectrogram(resp1,512,256,512,Fs,'yaxis');
surf(T,F,10*log10(abs(P)),'edgecolor','none')
colormap(jet); axis tight; xlim ([0.8 1.5]); ylim([0 4000])
view(0,90);
ylabel('Frecuencia [Hz]')
title('Espectrograma Corazn Normal')

figure (3)
periodogram(resp,[],'twosided',512,Fs);
hold on
periodogram(Y1,[],'twosided',512,FS1);
hold on
63

hold on
xlim([0 4])
title('Densidad de potencia espectral Corazn Normal')
xlabel('Frecuencia [kHz]')
ylabel('Potencia [dB/Hz]')

clear all

64

ANEXO C: COMPARACIN DE LAS CARACTERSTICAS DE SONIDOS
CARDACOS Y PULMONARES

Tabla C.1 Comparacin de las caractersticas de los sonidos cardacos

Sonido
Frecuencia
inicial(Hz)
Frecuencia
final(Hz)
Anchode
banda(Hz)
Tiempo
inicial(ms)
Tiempofinal
(ms)
Duracinde
anomala(ms)
ClicdeEyeccin 0 400 400 10 600 590
Chasquidode
Apertura
0 500 500 500 1000 500
Coartacin
artica
50 375 325 5 510 505
EstenosisMitral 50 500 450 10 900 890
EstenosisArtica 50 250 200 700 1300 600
Estenosis
Pulmonar
50 225 175 5 560 555
Insuficiencia
Artica
50 230 180 10 800 790
CoraznNormal 50 250 200 100 600 500
Regurgitacin
Mitral
50 200 150 20 800 780
Regurgitacin
Tricuspdea
50 250 200 300 1000 700
DefectoSeptal
Atrial
50 350 300 0 670 670
DefectoSeptal
Ventricular
50 230 180 49 411 362
Valoresmximos 500 500 890

T
a
b
l
a

C
.
2

C
o
m
p
a
r
a
c
i
n

d
e

l
a
s

c
a
r
a
c
t
e
r
s
t
i
c
a
s

d
e

l
o
s

s
o
n
i
d
o
s

p
u
l
m
o
n
a
r
e
s

S
o
n
i
d
o
F
r
e
c
u
e
n
c
i
a
i
n
i
c
i
a
l
(
H
z
)
F
r
e
c
u
e
n
c
i
a
f
i
n
a
l
(
H
z
)
A
n
c
h
o
d
e
b
a
n
d
a
(
H
z
)
T
i
e
m
p
o
i
n
i
c
i
a
l
(
m
s
)
T
i
e
m
p
o
f
i
n
a
l
(
m
s
)
D
u
r
a
c
i
d
e
a
n
o
m
a
l
(
m
s
)
T
i
e
m
p
o
i
n
i
c
i
a
l
d
e
r
e
s
p
i
r
a
c
i
(
m
s
)
T
i
e
m
p
o
f
i
n
a
l
d
e
r
e
s
p
i
r
a
c
i
(
m
s
)
T
i
e
m
p
o
t
o
t
a
l
d
e
r
e
s
p
i
r
a
c
i
(
m
s
)
C
h
i
l
l
i
d
o
1
1
0
0
1
1
0
0
6
0
0
8
0
0
2
0
0
2
0
0
2
0
0
0
1
8
0
0
C
r
u
j
i
d
o
1
5
0
0
1
5
0
0
1
4
0
0
1
7
0
0
3
0
0
2
0
0
1
6
0
0
1
4
0
0
E
s
t
r
i
d
o
r
1
3
0
0
1
3
0
0
4
0
0
6
5
0
2
5
0
1
6
0
9
7
0
8
1
0
N
o
r
m
a
l
B
r
o
n
q
u
i
a
l
1
0
0
0
1
0
0
0
N
/
A
N
/
A
N
/
A
1
5
0
0
1
5
0
0
N
o
r
m
a
l
T
r
a
q
u
e
a
l
1
6
0
0
1
6
0
0
N
/
A
N
/
A
N
/
A
1
3
0
0
1
3
0
0
S
i
l
b
i
d
o
1
2
0
0
1
2
0
0
4
0
0
6
5
0
2
5
0
4
0
7
0
0
6
6
0
V
a
l
o
r
e
s
x
i
m
o
s
1
6
0
0
1
6
0
0
3
0
0
1
8
0
0

Tesis UTPL (Voip Estetoscopio

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tesis UTPL (Voip Estetoscopio

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

La Universidad Catlica de Loja

You might also like