Professional Documents
Culture Documents
Interdisciplinaria,
ISSN (Versión impresa): 0325-8203
lcalvo@conicet.gov.ar
Centro Interamericano de Investigaciones
Psicológicas y Ciencias Afines
Argentina
¿Cómo citar? Número completo Más información del artículo Página de la revista
www.redalyc.org
Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
A NÁLISIS ACÚSTICO DE LA VOZ NORMAL Y PATOLÓGICA UTILIZANDO DOS SISTEMAS
DIFERENTES : ANAGRAF Y PRAAT
However, there is no standardization of tech- considering both cases as false positives or false
nique methodology and considerable variability is negatives.
observed about which acoustic parameters must be Results demonstrate that the reliability of the
measured. Furthermore, product documentation values obtained by both programs was significantly
often makes it difficult to know how a particular reduced with the increase of irregularities in the
system actually produces its measurements. Little signal. Parameters related with shimmer were more
formal information is available about the actual reliable than parameters related with jitter.
comparability of measures from different analysis For the normal data, r Pearson correlations
packages. ranged from .72 (ANAGRAF) to .87 (PRAAT) for
In this study, acoustic analysis was performed measures of jitter, with lower correlations among
using two different programs: PRAAT and ANA- measures of shimmer .27 (ANAGRAF) to .80
GRAF. Both systems are computer programs (PRAAT) and noise measures .55 (ANAGRAF) to
commonly used in Latin America, in clinical and .87 (PRAAT). The large differences found between
research to detect and characterize speech and voice the measurements from the systems imply that the
disorders. PRAAT, was designed by Boersma and accuracy of the measurements are questionable,
Weenink (2009) and ANAGRAF is a national soft- especially for severely pathological samples.
ware designed by Gurlekian (1997). Therefore, it seems important to establish
The purpose of this work was to compare the normal and pathological voice standards norms for
results obtained by a set of acoustic parameters, Spanish in Buenos Aires to take a step in the
many of which are defined similarly in both validity and reliability of the professional practices.
programs, and analyze whether it can distinguish Future research be aimed at establishing differ-
clinically between normal and pathological voices ences between vowels in addition to sex and
within different severity levels. system used.
A total of 776 voice samples corresponding to
4 repetitions of the vowel /a/ of 194 speakers of Key words: Acoustic analysis; Normal and
Spanish in Buenos Aires were measured using the pathological voice analysis; PRAAT; ANAGRAF.
available parameters such as: the fundamental
frequency, jitter, shimmer, and noise-to harmonic
ratio. The LilliefordsTest, with a significance level
of 5%, was used to verify the normal distribution of
the results of each measurement. The parameters
with normal distribution had their means compared
to the standard measurements proposed by the INTRODUCCIÓN
program using the t test (significance level of 5%).
General results separated by sex are reported. La voz humana constituye el medio más
The findings of analyzed voice samples are showed rápido y sencillo para comunicarse. Con el
by definitions for mean, standard deviation, and desarrollo de las tecnologías en telecomuni-
thresholds of normal for each parameter, which caciones ha aumentado considerablemente
helps the clinician to immediately assess the el uso de la voz así como también se han in-
findings for a particular patient. The test-retest crementado los desórdenes vocales, que ocu-
reliability in each pair of measures was calculated. rren en un 3 a 9% de la población.
For both programs the results show similar Desafortunadamente, a pesar de la po-
values of fundamental frequency (F0). However, tencia con la que se pueden computar los da-
the values of jitter, shimmer and harmonic-to-noise tos, no parece ser completamente posible
ratio (HNR) were significantly lower measured by analizar la voz humana objetivamente y co-
PRAAT, and higher using ANAGRAF in relation nocer más profundamente cuáles son los
which the default results proposed by each system. procesos que gobiernan la producción de la
The empirical evidence shows that if followed the voz. Aunque las técnicas modernas pueden
default values and thresholds of each system, the analizar la voz, aún existen temas conflicti-
diagnostic accuracy might be questioned by vos e irresueltos.
Cuando se intenta detectar y caracterizar Kreiman, Gerratt, Dauer & Berke, 1993;
las voces patológicas en la clínica, el obje- Boersma, 2009; Burris, 2011; Godino-Llo-
tivo es documentar sus cambios signifi- rente, Osma-Ruiz, Saenz-Lechon, Cobeta-
cativos, es decir, aquellos que no resulten Marco, Gonzalez-Herranz & Ramirez-Cal-
despreciables ni producto del azar. Estos vo, 2008; Oguz, Kilic & Safak, 2011) que
cambios pueden documentarse a través de la mostraron la existencia de variaciones en la
evaluación perceptual visual y/o auditiva y precisión con la que los diferentes progra-
el análisis acústico de la señal. La evalua- mas determinan el período y la amplitud de
ción perceptual visual identifica las pato- una señal vocal (estrategias de voicing). Los
logías laríngeas mediante la observación valores no son exactos ni comparables entre
directa de las cuerdas vocales (fibrolarin- sí, aunque algunos estudios establecieron
goscopía, videoestroboscopía laríngea, etc.). relaciones entre medidas (Boersma, 2009;
Este tipo de exploración subjetiva tiene múl- Deliyskiy & Boersma, 1993).
tiples desventajas, entre las que se encuen- Este artículo propone describir, analizar y
tran su alto costo, la duración de la propia discutir los valores de las medidas acústicas
exploración y el hecho de tratarse de técni- calculadas por dos sistemas de análisis obje-
cas invasivas. tivos y muy conocidos, uno nacional y otro
El análisis perceptual auditivo está sien- extranjero, como son ANAGRAF (Gurlekian,
do revisado y cuestionado actualmente en la 1997, 2001) y PRAAT (Boersma, 2009).
literatura universal. La selección y la defi- Específicamente, el objetivo fue estudiar
nición de escalas perceptuales auditivas han en hablantes del español de Buenos Aires, los
sido controvertidas y no siempre comunes a valores de tendencia central y dispersión que
todos los especialistas en voz. asumen voces normales y patológicas medi-
En este contexto, el uso de las medicio- dos con ambos sistemas e interpretar su
nes acústicas como estudio de diagnóstico ajuste con los valores estándares propuestos
complementario de voces patológicas en el por defecto por los mismos programas. Fi-
ámbito clínico se ha incrementado hasta nalmente, se pretende establecer valores
convertirse en rutinas. El análisis acústico guías, que constituyan un aporte a la práctica
ofrece ventajas ya conocidas, no es costoso, clínica diaria, para la voz normal y patoló-
es fácil de usar y no es invasivo. El mayor gica según su grado de severidad, conside-
problema del uso de medidas acústicas es la rando la confiabilidad propia de cada medi-
interpretación de las mismas. Al utilizar ción.
métodos de análisis acústico se miden de
forma computarizada las propiedades espe-
cíficas de una forma de onda de señal de MÉTODO
voz, semejante a la producida por el pa-
ciente, pero modelada por una teoría. La MATERIALES Y PROCEDIMIENTO
aplicación de los diferentes métodos exige
entender y visibilizar los principios que los Para el análisis acústico lineal tradicio-
operan. Según Baken y Orlikoff (2000), se nal se utilizaron las vocales /a/ del español
ha sido muy condescendiente y no se han de Buenos Aires registradas en la Base de
cuestionado los procedimientos o los su- Datos de Alteraciones de la Voz y el Habla
puestos, indocumentados muchas veces, en (Elisei, 2011) integrada por las emisiones de
los que se basan los sistemas de análisis que 66 hablantes normales (H) y 128 hablantes
se compran y se utilizan. Estos autores su- con patología vocal (P).
gieren ser más sofisticados y más escép- Se analizaron 194 sujetos hablantes del
ticos en favor de un diagnóstico más pre- Español de Buenos Aires, de los cuales 78
ciso. (40.2%) eran hombres y 116 (59.8%), mu-
Con este propósito se realizaron compa- jeres. La media de edad fue igual a 36.35
raciones entre sistemas (Bielamowicz, años con una desviación estándar de 16.059.
Las voces de individuos normales pertene- muestras se editaron a través del programa
cen a 33 hombres y 33 mujeres, con edades Sound Forge Versión 8.0b. Sólo el cuerpo de
promedio de 27.38 ± 7.9 y 26.78 ± 7.9 años, la señal se utilizó para el análisis acústico, lo
respectivamente (se indica el valor medio ± que se realizó manualmente. La edición de
el desvío estándar). El conjunto de voces pa- cada sonido se realizó tomando el cuerpo de
tológicas contiene muestras de 45 hablantes la emisión y desechando el ataque y la fila-
masculinos y 83 femeninos. El promedio de tura de cada muestra.
edad en este caso fue de 45.88 ± 22.02 y Para analizar las señales vocálicas se em-
38.31 ± 15.68 años para el grupo de hablan- pleó la funcionalidad del Voice Report de
tes masculinos y femeninos, respectiva- PRAAT Doing Phonetics by Computer, ver-
mente. sión 4.6.06 y de ANAGRAF versión V09.10
Los diagnósticos etiológicos presentes en con la función de reporte desarrollado ad-
la base de datos son variados: lesiones es- hoc en el Laboratorio de Investigaciones
tructurales mínimas, congestión por reflujo Sensoriales para analizar estos datos. Se mi-
gastroesofágico, papilomatosis, granulomas, dieron y analizaron un total de 25 medicio-
hiperfunción, hiperplasia, queratosis, edema nes acústicas lineales tradicionales. Una
de cuerdas vocales, pólipos cordales, fona- ventaja comparativa de PRAAT es que per-
ción ventricular, tejido de cicatrización, tem- mite a través de los scripts, realizar una se-
blor vocal, estenosis laríngeas y parálisis cuencia de comandos para agilizar el análi-
cordales, entre otras. sis de muestras.
El corpus empleado para este estudio in-
cluyó 2.995 muestras vocales correspon-
dientes a tres repeticiones de la vocal /a/ del
Español de Buenos Aires, más una emisión RESULTADOS
sostenida durante el tiempo máximo fona-
torio de cada sujeto. Los resultados comparativos se agrupan
Previo al registro de sus voces, los parti- en dos secciones. La primera se refiere al es-
cipantes respondieron a un breve cuestiona- tudio de los hablantes con voces normales en
rio relacionado con factores de riesgo. Se tanto se describen los valores de las medidas
instruyó a los participantes para que pro- acústicas para cada sistema y su relación
nunciaran en tres oportunidades la vocal /a/ con los valores umbrales o puntos de corte
de manera sostenida (tiempo estimado: de 3 estándares configurados por defecto.
a 5 segundos), a una intensidad y frecuencia La segunda sección incluye en el análisis
espontáneas. de la población de hablantes con voces pa-
Las emisiones fueron grabadas digital- tológicas y describe, distinguiendo cada sis-
mente en una computadora de escritorio uti- tema, la confiabilidad de las medidas en fun-
lizando una placa de sonido externa USB ción del grado de severidad.
marca M-Audio Firewire modelo 1410. Se
utilizó un micrófono AGK D770, tipo diná-
mico unidireccional cardioide, con un rango SECCIÓN I. VALORES NORMALES
de frecuencia de 60 Hz-20 kHz, sensibilidad
de 2,5 mV/Pa (-52 dBV) e impedancia de En este primer estudio se realizaron las
600 Ohm situado a 10 cm de la boca en una comparaciones de los resultados medidos
sala acústica y antecámara con nivel de en voces normales (de ahora en más, H) en
ruido de 35 dB y tiempo de reverberación cada programa (PRAAT y ANAGRAF) con
menor a 1 segundo. El material fue regis- aquellos dados por defecto. Inicialmente se
trado con un nivel de calidad de 16 bits y aplicó el test de Kolmogorov-Smirnov para
una frecuencia de muestreo de 44.100 mues- corroborar la distribución normal de los da-
tras por segundo y no se utilizó ningún tipo tos y luego el test t de Student para la vocal
de compresión. Una vez que se tomaron las /a/ de hombres y mujeres del grupo H. Los
sideró desagregarlas y analizarlas según su cia de que los valores de jitter son menores
grado de severidad y confiabilidad. (ver Tabla 3).
Median_pitch 207 24.2 .01 < .05 200 - 120 .68 119 20.42 .00
Mean_pitch 207 24.1 .00 < .05 200 - 120 .68 119 20.35 .00
RAP % .16 .10 .00 > .20* .35 .68 .33 .18 .08 .00
PPQ % .17 .08 .00 < .10* .34 .84 .29 .21 .08 .00
Shim % 1.81 .51 .00 < .10* 2.52 3.81 1.00 2.93 1.53 .00
ShdB (dB) .16 .04 .00 > .20* .22 .35 .09 .26 .13 .00
APQ % 1.43 .41 .00 > . 20* 1.99 3.07 .81 1.81 .93 .00
349
TABLA 2
350
RESULTADOS MEDIDOS CON ANAGRAF EN MUJERES Y HOMBRES NORMALES
Mujeres Hombres
ANAGRAF Fuente n µ σ Rango r n µ σ Rango
Notación
N: normal
LM: leve-moderada
MS: moderada-severa
351
TABLA 4
352
RESULTADOS DE FRECUENCIA FUNDAMENTAL MEDIDOS CON PRAAT EN MUJERES Y HOMBRES NORMALES SEGÚN GRADO DE SEVERIDAD
DE LAS PATOLOGÍAS
Mujeres Hombres
PRAAT Fuente n µ σ Rango r n µ σ Rango
Notación
N: normal
LM: leve-moderada
MS: moderada-severa
Mujeres Hombres
Fuente n µ Σ Rango r n µ σ Rango
Jita LM 155 21.97 16.77 3.76 137.62 .679 64 60.82 100.32 11.65 712.44
MS 78 39.31 68.31 7.64 430.4 .881 66 117.41 184.12 10.97 974.08
Notación
N: normal
LM: leve-moderada
MS: moderada-severa
353
TABLA 6
354
RESULTADOS DE LA PERTURBACIÓN DE LA AMPLITUD MEDIDOS CON PRAAT EN MUJERES Y HOMBRES NORMALES SEGÚN GRADO DE
SEVERIDAD DE LAS PATOLOGÍAS
Mujeres Hombres
PRAAT Fuente n µ Σ Rango r n µ Σ Rango
Notación
N: normal
LM: leve-moderada
MS: moderada-severa
Mujeres Hombres
PRAAT Fuente n µ σ Rango r n µ σ Rango
Notación
N: normal
LM: leve-moderada
MS: moderada-severa
355
Elisei
diagnosis of vocal pathology. Sensitivity and Vieira, M.N., McInnes, F.R. & Jack, M.A. (1996).
specificity of the measures of shimmer and Robust F0 and jitter estimation in pathological
jitter]. Acta Otorrinolaringológica Española - voices. Fourth International Conference on
Sociedad Española de Otorrinolaringología, Spoken Language ICSLP 96, 745-748. doi:10.
49(6), 475-481. 1121/1.1430686.
Preciado, J.A., García, R. & Infante, J.C. (1998). Vieira, M.N., McInnes, F.R. & Jack, M.A. (2002).
Análisis multidimensional de la función vocal. On the influence of laryngeal pathologies on
Estudio de casos y controles [Multidimensional acoustic and electroglottoraphic jitter mea-
analysis of vocal function. Case-control study]. sures. Journal of Acoustical Society of Amer-
Acta Otorrinolaringológica Española - Socie- ica, 111(2), 1045-1055.
dad Española de Otorrinolaringología, 49(6), Walton, J. & Orlikoff, R. (1994). Speaker race
467-474. identification from acoustic cues in the vocal
Takahashi, H. & Koike, Y. (1975). Some percep- signal. Journal of Speech Hearing Research,
tual dimensions and acoustical correlates of 38, 738-745.
pathologic voices. Acta Oto-laryngologica.
Supplementum, 338, 1-24.