Professional Documents
Culture Documents
SOBRE
LA MUESTRAS DE AUDIO
Graudio Forensics
Laboratorio de Acstica Forense
www.audioforensics.es
audioforensics@graudio.es
Avda de Brasil n 6 1planta.Madrid.Espaa
1
INDICE
1. Objetopg. 3
2. Fundamentos iniciales.pag. 4
3. Objeto de la periciapag .5
4. Anlisis de autenticidad..pag.6
6. Conclusiones pag 40
9. Referencias bibliogrficas.pag.43
2
1. OBJETO
A peticin de D. Carlos Valverde (en adelante el Cliente), procedemos a redactar el presente Informe Pericial
con el fin de emitir un dictamen sobre ciertos aspectos concretos de varias grabaciones de audio.
El informe tcnico ha sido realizado por Miguel ngel de la Torre Guijarro , tcnico de Graudio Forensics, empresa
espaola especializada en Ingeniera de audio y prueba electrnica para aplicaciones en Acstica forense, colabora
con consultoras, despachos de abogados y empresas de investigacin privada, para la realizacin de anlisis,
informes y dictmenes periciales . Entre sus filas, Graudio Forensics cuenta con una plantilla multidisciplinar
formada por diferentes perfiles profesionales de la Acstica Forense (Linguistas, Foniatras, Ingenieros y tcnicos
especialistas de audio)
Todos los procedimientos y trabajos realizados por Graudio Forensics utilizan como referencia general los conceptos
y procedimientos establecidos por AES (Audio Engineering Society), organizacin de la que es miembro.
*Como anexo se incluye un breve curriculum vitae del perito que firma el presente informe.
3
2. FUNDAMENTOS INICIALES.
Para la realizacin de este informe, con fecha del 12 de Marzo del 2013 se facilita a D. Miguel ngel de la Torre
Guijarro, va correo electrnico, cuatro muestras de audio dubitadas (cuestionadas) y varias muestras de audio
indubitadas(fragmentos procedentes de la Televisin Boliviana), para realizar un proceso de autentificacin e
identificacin vocal.
El analista trabaja en todo momento con las copias aportadas por el cliente mediante documento adjunto en un
correo electrnico (muestras dubitadas e indubitadas). En ningn momento se facilita el material original.
2.1 Capturas de pantalla con los archivos adjuntos (muestras de voz dubitada y muestras de voz indubitada)
Tras finalizar la copia de cada uno de los archivos ,extraemos la firma digital de las muestras dubitadas mediante
algoritmo hash MD5 dando como resultado la siguiente firma digital.
*La firma digital de cada archivo permite autentificar la copia y su correspondiente original
Para la realizacin del presente informe se han empleado las siguientes herramientas de anlisis:
- Herramienta de Anlis Forense ACUSTEK TD-Expert
- Software de edicin Protools versin 8.
- Software Adobe Audition
4
- Sistema de reduccin de ruido CEDAR DNS 1000.
3. OBJETO DE LA PERICIA
El solicitante del presente Informe, requiere que el anlisis se centre en los siguientes aspectos de la grabacin:
1. Determinar si la voz cuestionada que aparece en los 4 archivos de audio (supuesta voz del abogado Sr.
Marcelo Soza), se corresponde con la muestra indubitada (muestra GIGA.SOSA.21.12.12 ENTREVISTA.LA
PAZ.mp3),procedente de la entrevista efectuada al Sr. Marcelo Soza por la Televisin de Bolivia.
2. Determinar si la grabacin ha sido manipulada, editada o por el contrario mantiene una continuidad en el
tiempo y el espacio.
3. Determinar si las muestras de audio analizadas corresponden a fragmentos de la misma grabacin, o por el
contrario no existen semejanzas o elementos de continuidad entre ellas.
5
4. ANLISIS DE AUTENTICIDAD
Los anlisis de autentificacin de grabaciones sonoras desarrollados por el laboratorio de Graudio forensics, utiliza
como referencia general los conceptos establecidos en los estndares aprobados por el AES Audio Engineering
Society
En nuestro entorno de trabajo, entendemos por proceso de autentificacin, aquel estudio dirigido a determinar si
una grabacin sonora mantiene la integridad durante el intervalo temporal en que sucedi tal grabacin. Dicho
estudio tambin es extensivo a la verificacin de si dicha grabacin se trata de un registro original o de una copia.
Los distintos anlisis a los que se puede someter una grabacin de audio, vendr condicionada por el material
aportado por nuestro cliente. En la mayora de los casos, para realizar un anlisis de autentificacin exhaustivo, ser
necesario disponer tanto de la grabacin original, como del conjunto de elementos de registro utilizados en el
proceso de grabacin (micrfono, dispositivo grabador,etc).
Para el presente informe hemos trabajado con las muestras de audio dubitadas e indubitadas, aportadas por nuestro
cliente, todas ellas en formato de audio comprimido mp3, con 2 canales, frecuencias de muestreo de 44,1 khz y
resolucin de 16 bits.
A continuacin se adjunta la informacin obtenida de cada archivo de audio:
AUDIO 1 para identificacin vocal.mp3 (6.51.27) AUDIO 2 para identificacin vocal.mp3( 3.38.51)
6
AUDIO 3 para identificacin vocal.mp3(8.02.43) AUDIO 4 para identificacin vocal.mp3 (5.54.30
7
GIGA.SOSA.21.12.12 ENTREVISTA.LA PAZ.mp3 (muestra de voz indubitada)
8
El ancho de banda de las muestras de audio no supera el margen de frecuencias superior a los 16Khz, con una
atenuacin drstica de la seal a partir de los 15,8Khz, comn en las 4 muestras de audio analizadas.
Lo mismo ocurre en baja frecuencia (entre 200-400hz), la seal de audio est sobremodulada, tambin carcterstico
en las 4 muestras de audio analizadas.
4.1 Fragmentos del espectro en las 4 muestras, caractersticas acsticas similares en los lmites del ancho de
banda, deficiencias en la electrnica del dispositivo grabador.
El anlisis de espectro de cada una de las muestras analizadas indica que todas ellas fueron grabadas con el mismo
dispositivo grabador.
En el proceso realizado para la identificacin del locutor, todos los archivos de audio han de pasar por una serie de
pre-procesados para adecuar las caractersticas el formato a las herramientas de anlisis que se utilizarn a
9
continuacin. El pre-procesado pasa primero por una descompresin convirtiendo cada archivo original MP3, en un
archivo con formato WAV. A continuacin se convierte el archivo de audio estreo en uno mono con un solo canal,
se elige la opcin en este caso de la suma de ambos canales estreo.
Finalmente se hace una copia del archivo haciendo un nuevo muestreo a 22,050kHz por medio de una diezmado con
filtro antialiasing de mxima calidad, que no afectar a los registros de audio en el ancho de banda en que
trabajaremos ni supondr prdida de cualidades de la voz que puedan afectar al anlisis.
Todo este pre-procesado se realiza mediante la herramienta Adobe Audition
Todas las archivos corresponden a una grabacin de audio que recoge la conversacin entre tres individuos,voces
masculinas,(a partir de ahora: locutor 1,locutor 2 y locutor 3) realizada en un recinto cerrado y pequeo (muy
posiblemente un vehculo),con baja influencia del ruido ambiente y utilizando un dispositivo grabador
semiprofesional (tipo dictfono,minigrabadora,etc), ubicado muy prximo a los locutores, principalmente locutor 1
(supuesta voz de Marcelo Soza) y locutor 2 (voz distorsionada intencionadamente). La posicin de los locutores con
respecto al elemento fonocaptor (micrfono), se mantiene constante en los 4 archivos analizados. No se aprecian
variaciones sustanciales de amplitud y frecuencia en cada locutor. Las grabaciones aportan un sonido claro e
inteligible.
La interaccin de la acstica (proporcin entre seal directa y seal reflejada) es mnima por 2 motivos:
- Pequea dimensin del recinto donde se desarrollan las conversaciones
-Proximidad de los locutores (locutor 1 y locutor 2) al micrfono o dispositivo grabador.
En los archivos analizados no se escuchan ruidos, que pudieran estar provocados por golpes o rozamiento del
micrfono. La voz del locutor 1 (supuesto Marcelo Sosa) es clara e inteligible, con presencia de todo el espectro de
voz, no parece una grabacin oculta (en ropa u otro complemento) .Son frecuentes los ruidos en el interior del
vehculo por manipulacin y movimiento de objetos.
10
La posicin del micrfono con respecto a cada locutor se mantiene constante en todos los fragmentos analizados de
cada una de las muestras, las voces presentan las mismas caractersticas acsticas y su relacin con el entorno
acstico y ruido ambiente es similar. Todos los archivos mantienen continuidad espacio temporal por lo que
podemos afirmar que todas las muestras analizadas corresponden a fragmentos de la misma conversacin.
La grabacin se realiza en un recinto cerrado de pequeas dimensiones (posiblemente un vehculo), con una
constante presencia de ruido ambiente exterior (pasar de vehculos, transentes, actividad diurna) y similares
caractersticas en todas las grabaciones analizadas.
La siguiente imagen corresponde a un anlisis espectrogrfico del ruido ambiente carcterstico en las 4 muestras de
audio (amplitud de la seal, considerando frecuencia y tiempo).
La grabacin recoge la conversacin entre tres individuos identificados en un nico escenario, un recinto cerrado,
posiblemente un vehculo, con caractersticas acsticas y ruido ambiente similar en las cuatro muestras analizadas.
El elemento fonocaptor (micrfono) puede aportar informacin relevante sobre las caractersticas acsticas de cada
locutor, posicin y ubicacin con respecto al dispositivo grabador, en base a diferentes criterios acsticos:
- Criterios de nivel o intensidad
- Diferencias espectrales
11
Tomando como referencia determinadas caractersticas acsticas de la voz, podemos analizar determinados
parmetros (nivel sonoro y frecuencia) de cada locutor, y aproximarnos a conocer de una manera muy fiable:
-N de participantes
- Posicin
-Distancia entre locutores
INTENSIDAD
El anlisis de intensidad o energa, permite conocer el nivel sonoro o amplitud de la seal vocal en un determinado
instante, aportando informacin relevante sobre la ubicacin de cada individuo (con respecto al dispositivo
grabador) y la relacin de proximidad entre ellos, as como la influencia del entorno acstico en el que se
desarrolla la accin.
Las siguientes grficas muestran los valores de intensidad sonora obtenidos tomando como muestra la voz del
locutor principal (locutor 1 y supuestamente el abogado Marcelo Soza) en cada una de las muestras de audio
aportadas en la prueba .
4.2 Niveles de Intensidad sonora correspondientes al locutor 1,(supuesta voz de Soza), en la muestra de
audio n 1
12
4.3Niveles de Intensidad sonora correspondientes al locutor 1,(supuesta voz de Soza), en la muestra de audio
n2
4.5Niveles de Intensidad sonora correspondientes al locutor 1,(supuesta voz de Soza), en la muestra de audio
n4
Valores de intensidad similares en las cuatro muestras de audio analizadas, el locutor 1 (supuestamente Marcelo
Soza) mantiene la misma posicin y ubicacin con respecto al dispositivo grabador.
13
FRECUENCIA
El anlisis en frecuencia permite conocer las variaciones del espectro de voz y su amplitud, aportando informacin
relevante sobre la ubicacin de cada individuo y la relacin de proximidad entre ellos, as como la influencia del
entorno acstico en el que se desarrolla la accin.
4.8 Anlisis espectral correspondientes al locutor 1(supuesta voz de Soza), en la muestra de audio n3
14
4.9Anlisis espectral correspondientes al locutor 1(supuesta voz de Soza), en la muestra de audio 4
En todas las grabaciones analizadas, el locutor 1 (supuesta voz de Marcelo Soza), presenta las mismas
caractersticas espectrales y ancho de banda.
La siguientes grficas corresponden a las caractersticas espectrales de los 2 locutores que intervienen en la
conversacin.
4.11Anlisis espectral correspondientes al locutor 3, voz ms alejada del locutor 1 y del dispositivo grabador
15
4.12 Anlisis espectral y comparacin de los tres locutores. Valores muy similares en todas las muestras
analizadas.
En base a estos criterios podemos afirmar que todas las muestras analizadas corresponden a fragmentos de la
misma conversacin.
Todas las grabaciones analizadas presentan cortes o eventos electroacsticas de corta duracin que no son lgicos
en el entorno acstico en el que se desarrollan. Circunstancias que pueden asociarse a manipulacin con
posterioridad al proceso de grabacin sonora. Sin embargo podemos afirmar que la grabacin mantiene una
secuencia lgica, tanto en el plano semntico como expresivo.
No se aprecian paradas, ni pausas en el dispositivo grabador.
16
4.13 Espectrograma que muestra punto de edicin (minuto 4.18)con variacin de la amplitud armnica de la
seal, no hay ausencia de seal.
4.14 La zona marcada de color azul en el espectrograma representa el punto de edicin donde se solapan
varias frases procedentes del Locutor 1 (minuto 4.34)
17
AUDIO 3 para identificacin vocal.mp3
4.16 Espectrograma que muestra punto de edicin entre 2 frases (minuto 7.39), fuerte atenuacin de la
amplitud armnica de la seal
18
AUDIO 4 para identificacin vocal.mp3
Cortes/Edicin: 3 (minuto 2.08, 2.33, 5.31 )
Manipulacin de las voces Loc 2, Loc 3: 5
19
5. ANLISIS VOCAL
5.1Materiales y mtodos
El material aportado para el anlisis consta de 5 pistas estreo en formato mp3, una de ellas etiquetada como voz
indubitada (GIGA.SOSA.21.12.12 ENTREVISTA.LA PAZ.mp3) y por lo tanto la atribuiremos al L-A (locutor A: abogado
Marcelo Soza) y las otras 4 atribudas al mismo locutor (supuestamente el abogado Marcelo Soza) pero que sern
etiquetadas en un principio como L-B/1, L-B/2, L-B/3 y L-B/4. Esto se debe a que recibimos los archivos en 4
fragmentos y aunque en partes anteriores del documento se sostuvo que los cuatro fragmentos son de la misma
conversacin, haremos un anlisis de diferentes fragmentos intralocutor antes del cotejo de ambos locutores.
5.1.1. Pre-procesado
En primer lugar los archivos de audio han de pasar por una serie de pre-procesados para adecuar las caractersticas
el formato a las herramientas de anlisis que se utilizarn a continuacin. El pre-procesado pasa primero por una
descompresin convirtiendo cada archivo original MP3, en un archivo con formato WAV. A continuacin se convierte
el archivo de audio estreo en uno mono con un solo canal, se elige la opcin en este caso de la suma de ambos
canales estreo. Finalmente se hace una copia del archivo haciendo un nuevo muestreo a 22,050kHz por medio de
una diezmado con filtro antialiasing de mxima calidad, que no afectar a los registros de audio en el ancho de
banda en que trabajaremos ni supondr prdida de cualidades de la voz que puedan afectar al anlisis.
Todo este pre-procesado se realiza mediante la herramienta Adobe Audition.
Fragmento L-A_22kHz
Se trata de una entrevista en la que el L-A contesta a preguntas formuladas por una segunda persona. Todas sus
intervenciones se realizan respetando el orden de la conversacin siendo su voz no interferente, por lo que es
eliminada de la pista en los fragmentos del minuto 0:26.333 a 0:29.000 y de 0:49.000 a 0:51.144.
Fragmento L-B/4_22kHz
Se elige el fragmento 4 para este tipo de anlisis En este fragmento existe otro locutor que asiente de vez en cuando,
respetando el turno de la conversacin por lo que simplemente eliminamos su voz mediante el algoritmo limpieza
automtica de Adobe Audition. En el minuto 00:02:08 aparece otra voz muy grave que parece distorsionada al
mismo tiempo que habla L-B. Por esta razn silenciamos el fragmento entre los minutos 2:08.214 y 2:12.447 y
20
nuevamente entre 2:30.388 y 2:36.369 y ms tarde entre 3:53.028 y 3:54.737 y entre 4:50.348 y 4:51.785 y entre
5:27.025 y 5:31.568. Una nueva voz se encuentra entre 2:26.000 2:27.088 que tambin puede perturbar los
resultados con lo que la silenciamos tambin. Entre los minutos 3:08.679 y 3:15.475 el locutor L-B es registrado a
menor nivel, pero decidimos no manipular el sonido.
Fragmento L-B/3_22kHz
Este fragmento contiene gran cantidad de interferencias tipo voz, tipo ruidos de lo que parecen ser cuerdas o
rodillos. Los primeros segundos se nota ruido de movimiento del fonocaptor.
En la se Tabla 5-1 se detallan los procesos de limpieza de la voz dubitada.
Tabla 5-1: Procesado de limpieza y adecuacin de las pistas de voz dubitada para el anlisis estadstico y
automtico
21
BiometroSoft: Caracterizacin biomtrica de la onda gltica.
22
5.3.2. Caractersticas y visualizacin de la seal de voz
5.3.2.1. Espectrograma
El espectrograma muestra la seal utilizando tres variables. En el eje horizontal se encuentra el tiempo, en el vertical
la frecuencia, y en la intensidad o coloracin de la representacin de la seal tenemos la intensidad de la emisin.
El espectrograma nos muestra las caractersticas de la seal vocal en estas tres dimensiones, con lo que nos da
informacin en un vistazo de las formantes de la voz, duracin y reparto de energa en los diferentes sonidos del
habla.
El espectrograma se realiza mediante Transformada Rpida de Fourier con lo que los resultados dependern del tipo
de enventanado y caractersticas de la FFT que se impongan. Generalmente se utilizan dos tipos de espectrograma
en anlisis vocal, el de banda estrecha y el de banda ancha. El de banda ancha nos permite obtener de forma visual
una mayor claridad a la hora de estudiar los formantes y la energa en los rudos no peridicos, mientras que el de
banda estrecha ofrece ms informacin armnica y de la estructura fina del habla.
23
Figura 5-2: Espectrograma de Banda Ancha
El filtro que se ocupa del tracto vocal ha sido modelado en sntesis de voz como un filtro de prediccin lineal (LPC),
el cual dependiendo del fonema a reproducir tendr unos coeficientes diferentes modelando las formantes F1, F2 y F3
(Chen, Bilmes, & Ellis, 2005).
24
Figura 5-4: Ejemplo de representacin del espectro mediante FFT (amarillo), LPC (en azul) y de cepstrum
(negro).
Otro mtodo que se ha utilizado para un mejor anlisis vocal es el dominio cepstral, mtodo que permite obtener
descomponer la seal de voz en dos componente, la seal peridica modelada como un tren de deltas en la Figura
5-1 y la funcin de transferencia de los filtros.
25
Las vocales se caracterizan acsticamente por ser sonidos peridicos y tener 3 formantes que las caracteriza y las
segmentan en abiertas y cerradas, y en altas, media, y bajas.
a: F1=660, F2=1130 i: F1=250, F2=2600
e: F1=480, F2=2120 o: F1=500, F2= 930
u: F1=270, F2= 650
5.3.2.4. Histograma
El pitch o frecuencia fundamental, se debe a la accin de las cuerdas vocales. Se ha observado que esta vibracin no
es constante a lo largo del discurso, detectndose variaciones a lo largo de la frase y tambin dentro mismo de una
palabra. Estas variaciones se deben tanto a la entonacin de la frase, como a la acentuacin de los fonemas as como
al estado emocional del orador.
Mediante procesos estadsticos puede estudiarse a lo largo de un discurso como el locutor vara esta frecuencia
fundamental en funcin a la entonacin y la prosodia, y comprobar cuales con los valores ms probables en dicho
locutor.
La onda gltica es la onda producida por el movimiento de las cuerdas vocales, y produce una funcin de
transferencia anloga a dicho movimiento. Las cuerdas vocales no vibran todo el tiempo de forma esttica durante
los ciclos de fonacin sino que ocurre un movimiento entre las cuerdas como se muestra en la Figura 5-4.
26
Figura 5-7: Movimiento de las cuerdas vocales en 6 pasos
Para caracterizar la onda gltica como rasgo biomtrico se le han atribuido a su forma unos 5 parmetros al igual
que se hace con los PQRST de los electrocardiogramas.
La herramienta que utilizaremos para este anlisis mostrar los valores de CROA de las ondas glticas estudiadas y
las cotejar con los parmetros del modelo biofsico correspondiente, dndonos informacin del locutor ms
profunda. De esta manera obtendremos los parmetros ms distintivos como pueden ser la rigidez de las cuerdas
vocales o la masa de stas (Gmez Vilda et al., 2008).
27
La curva DET resume la discriminacin del conjunto experimental de valores de LR en una nica curva. En ella se
representa la probabilidad de FA frente a la probabilidad de FR para todos los puntos de funcionamiento del sistema.
Muletillas: A parte de ese eh dubitativo entre algunas frases, cuando concluye algunas partes del discurso
aade la muletilla no?
La entonacin es variante, no realizando entonacin acorde con el acento del grupo fnico, siendo una
entonacin propia de la zona demogrfica pero incluyendo acentos forzados enfatizando algunas ideas.
Neutralizacin. Los archifonemas que encontramos en la locucin son tratados de forma poco clara, por
ejemplo en averiguacin de la verdad /aberigwaiN de la veRdD/ realiza claramente [n], [r] y en la
realizacin de /D/ hay cierto debilitamiento. Tambin las dos veces que dice /malkobG/ lo hace de forma
distinta, en la primera realiza el archifonema de forma glotal, y en la segunda ver lo vuelve fricatico.
Oclusivas: la realizacin [k] tiene una doble explosin de duracin entre ellas unos 20ms y unos 30ms hasta
la realizacin de la vocal. El resto de oclusivas sordas tienen el intervalo de explosin (Voice onset time) en
unos 20ms.
28
Pitch: La media de F0 se encuentra en 151Hz y tiene una variacin de 262Hz.
La curva azul muestra el movimiento de las cuerdas vocales y la curva verde el paso de aire a travs de la laringe. La
onda gltica masculina estndar tiene una forma ms lineal ambas curvas. En la mitad de cada ciclo aparece una
inflexin.
La funcin de transferencia muestra que existen formantes hasta los 10kHz aproximadamente
29
5.5. Anlisis locutor L-A frente a L-B
Las realizaciones en L-A se distribuyen de forma ms o menos clara dentro del tringulo voclico propuesto para el
espaol, aunque los valores de F2 parece que se encuentran por encima de la estadstica. En el caso de L-B (voz
dubitada) encontramos esta misma tendencia hacia la parte del espectro ms aguda en F2. Cabe destacar tambin
que la dispersin en L-B tambin parece algo desplazada hacia frecuencias graves en cuanto a F1. No obstante este
hallazgo puede ser compatible con la manipulacin y procesado de voz, prdida de velocidad en un grabador de cinta
magntica, etc.
En cuanto al histograma de F0, obtuvimos una clara diferencia si utilizamos los fragmentos completos que tenemos
de L-B (ms de 1 minuto) en la comparacin con L-A (1 minuto), diferencia en cuanto a la F0 ms probable y a la
funcin de distribucin. La frecuencia F0 para el locutor B (voz dubitada) era de 131,77Hz, y la forma era mucho ms
30
picuda, lo que no era coherente con la percepcin subjetiva ya que en ambos casos L-A y L-B varan su entonacin en
varias ocasiones a lo largo de la grabacin. Por esto decidimos utilizar un fragmento de igual duracin para obtener
valores ms ajustados.
Sin embargo siguen aprecindose diferencias estando claro en ambos casos que la F0 media est prxima a los
150Hz pero habiendo diferencias que si se tratara del mismo hablante podran achacarse a la diferente entonacin en
ambas grabaciones.
Figura 5-13
Para el anlisis de la funcin de transferencia del tracto vocal elegimos una palabra repetida en ambos casos /bonko
malkobk/. El anlisis se realiza mediante espectro FFT, LPC de 5 coeficientes y anlisis cepstral. La cada del filtro
LPC es muy similar y las frecuencias centrales de sus formantes varan en unos 50Hz en ambos casos. La
representacin cepstral es tambin bastante semejante en frecuencias inferiores a 1000Hz, pero en el caso de L-A
aparece una nueva formante alrededor de los 2400Hz, la cual es compatible con una ecualizacin de la voz con
nfasis en esas frecuencias.
31
Figura 5-14: Anlisis espectrogrfico y LPC de L-A frente a L-B ante la palabra
Onda Gltica de L-A vocal /a/ Onda Gltica de L-B vocal /a/
En el caso de la vocal /a/ de L-B (supuestamente el abogado Soza) observamos que la onda sigue teniendo una
inflexin en la mitad del ciclo pero que es menor que la que vemos en L-A.
32
Onda Gltica de L-A vocal /o/ Onda Gltica de L-B vocal /e/
Probando con otras vocales abiertas para hacer la comparacin obtenemos nuevas muestras las cuales coinciden y
demuestran la existencia de esa inflexin en ambos locutores.
Las caractersticas sustradas del anlisis muestran como rasgos distintivos de la fonacin de L-A algunos
parmetros biomecnicos, parmetros temporales y de ciclo. En el caso de la voz indubitada encontramos los
mismos parmetros como distintivos aunque existe una variedad en los datos numricos de los parmetros que
debern ser estudiados con detenimiento.
33
5.6.1. Mtodo de estadsticas del tono
Este mtodo usa diecisis diferentes caractersticas del tono fundamental de voz, tales como: el valor medio del tono
fundamental, sus valores mximo y mnimo, la mediana, el porcentaje de los intervalos con tono creciente, la
dispersin de logaritmo del tono, la asimetra de logaritmo del tono, el exceso de logaritmo delt ono y otros
parmetros. El valor de la equi-probable tasa de error igual (en ingls (Equal Error Rate EER) para el mtodo de
estadsticas del tono depende de la duracin de los fragmentos comparados y puede llegar al valor ~ 1819%.
No obstante, la dependencia de confiabilidad de este mtodo del estado emocional y psicolgico del locutor en el
momento de pronunciacin permite utilizarlo como un auxiliar solamente.
Este mtodo sigue la misma filosofa que la utilizada en el punto 5.5.2.
corte espectral donde se hayan determinados bastante confiables. Estos indicios definen en grado superlativo
algunas particularidades individuales del tracto vocal. La densidad de distribucin de los indicios de identificacin se
modela usando la MDN.
34
Figura 5-16: Comparacin automtica de EF
35
Figura 5-17: comparacion mediante mtodo de variabilidad total
= ( )
=1
donde es la cantidad de los mtodos de identificacin usados para obtener la solucin; es el coeficiente de
ponderacin de un i mtodo; su valor se cambia automticamente dependiendo de calidad de la seal; / son
los errores de tipos primero y segundo de un i mtodo; los valores de / se calculan en porcentaje y estn
dentro del diapasn desde 0 hasta 100 %.
36
Figura 5-18 Comparacin Solucin total.
Resultado de la comparacin
Archivo 1: LA_22k_preproc.wav
Formato: 16 bit; mono; 22050 Hz; 79.12 seg.; el habla no se segment. habla pura: 49.22 seg.;
Archivo 2: LB_04_22k_preproc1min.wav
Formato: 16 bit; mono; 22050 Hz; 80.00 seg.; el habla no se segment. habla pura: 35.98 seg.;
37
Mtodos FR [min,max], % FA [min,max], % LR [min,max] P [min,max], %
EF 22.38 [18.4, 26.3] 10.38 [10.16, 10.6] 2.15 [1.77, 2.5 ] 56.0 [54.0, 57.98]
Tono 1.8 [0.5 , 3.08] 27.5 [27.17, 27.8] 0.07 [0.02, 0.1 ] 37.15 [36.5, 37.8]
MMG 35.9 [31.3, 40.47] 0.86 [0.79, 0.9 ] 41.67 [35.5, 47.8] 67.5 [65.2, 69.8]
Solucin total 26.18 [21.99, 30.37] 1.08 [1.0 , 1.16] 24.2 [20.05, 28.4] 62.5 [60.46, 64.6]
Los rasgos de identificacin de los locutores coinciden con el nivel de confianza ms de 99%.
La probabilidad de coincidencia es ms de 60.46%.
Queda tambin para futuros anlisis la posibilidad de realizar una rueda de reconocimiento mediante el software
BioMetroSoft@Fore el cul no hemos podido realizar a fecha de hoy, y que es complementario a la identificacin
automtica pero desde el punto de vista de la nda gltica del locutor.
38
6.CONCLUSIONES DEL DICTAMEN
1. Determinar si la voz cuestionada que aparece en los cuatro archivos de audio aportados (supuesta voz del
abogado Sr. Marcelo Soza), se corresponde con la muestra indubitada (muestra GIGA.SOSA.21.12.12
ENTREVISTA.LA PAZ.mp3),procedente de la entrevista realizada al Sr. Marcelo Soza en la Televisin de
Bolivia.
A la vista de los resultados obtenidos en todos los anlisis efectuados, podemos decir que hay suficientes indicios
como para considerar que L-A (voz indubitada del abogado Marcelo Soza) y L-B (voz cuestionada, atribuida a
Marcelo Soza), corresponden al mismo locutor.
2. Determinar si las grabaciones han sido manipuladas, editadas o si por el contrario mantienen una
continuidad en el tiempo y el espacio.
La cuatro muestras de audio analizadas (AUDIO 1 para identificacin vocal.mp3 , AUDIO 2 para identificacin vocal.mp3, AUDIO 3 para
identificacin vocal.mp3, AUDIO 4 para identificacin vocal.mp3), con una duracin aproximada de 24 minutos, presentan un
total de 51 eventos electroacsticos de corta duracin,que no son lgicos en el entorno en el que se desarrollan.
Circunstancias que no deben asociarse a parada o mal funcionamiento del dispositivo grabador, sino ms bien a la
manipulacin intencionada con posterioridad al proceso de grabacin sonora.
Sin embargo todos los archivos mantienen continuidad espacio temporal, y una secuencia lgica tanto en el
plano semntico como expresivo.
En todas las grabaciones analizadas, la voz del locutor 1 (correspondientes al supuesto Marcelo Soza) mantiene las
mismas caractersticas acsticas, misma posicin y ubicacin con respecto al dispositivo grabador.
39
3. Determinar si las muestras de audio analizadas corresponden a fragmentos de una misma grabacin, o por
el contrario no existen semejanzas o elementos de continuidad entre ellas.
Todos los archivos de audio analizados comparten carcteristicas acsticas y aportan informacin con rasgos
de continuidad entre s, por lo que podemos afirmar que las cuatro muestras analizadas corresponden a
fragmentos de la misma conversacin.
Tambin podemos afirmar que todas las muestras de audio analizadas fueron registradas con el mismo
dispositivo grabador.
40
DECLARACIN DEL PERITO
D. Miguel ngel de la Torre Guijarro, con DNI: 01833260E, especialista de audio y Director Gerente de la empresa
espaola Graudio Servicios integrales de sonido y formacin (a partir de ahora Graudio Forensics).
Declaro:
- Que juro actuar con la mayor objetividad posible, tomando en consideracin tanto lo que pueda favorecer
como lo que sea susceptible de causar perjuicio a cualquiera de las partes.
- Que estoy informado del contenido de los artculos 458 y 459 del Cdigo Penal Espaol .
- Que he cumplido los siguientes deberes especficos de toda actuacin pericial:
. Actuar con la debida diligencia para no demorar ni entorpecer la actuacin de la Administracin Pblica.
. Guardar la discrecin exigible con arreglo al deber del secreto profesional respecto a las cuestiones
objeto de la pericia y a los hechos que conozca con motivo del desempeo de mi trabajo.
41
Breve Curriculum Vitae del Perito
Formacin Acadmica
. Licenciado en Comunicacin Audiovisual, rama imagen y sonido. Universidad Complutense de Madrid
Trayectoria Profesional
. Director gerente de la empresa Graudio Forensics, primer laboratorio de Audio Forense en Espaa
. Actualmente forma parte del equipo de Grupo pericial, la primera y mayor firma de Peritos Judiciales de
toda Espaa
. Profesor de Audio Forense en la escuela de Derecho y Criminologa de la Universidad CEU San Pablo de
Madrid
42
Biblografa
Koenig B.E, 1990 . Authentication of Forensic Audio Recording , Journal of AES, vol.38,n 12
Owen T. 1989. An introduction to Forensic Examination of audio and video tapes, Rodgers and
Hammerstein Archives of Record Sound Public Library
Chen, C., Bilmes, J., & Ellis, D. P. (2005). Speech feature smoothing for robust ASR. 2005 IEEE
International Conference on Acoustics, Speech, and Signal Processing: Proceedings: March 18-23,
2005, Pennsylvania Convention Center/Marriott Hotel, Philadelphia, Pennsylvania, USA, pp. 525-
528.
Cordn, A. M. (1980). Notas sobre la fontica del castellano en bolivia. Instituto Cervantes.
Gmez Vilda, P., lvarez Marquina, A., Mazaira Fernndez, L. M., Fernndez-Baillo Gallego De La
Sacristana, Roberto, Nieto Lluis, V., Martnez Olalla, R., et al. (2008). Decoupling vocal tract from
glottal source estimates in speaker's identification. Language Design, (Special Issue), 111-118.
Nolan, F. (2001). Speaker identification evidence: Its forms, limitations, and roles. Proceedings of the
conferenceLaw and Language: Prospect and Retrospect, Levi Finland,
Quilis, A. (1997). Principios de fonologa y fontica espaola Arco libros.
43
44