You are on page 1of 10

UNIVERSIDAD DE LAS FUERZAS ARMADAS

ESPE
Departamento de Eléctrica y Electrónica

PROCESAMIENTO DIGITAL DE SEÑALES

Reporte 18
Reconstrucción del habla inteligible desde la corteza auditiva humana
Tercer Parcial
Integrantes:
- Jonathan Chasi
- Christian Galarza
- Josselyn Vega
NRC: 3444
Fecha de entrega: 7 de febrero de 2019
Sangolquí
S-II: Octubre 2018 – Febrero 2019
2

Introducción

La reconstrucción del habla a partir de la corteza auditiva humana crea la posibilidad de que
una neuro prótesis establezca una comunicación directa con el cerebro y se ha demostrado que
es posible su implementación y construcción.

Investigaciones similares al tema propuesto son las últimas innovaciones en tecnologías de


síntesis de voz para reconstruir el habla inteligible en un contexto cerrado desde la corteza
auditiva humana. Existe una dependencia en la reconstrucción con los métodos de regresión
lineal y no lineal (red neuronal profunda) y la representación acústica que se utiliza como el
objetivo de la reconstrucción, incluidos los parámetros del espectrograma auditivo y de síntesis
del habla. Esto ayudará en gran medida a restaurar las comunicaciones para pacientes con
parálisis entre otras más.

La reconstrucción del estímulo auditivo es una técnica de mapeo inverso que encuentra la mejor
aproximación del estímulo acústico de la población de actividad neural evocada. Estudios
anteriores han establecido Una buena manera de reconstruir el aula por medio de datos normal
el problema era que la calidad del audio reconstruido era muy baja.

Estudios previos han usado espectrogramas de magnitud (representación tiempo-frecuencia),


envolvente del habla, frecuencias de modulación espectro temporal, etc. El uso de unidades
discretas puede ser ventajoso al permitir un entrenamiento discriminativo, sin embargo, la
decodificación de representaciones discretas del habla como los fonemas elimina la
información paralingüística como características del hablante, emoción y entonación. En
comparación, la reconstrucción del habla continua ofrece la posibilidad de una
retroalimentación continua en tiempo real que se puede entregar al usuario para promover la
coadaptación del sujeto y el algoritmo BCI para mejorar la precisión.

Para mejorar aún más la reconstrucción se toma énfasis en el estudio de los modelos de
aprendizaje profundo ya que últimamente han sido la técnica dominante para el procesamiento
de señales de audio y de acústica.

Los tres factores para tomar en cuenta en la precisión de la reconstrucción de información es:

- La técnica de la regresión (lineal vs no lineal).


- Representación del habla para la reconstrucción (espectrograma versus enconders del
habla)
3

- El rango de frecuencia neuronal utilizado para la regresión (envolvente de baja


frecuencia versus alta gamma)

Resultados

Figura 1 Resultados presentados en las diferentes pruebas.

Grabaciones Neuronales

Todos los sujetos tenían una audición normal auto informada. A los sujetos se les presentaron
historias cortas y continúas habladas por cuatro oradores (dos mujeres, duración total: 30
minutos). Para asegurarse de que los sujetos se comprometieron en la tarea, las historias se
pausaron al azar y se les pidió a los sujetos que repitieran la última oración.

Se eligió sonidos de 40 dígitos (de cero a nueve), hablados por cuatro oradores. Se utilizaron
dígitos reconstruidos como conjunto de prueba para evaluar la inteligibilidad subjetiva y la
calidad de los modelos. Se utilizaron dos rangos de frecuencias neurales en el estudio. Los
componentes de baja frecuencia (0–50 Hz) de los datos neuronales se extrajeron filtrando las
señales neuronales utilizando un filtro de paso bajo. La envoltura de gamma alta se extrajo
filtrando las señales neuronales (70 a 150 Hz) y calculando la envoltura de Hilbert.
4

Modelos de Regresión

La regresión lineal encuentra un mapeo lineal entre la respuesta de una población de neuronas
a la representación del estímulo. Este método asigna efectivamente un filtro espaciotemporal a
cada electrodo estimado al minimizar el error cuadrático medio (MSE) entre el estímulo
original y el reconstruido. El modelo de regresión no lineal se implementó utilizando una red
neuronal profunda (DNN). Se diseñó una arquitectura de red neuronal profunda con dos etapas:
(1) extracción de características y (2) redes de resumen de características como se puede
observar en la Figura 1.

La combinación del FCN y una red conectada localmente (LCN), que restringe la conectividad
de cada nodo a solo un subconjunto de nodos en la capa anterior, logró el mayor rendimiento
para la representación de vocoder. En el FCN + LCN combinado, las salidas de las dos redes
paralelas se concatenan y se utilizan como características de nivel medio.

Representaciones Acústicas

Se utilizó dos tipos de representación acústica del audio como objetivo para la reconstrucción:
el espectrograma auditivo y un vocoder de voz.

- El espectrograma auditivo se calculó utilizando un modelo del sistema auditivo


periférico, que estima una representación de tiempo-frecuencia de la señal acústica en
un eje de frecuencia tonotópica. La reconstrucción de la forma de onda del
espectrograma auditivo se logra mediante un procedimiento de optimización convexo
iterativo porque la fase de la señal se pierde durante este procedimiento.

- Para el vocoder de voz, utilizamos un algoritmo de síntesis de voz de alta calidad


(WORLD) basado en vocoder, que sintetiza la voz a partir de cuatro parámetros
principales: (1) envolvente espectral, (2) f0 o frecuencia fundamental, (3) aperiodicidad
de banda, y una etiqueta de excitación con voz sin voz (VUV). Estos parámetros se
utilizan para volver a sintetizar la forma de onda del habla. Este modelo puede
reconstruir el habla de alta calidad y se ha demostrado que supera a otros métodos,
incluido STRAIGHT. Sin embargo, el gran número de parámetros en el vocoder (516
en total) y la susceptibilidad de la calidad de la síntesis en la estimación inexacta de los
parámetros representan un desafío.
5

Evaluación subjetiva de la precisión de la reconstrucción.

Utilizamos los dígitos reconstruidos para Evaluar la inteligibilidad subjetiva y la calidad del
audio reconstruido. Se reconstruyeron cuarenta tokens únicos. de cada modelo, que consta de
diez dígitos (de cero a nueve) que fueron hablados por dos hablantes masculinos y dos
femeninos.
Los oradores que pronunciaron los dígitos eran diferentes de los oradores que se usaron en la
capacitación, y ningún dígito.
Le preguntamos a 11 sujetos con audición normal para escuchar los dígitos reconstruidos de
los cuatro modelos (160 tokens en total) en un orden aleatorio. Cada dígito fue escuchado una
sola vez.
Los sujetos luego informaron los dígitos (cero a nueve, o inciertos), calificaron la calidad de la
reconstrucción utilizando la media puntuación de opinión (MOS49, en una escala de 1 a 5) e
informó el género del hablante (Fig. 2A).

Figura 2 Resultados de las 11 muestras

 La Figura 2B muestra el promedio de inteligibilidad reportado de los dígitos de los


cuatro modelos de reconstrucción y muestra que las reconstrucciones de los modelos
6

de DNN son significativamente mejores que los modelos de regresión lineal (68.5% vs.
47.5%, prueba t pareada, p <0,001).
 La Figura 2C muestra que los sujetos también calificaron la calidad de la reconstrucción
significativamente más alta para el sistema DNN-vocoder, lo que significa que el
sistema DNN-vocoder suena más cercano al habla natural. Los sujetos también
informaron con precisión.

El género del hablante es significativamente mayor que la posibilidad del sistema DNN-
vocoder (80%, prueba t, p <0,001) mientras que el rendimiento para todos los otros métodos
fue casual (Fig. 2D).
La ventaja de los modelos basados en DNN, y el vocoder DNN es que las características
acústicas discriminantes de los sonidos de dígitos se conservan mejor en el modelo DNN-Voc,
lo que permite a los oyentes diferenciarlos correctamente de los demás dígitos.

Evaluación objetiva del audio reconstruido.


Comparamos la precisión objetiva de reconstrucción de audio reconstruido por tema utilizando
la medida de la inteligibilidad objetiva a corto plazo extendida (ESTOI).
ESTOI se usa comúnmente para la evaluación de la inteligibilidad de las tecnologías de síntesis
de voz y se calcula midiendo la distorsión en los patrones de modulación espectro temporal de
la señal de voz ruidosa.
La puntuación ESTOI es sensible tanto a la reconstrucción inexacta del perfil espectral como
a las inconsistencias en la reconstrucción de patrones temporales. Las medidas de ESTOI se
calcularon a partir de oraciones de habla continua en el conjunto de pruebas.
Mientras que la reconstrucción general varía significativamente entre los sujetos, lo cual es
probable debido a la diferencia en la cobertura auditiva
En las áreas corticales, el rendimiento relativo de los cuatro modelos fue el mismo en todos los
sujetos. Además, promediando las respuestas neuronales en repeticiones múltiples de la misma
expresión de habla mejoraron la precisión de la reconstrucción porque el promedio reduce el
efecto del ruido neuronal.

Precisión de reconstrucción a partir de frecuencias neurales bajas y altas.


Hay evidencia creciente que las bandas de baja y alta frecuencia codifican información
diferente y complementaria sobre el estímulo. Teniendo en cuenta que la frecuencia de
muestreo del objetivo de reconstrucción es de 100 Hz, utilizamos 0–50Hz como la señal de
7

baja frecuencia y la envolvente de gamma alta (70–150Hz) como información de banda de alta
frecuencia. A determinar qué bandas de frecuencia es mejor incluir para lograr la máxima
precisión de reconstrucción, probamos el
precisión de reconstrucción en tres condiciones, cuando el modelo de regresión utiliza solo la
envolvente de gamma alta, una señal de baja frecuencia, o una combinación de los dos.
La combinación de las dos bandas de frecuencia supera significativamente la reconstrucción
de solo una de las bandas de frecuencia.
Esta observación es consistente con la codificación complementaria de las características de
estímulo en las bandas de baja y alta frecuencia, lo que implica la ventaja de usar la señal neural
completa para lograr el mejor rendimiento en aplicaciones de neuroprótesis del habla cuando
sea prácticamente posible.

Figura 3 Precisión de reconstrucción a partir de frecuencias neurales bajas y altas.

Efecto del número de electrodos y duración de los datos de entrenamiento.


La variabilidad de la precisión de la reconstrucción entre los sujetos (Fig. 3B) sugiere un papel
importante de la cobertura neuronal para mejorar la reconstrucción exactitud, debido a que
parte de la señal de ruido a través de diferentes electrodos es independiente.
8

Examinar el efecto del número de electrodos en la reconstrucción, primero combinamos los


electrodos de todos los cinco sujetos y elegimos al azar N electrodos (N = 1, 2, 4, 8, 16, 32, 64,
128), veinte veces para entrenar las redes individuales. La precisión promedio de
reconstrucción para cada N se usó para comparación.
Finalmente, debido a que el éxito de los modelos de redes neuronales se atribuye en gran
medida a la capacitación en grandes cantidades de data examinamos el efecto de la duración
del entrenamiento en la precisión de la reconstrucción. Utilizamos 128 elegidos al azar
electrodos y entrenaron varios modelos de redes neuronales, cada uno en un segmento de los
datos de entrenamiento según la duración de los segmentos aumentaron gradualmente de 10 a
30 minutos.
Los resultados muestran una mayor precisión en la reconstrucción a medida que la duración de
la capacitación fue aumentando, lo que indica la importancia de recopilar una mayor duración
de los datos de entrenamiento cuando se prácticamente factible.

Con los diferentes tipos de modelos neuronales finalmente se recolecto gran cantidad de datos,
los cuales fueron examinados dependiendo a la duración del modelo, la precisión de la
reconstrucción.

Para poder utilizar los datos de tomaron 128 electrodos los cuales son los transductores del
sistema, estos se eligieron al azar, se utiliza gran cantidad de modelos neuronales, cada uno
tomaba un segmento de datos por un total de 10 a 30 minutos. Para poder obtener resultados
obtenido se realizó el mismo proceso durante 20 a 30 veces para cada duración se segmento.
Al realizar más experimentos se presenta una mejor y mayor precisión en el sistema, así se
verifico la importancia de recolectar una mayor duración de datos los datos.

Discusión:

Se comparan las curvas obtenidas por la recolección de datos, tanto del modelo de regresión
lineal y el no lineal y se realiza una reconstrucción del espectrograma auditivo además de una
representación de señal de voz.

El modelo neuronal se acoplo correctamente a la curva del modelo lineal, los resultados
obtenidos se aproximaron al 75%.

Pero además del ajuste lineal, el modelo de no linealidad tiene una gran importancia al
momento de presentar los datos de la decodificación neuronal. Los métodos utilizados para la
9

recolección de datos, utilizan máquinas de vectores de soporte, análisis discriminante lineal,


regresión lineal, incrustaciones no lineales y clasificadoras de Bayes.

En las últimas generaciones se ha visto un enorme avance en todo el mundo de la tecnología,


pero se ha podido percatar grandes éxitos tecnologías de interfaz cerebro-computadora,

En resumen:

Para utilizar las tecnologías neuroprótesis se presentan diferentes marcos generales, En un


futuro la implementación del sistema podría conllevar a ser un gran éxito de sistema debido a
que ayudaría a personas, la cuales sufren parálisis y síndromes bloqueados, al probar
experimentalmente con estas personas reaccionarían desviadamente bien al uso del sistema.

Materiales y métodos

Para la comprobación del sistema se utilizaron personas las cuales poseían la enfermedad de
epilepsia focal, antes del experimento a cada sujeto de prueba se le realizo un control, donde
se debían realizar diferentes tipos de radiografías, exámenes.

Los electrodos que muestran cualquier signo de descargas epileptiformes anormales, como se
identifica en los informes clínicos de los epileptólogos, se excluyeron del análisis.

Todo el tiempo cada participante fue monitoreado para poder revisar la calidad de la señal
emitida, Todos los protocolos de investigación fueron aprobados y supervisados por la junta
de revisión institucional del Instituto Feinstein para la Investigación Médica, y se obtuvo un
consentimiento escrito para participar en los estudios de investigación de cada sujeto antes de
la implantación del electrodo.

Las señales de voz tomadas se grabaron al mismo tiempo que se tomaba las señales neuronales,
para tener un análisis fuera de línea, para poder tomar las diferentes muestras se tomaron dos
rangos de muestra con componentes de baja frecuencia, además que las señales neuronales se
extrajeron se realizó un filtro tipo FIR, Además de tomar muestras de frecuencias gamma alta
con filtros tipo IIR, además para obtener el espectro se realizó la transformada de Hilbert, las
respuestas obtenidas en las frecuencias altas de gamma se normalizaron y un silencio de 2
minutos antes de cada grabación.

Mapas cerebrales

Los electrodos se ubicaron dependiendo a la anatomía de las personas de prueba, todo el


registro se realizó por TC posteriormente se implementó IRM, después de un registro previo
10

los electrodos se identificaron en la tomografía computarizada después de la implantación


utilizando BioImage Suite.

Los resultados se produjo en cada electrodo y lo neurocirujanos corrigieron cualquier erro


producido en los implantes de los pacientes.

Estimulo

Se realizaron diferentes grabaciones de voz para poder estimular a los pacientes, las personas
los cuales repetían los dígitos eran muy diferentes a las personas que narraban las historias.

Representación acústica

1. Banco de filtros
2. Etapa de células ciliadas
3. Red inhibitoria

La señal de audio se reconstruyó a partir del espectrograma auditivo mediante un


procedimiento de optimización iterativo convexo.

Evaluación subjetiva y objetiva

Todas las evaluaciones hechas se reconstruyeron utilizando las pruebas subjetivas y objetivas.
Las 11 personas participantes, tenían una audición normal, si escucharon los dígitos
reconstruidos, participantes que informaran el dígito o que seleccionaran no seguros de si el
dígito no era inteligible.

El rango de medida de ESTOI está entre cero (el peor) y uno (el mejor).

You might also like