Professional Documents
Culture Documents
ESPE
Departamento de Eléctrica y Electrónica
Reporte 18
Reconstrucción del habla inteligible desde la corteza auditiva humana
Tercer Parcial
Integrantes:
- Jonathan Chasi
- Christian Galarza
- Josselyn Vega
NRC: 3444
Fecha de entrega: 7 de febrero de 2019
Sangolquí
S-II: Octubre 2018 – Febrero 2019
2
Introducción
La reconstrucción del habla a partir de la corteza auditiva humana crea la posibilidad de que
una neuro prótesis establezca una comunicación directa con el cerebro y se ha demostrado que
es posible su implementación y construcción.
La reconstrucción del estímulo auditivo es una técnica de mapeo inverso que encuentra la mejor
aproximación del estímulo acústico de la población de actividad neural evocada. Estudios
anteriores han establecido Una buena manera de reconstruir el aula por medio de datos normal
el problema era que la calidad del audio reconstruido era muy baja.
Para mejorar aún más la reconstrucción se toma énfasis en el estudio de los modelos de
aprendizaje profundo ya que últimamente han sido la técnica dominante para el procesamiento
de señales de audio y de acústica.
Los tres factores para tomar en cuenta en la precisión de la reconstrucción de información es:
Resultados
Grabaciones Neuronales
Todos los sujetos tenían una audición normal auto informada. A los sujetos se les presentaron
historias cortas y continúas habladas por cuatro oradores (dos mujeres, duración total: 30
minutos). Para asegurarse de que los sujetos se comprometieron en la tarea, las historias se
pausaron al azar y se les pidió a los sujetos que repitieran la última oración.
Se eligió sonidos de 40 dígitos (de cero a nueve), hablados por cuatro oradores. Se utilizaron
dígitos reconstruidos como conjunto de prueba para evaluar la inteligibilidad subjetiva y la
calidad de los modelos. Se utilizaron dos rangos de frecuencias neurales en el estudio. Los
componentes de baja frecuencia (0–50 Hz) de los datos neuronales se extrajeron filtrando las
señales neuronales utilizando un filtro de paso bajo. La envoltura de gamma alta se extrajo
filtrando las señales neuronales (70 a 150 Hz) y calculando la envoltura de Hilbert.
4
Modelos de Regresión
La regresión lineal encuentra un mapeo lineal entre la respuesta de una población de neuronas
a la representación del estímulo. Este método asigna efectivamente un filtro espaciotemporal a
cada electrodo estimado al minimizar el error cuadrático medio (MSE) entre el estímulo
original y el reconstruido. El modelo de regresión no lineal se implementó utilizando una red
neuronal profunda (DNN). Se diseñó una arquitectura de red neuronal profunda con dos etapas:
(1) extracción de características y (2) redes de resumen de características como se puede
observar en la Figura 1.
La combinación del FCN y una red conectada localmente (LCN), que restringe la conectividad
de cada nodo a solo un subconjunto de nodos en la capa anterior, logró el mayor rendimiento
para la representación de vocoder. En el FCN + LCN combinado, las salidas de las dos redes
paralelas se concatenan y se utilizan como características de nivel medio.
Representaciones Acústicas
Se utilizó dos tipos de representación acústica del audio como objetivo para la reconstrucción:
el espectrograma auditivo y un vocoder de voz.
Utilizamos los dígitos reconstruidos para Evaluar la inteligibilidad subjetiva y la calidad del
audio reconstruido. Se reconstruyeron cuarenta tokens únicos. de cada modelo, que consta de
diez dígitos (de cero a nueve) que fueron hablados por dos hablantes masculinos y dos
femeninos.
Los oradores que pronunciaron los dígitos eran diferentes de los oradores que se usaron en la
capacitación, y ningún dígito.
Le preguntamos a 11 sujetos con audición normal para escuchar los dígitos reconstruidos de
los cuatro modelos (160 tokens en total) en un orden aleatorio. Cada dígito fue escuchado una
sola vez.
Los sujetos luego informaron los dígitos (cero a nueve, o inciertos), calificaron la calidad de la
reconstrucción utilizando la media puntuación de opinión (MOS49, en una escala de 1 a 5) e
informó el género del hablante (Fig. 2A).
de DNN son significativamente mejores que los modelos de regresión lineal (68.5% vs.
47.5%, prueba t pareada, p <0,001).
La Figura 2C muestra que los sujetos también calificaron la calidad de la reconstrucción
significativamente más alta para el sistema DNN-vocoder, lo que significa que el
sistema DNN-vocoder suena más cercano al habla natural. Los sujetos también
informaron con precisión.
El género del hablante es significativamente mayor que la posibilidad del sistema DNN-
vocoder (80%, prueba t, p <0,001) mientras que el rendimiento para todos los otros métodos
fue casual (Fig. 2D).
La ventaja de los modelos basados en DNN, y el vocoder DNN es que las características
acústicas discriminantes de los sonidos de dígitos se conservan mejor en el modelo DNN-Voc,
lo que permite a los oyentes diferenciarlos correctamente de los demás dígitos.
baja frecuencia y la envolvente de gamma alta (70–150Hz) como información de banda de alta
frecuencia. A determinar qué bandas de frecuencia es mejor incluir para lograr la máxima
precisión de reconstrucción, probamos el
precisión de reconstrucción en tres condiciones, cuando el modelo de regresión utiliza solo la
envolvente de gamma alta, una señal de baja frecuencia, o una combinación de los dos.
La combinación de las dos bandas de frecuencia supera significativamente la reconstrucción
de solo una de las bandas de frecuencia.
Esta observación es consistente con la codificación complementaria de las características de
estímulo en las bandas de baja y alta frecuencia, lo que implica la ventaja de usar la señal neural
completa para lograr el mejor rendimiento en aplicaciones de neuroprótesis del habla cuando
sea prácticamente posible.
Con los diferentes tipos de modelos neuronales finalmente se recolecto gran cantidad de datos,
los cuales fueron examinados dependiendo a la duración del modelo, la precisión de la
reconstrucción.
Para poder utilizar los datos de tomaron 128 electrodos los cuales son los transductores del
sistema, estos se eligieron al azar, se utiliza gran cantidad de modelos neuronales, cada uno
tomaba un segmento de datos por un total de 10 a 30 minutos. Para poder obtener resultados
obtenido se realizó el mismo proceso durante 20 a 30 veces para cada duración se segmento.
Al realizar más experimentos se presenta una mejor y mayor precisión en el sistema, así se
verifico la importancia de recolectar una mayor duración de datos los datos.
Discusión:
Se comparan las curvas obtenidas por la recolección de datos, tanto del modelo de regresión
lineal y el no lineal y se realiza una reconstrucción del espectrograma auditivo además de una
representación de señal de voz.
El modelo neuronal se acoplo correctamente a la curva del modelo lineal, los resultados
obtenidos se aproximaron al 75%.
Pero además del ajuste lineal, el modelo de no linealidad tiene una gran importancia al
momento de presentar los datos de la decodificación neuronal. Los métodos utilizados para la
9
En resumen:
Materiales y métodos
Para la comprobación del sistema se utilizaron personas las cuales poseían la enfermedad de
epilepsia focal, antes del experimento a cada sujeto de prueba se le realizo un control, donde
se debían realizar diferentes tipos de radiografías, exámenes.
Los electrodos que muestran cualquier signo de descargas epileptiformes anormales, como se
identifica en los informes clínicos de los epileptólogos, se excluyeron del análisis.
Todo el tiempo cada participante fue monitoreado para poder revisar la calidad de la señal
emitida, Todos los protocolos de investigación fueron aprobados y supervisados por la junta
de revisión institucional del Instituto Feinstein para la Investigación Médica, y se obtuvo un
consentimiento escrito para participar en los estudios de investigación de cada sujeto antes de
la implantación del electrodo.
Las señales de voz tomadas se grabaron al mismo tiempo que se tomaba las señales neuronales,
para tener un análisis fuera de línea, para poder tomar las diferentes muestras se tomaron dos
rangos de muestra con componentes de baja frecuencia, además que las señales neuronales se
extrajeron se realizó un filtro tipo FIR, Además de tomar muestras de frecuencias gamma alta
con filtros tipo IIR, además para obtener el espectro se realizó la transformada de Hilbert, las
respuestas obtenidas en las frecuencias altas de gamma se normalizaron y un silencio de 2
minutos antes de cada grabación.
Mapas cerebrales
Estimulo
Se realizaron diferentes grabaciones de voz para poder estimular a los pacientes, las personas
los cuales repetían los dígitos eran muy diferentes a las personas que narraban las historias.
Representación acústica
1. Banco de filtros
2. Etapa de células ciliadas
3. Red inhibitoria
Todas las evaluaciones hechas se reconstruyeron utilizando las pruebas subjetivas y objetivas.
Las 11 personas participantes, tenían una audición normal, si escucharon los dígitos
reconstruidos, participantes que informaran el dígito o que seleccionaran no seguros de si el
dígito no era inteligible.
El rango de medida de ESTOI está entre cero (el peor) y uno (el mejor).