You are on page 1of 22

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 0 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

Investigacin Previa
/18:30

idea software, a.c


Direccin: Prolongacin de la 1 Sur
1101, Col. San Pablo Tepetzingo, 75859
Tehuacn, Pu.
Telfono: 01 238 380 3100

Protocolo de investigacin

Aplicacin:
QueDice?
Propuesta de proyecto

MPI-05

06/11/Vie 2015

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 1 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

I.

ANTECEDENTES

Todo comienza con la capacidad de un dispositivo de computacin para ayudar


a entender lo que se est diciendo mediante reconocimiento de voz. Cualquier
persona mayor de 30 aos, sin duda, recordar los das de reconocimiento
frustrantemente imperfecto del habla. Sin embargo, existe un registro real de
una conversacin entre un ser humano y un ayudante computarizado llamado
"Annie" que era un software al cual se le hacan preguntas y si entenda te
responda lo cual era an un gran fracaso con muchos errores.
A principios del ao 1940, los laboratorios de AT&T y Bell desarrollaron un
aparato primitivo que poda reconocer la voz. Estos cientficos saban que el
xito y la globalizacin de esta tecnologa iban a depender de su habilidad de
percibir informacin verbal compleja, con alta precisin y constancia.
En 1960 los cientficos se empezaron a enfocar, en desarrollar un sistema de
reconocimiento de voz ms complejo. Como primer paso, desarrollaron un
aparato que poda usar la conversacin discreta, un estmulo verbal puntuado
por pausas. Sin embargo en 1970, es cuando realmente se desarroll la
tecnologa de reconocimiento de voz que no requera que el usuario haga
pausas entre palabras. Esta tecnologa se volvi practica en los aos 80 y
sigue siendo desarrollada y afinada hasta hoy en da.
Todo esto comenz a cambiar en 2006, con el trabajo llevado a cabo por el
profesor Geoffrey Hinton en la Universidad de Toronto. l y sus colegas
tomaron un enfoque diferente para el aprendizaje de mquina, usando
profundas redes neuronales (DNNS), en la que el "cerebro" informatizado
consta de muchos, capas ocultas interconectadas.
Los primeros xitos en gran escala, se reportaron reconocedores basados en
DNN en 2010, al publicar sus investigaciones sobre DNNS dependientes del
contexto, la participacin de las redes con cientos de unidades de salida, y en
el 2011, cuando Seide, Microsoft Research Asia informaron sobre su trabajo
con un gran nmero de productos y la mejora de los modelos de formacin. El
impacto de estos avances en el reconocimiento de voz fue drstica, lo que
reduce la tasa de palabra sin errores en un tercio en comparacin con el
estado anterior de la tcnica de MMG. En 2013, los modelos basados en DNN
haban estado a punto de reducir a la mitad la tasa de error en comparacin
con los MMG.

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 2 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

Estos sistemas de reconocimiento de voz realizan varias funciones desde ser


utilizados para proveer soporte tcnico telefnico, hasta ser utilizados para
escribir reportes mdicos. Los avances tecnolgicos han hecho que el software
de reconocimiento de voz y sus aparatos, sean mucho ms prcticos y fciles
de usar. Estos avances tecnolgicos han permitido que productos
contemporneos se despeen con una precisin superior al 90 por ciento,
segn indican los nmeros de la industria.
Segn las cifras proporcionadas por la industria. La tecnologa de
reconocimiento de voz satisface las necesidades de negocios y consumidores
al simplificar la interaccin del cliente; esto incrementa la eficiencia y reduce los
costos operativos. Adems, Allied Business Intellignece (ABI) proyect que el
incremento en la popularidad de sistemas de reconocimiento de voz creo un
aumento de ventas de $677 millones en el 2002 a ventas de $5.3 billones en el
2008. Ciertamente, los avances tecnolgicos recientes en el software de
reconocimiento de voz estn creando un ambiente dinmico, debido a que esta
tecnologa resulta muy atractiva para cualquier individuo que necesite o quiera
realizar tareas de computacin manos libres. Conforme el reconocimiento
continuo y la fusin de vocabularios extensos contine, ms y ms compaas
empezaran a usar sistemas de reconocimiento de voz y la industria tomara el
liderazgo en el sector de tecnologa convirtindola en una solucin precisa e
independiente del interlocutor la cual maneja varios idiomas e incrementa la
precisin de envos completados con un 98% de precisin.
EL PROYECTO AUDIO LIBROS
Proyecto Gutenberg hace eBooks de audio disponible para algunos de la
misma gran literatura disponible en texto plano. Nuestros listados se dividen en
dos categoras: los libros de audio-Humanos leer y generados por ordenador.
Estos archivos pueden ser muy grandes, por lo que no son adecuados para las
personas que utilizan un mdem u otra conexin de baja velocidad.
AUDIO LIBROS LEER HUMANO
Gracias a AudioBooksForFree.com para nuestra serie Arthur Conan Doyle de
lecturas humanos, y para LiteralSystems.org para trabajar en nuevas lecturas
por voluntarios. Tambin estamos trabajando con Librivox, un esfuerzo similar
para que la gente de voluntariado para leer. Por favor, considere unirse a ellos!

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 3 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

Todava estamos aadiendo nuevos libros electrnicos de audio ledos por la


gente, sobre todo a travs del trabajo por LiteralSystems.org y Librivox.
Examinar nuestra lista de libros de audio humanos de leer.
LECTURAS POR COMPUTADORAS
Las voces generadas por ordenador utilizados en estos libros son similares a
los de los sistemas automatizados utilizados por los ciegos, as como algunos
sistemas de automatizacin de telfono.

La mayora de estos ttulos se generaron por Mike Eschman, pero algunas


fueron hechas por otras personas. Con el tiempo, los procedimientos utilizados
para generar los libros electrnicos de audio cambiado, por lo que no todos los
libros electrnicos de audio tiene el mismo sonido o estimulacin por la voz de
ordenador.

Hemos dejado de aadir libros electrnicos generados por ordenador. En lugar


de ello, estamos trabajando en mtodos para hacer automticamente libros
electrnicos generados por ordenador en la demanda (es decir, por la eleccin
de opciones, a continuacin, obtener el archivo dentro de un corto perodo de
tiempo).

Somos conscientes de las numerosas anomalas en los libros electrnicos


generados por ordenador, y trabajar para resolverlos (lentamente!). Result
que muchos archivos estaban rotos y perdidos: la mayor parte de las obras de
Jack London estn desaparecidos, y nuestra Charles Dickens Cuento de
Navidad slo tiene la licencia "letra pequea", pero ningn libro electrnico
real. Nos estn regenerando algunos, la eliminacin de los dems, y la fijacin
de lo que podemos. Si encuentra algn problema con uno de los libros
electrnicos de audio, lo ms probable es que ya est en la lista de fijar, con el
tiempo.
Carl Gutenberg. (2007). Proyecto Gutenberg. 2009, de Grupo Gutenberg Sitio
web: http://www.gutenberg.org/wiki/Gutenberg:The_Audio_Books_Project

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 4 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

CONVERSOR TEXTO-VOZ
La conversin texto-voz es la generacin de redes inalmbricas por medios
automticos de una voz artificial que genera el sonido producido por una
persona al leer un texto cualquiera en voz alta o una voz artificial. Es decir, son
sistemas que permiten la conversin de textos en voz sinttica. Los
conversores de texto-voz son conocidos tambin con las siglas CTV o por las
siglas en ingls TTS (Text To Speech).
REQUISITOS DE LOS CONVERSORES CTV/TTS
Debe producir una voz sinttica (artificial) que resulte natural y sea inteligible.
La sntesis del habla ha de ser completamente automtica, sin que se tenga
que introducir ningn tipo de reajuste manual en ninguna parte del proceso.
El texto introducido en el sistema ha de ser un texto arbitrario cualquiera, no
puede estar amaado en ningn sentido.

FASES DE LA CONVERSIN TEXTO-VOZ


En la primera fase se realiza una representacin lingstica simblica, para ello
se siguen tres procesos consecutivos:

Normalizacin del texto.


Se convierte la totalidad del texto a una forma textual convencional. Esto
afecta principalmente a las cifras, abreviaturas, etc. A la normalizacin
del texto tambin se la denomina pre-procesado o tokenizacin.

Conversin fontica.
Una vez normalizado el texto se asignan transcripciones fonticas a
cada palabra. El proceso de convertir las transcripciones fonticas en
palabras se denomina conversin texto-fonema (TTP en sus siglas en
ingls de text-to-phoneme) o conversin grafema-fonema (GTP en
sus siglas en ingls de grapheme-to-phoneme).

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 5 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

Divisin prosdica.
Se divide el texto en unidades prosdicas, tales como unidades
sintagmticas, proposiciones y frases.
En la segunda fase, la que forma el sintetizador propiamente dicho,
toma como entrada la representacin lingstica simblica y la
transforma en voz sinttica.

Educacin con Tic. (2014). Convertir texto a voz para "leer" mientras
hacemos otras cosas. 2015, de Educacin con Tic Sitio web:
http://www.educacontic.es/blog/convertir-texto-voz-para-leer-mientrashacemos-otras-cosas#comment-20570

SNTESIS DE HABLA
La sntesis de habla es la produccin artificial del habla. El sistema computarizado
que es usado con este propsito es llamado computadora de habla o sintetizador
de voz y puede ser implementado en productos software o hardware. Un sistema
text-to-speech (TTS) convierte el lenguaje de texto normal en habla; otros
sistemas recrean la representacin simblica lingstica como transcripciones
fonticas en habla.
El habla sintetizada puede ser creada a travs de la concatenacin de fragmentos
de habla grabados que son almacenados en una base de datos. Los sistemas
difieren en el tamao de las unidades de habla almacenadas; un sistema que
almacena fonosy difonos permite un mayor rango de sonidos pero carece de
claridad. Para usos especficos, el tamao del almacenamiento de palabras
completas u oraciones permite un mayor calidad de audio. De manera alternativa,
un sintetizador puede incorporar un modelo de tracto vocal u otras caractersticas
de la voz humana para recrear completamente una voz "sinttica".
La calidad del sintetizador de voz es evaluado por la similaridad que tenga con la
voz humana y su habilidad para ser entendido de manera clara. Un programa
inteligible convierte el texto al habla permite que las personas con discapacidades
visuales o dificultades para leer pueden escuchar textos en una computadora.
Varios sistemas operativos de computadora tienen sintetizadores de voz
integrados desde principios de los noventas.

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 6 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

Un sistema o "motor" de texto a habla (TTS) est compuesto de dos partes: un


front-end y back-end. El front-end tiene dos tareas principales. Primero, convertir
el texto con caracteres, nmeros, smbolos y abreviaciones en su equivalente en
palabras escritas. Este proceso es llamado como "normalizacin del texto", "preprocesamiento" o tokenizacin, Posteriormente el front-end asigna una
transcripcin fontica a cada palabra, marca y divide el texto en unidades
prosdicas, como frases, clusulas yoraciones. El proceso de asignar
transcripciones fonticas a las palabras es llamado conversion "texto a fonema" o
"grafema a fonema". La informacin de transcripciones fonticas o prosdicas
preparan la informacin de la representacin simblica lingstica que es el
resultado del front-end. El back-end, comnmente referido como el "sintetizador",
convierte la representacin simblica lingstica en sonido. En algunos sistemas,
esta parte incluye el computo de "intencin prosdica" (tono del perfil, duracin de
los fonemas), el cual es implementado en la voz de salida.
Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From Text to
Speech: The MITalk system. Cambridge University Press

II.

JUSTIFICACIN

Debido a que este servicio, llamado "Discurso a voz" (STS) Speech to Speech,
ofrece asistentes de comunicacin de fcil acceso en el telfono, se han vuelto
tan avanzado hasta el punto que hoy en da, su uso es fundamental en
negocios y centros de atencin.
La sntesis de voz (TTS) y reconocimiento del habla (ASR) son piezas clave
en servicios de atencin al cliente, procesos industriales, logsticos, entornos
domticos y en productos para discapacitados.
Se puede usar esta tecnologa para explotarla al mximo dentro de una
aplicacin que reconozca la voz del usuario para luego traducirla
inmediatamente en un lenguaje diferente y la trasmita a otro usuario.

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 7 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

El objetivo del software es generar un excelente funcionamiento que eficienten


los servicios de soporte y atencin a clientes, mejorar la implantacin de sus
sistemas de telefona automtica y mejora de sus centros de llamadas.

III.

PLANTEAMIENTO DEL PROBLEMA

Actualmente los clientes de las empresas que brindan servicios de software


demandan soporte tcnico as como servicio al cliente, pero esto no lo
pueden recibir de forma presencial para lo cual a lo largo de la historia se
ha hecho va telefnica. Pero las empresas han pasado de ser nacionales a
trasnacionales, es decir ya no solo venden dentro del pas de origen si no
ahora ya exportan sus productos o servicios a otros pases, esto ha trado
un gran dilema, pues no se puede atender con eficacia y rapidez a los
clientes de pases que hablan un idioma diferente al nativo del que brinda el
soporte o servicio al cliente.

HIPTESIS
H1
"Es viable desarrollar una aplicacin en la que una conversacin
o frase habladas son inmediatamente traducidas y pronunciadas
en voz alta en un segundo idioma".

IV.

OBJETIVO GENERAL

Desarrollar una aplicacin en la que una conversacin o frase habladas


sean inmediatamente traducidas y pronunciadas en voz alta en un segundo
idioma.

V.

OBJETIVO ESPECFICOS

Generar:

Una aplicacin que sirva como herramienta para las personas que
brindan soporte tcnico o servicio al cliente.

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 8 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

Un software de alta precisin capaz de recabar informacin verbal,


compleja.

Una base de datos con todos los lenguajes formalizados que se


hablen el mundo.

Un software de alta disponibilidad.

VI.

FUNDAMENTOS TEORICOS

MICROSOFT SPEECH API


La interfaz de programacin de aplicaciones de voz o SAPI (abreviatura en ingls
de Microsoft Speech API) es una API desarrollada por Microsoft para permitir el
uso de aplicaciones de reconocimiento de voz y sntesis de voz dentro de
Windows aplicaciones.
Hasta la fecha, se han lanzado una serie de versiones de la API, que se han
distribuido ya sea como parte de un Speech SDK , o como parte de Windows en
s. Las aplicaciones que utilizan SAPI incluyen Microsoft Office, Microsoft Agent y
Microsoft Speech Server.
En general, todas las versiones de la API se han diseado de tal manera que un
desarrollador de software puede escribir una aplicacin, para llevar a cabo el
reconocimiento de voz y sntesis, mediante el uso de un conjunto estndar de
interfaces, accesibles desde una variedad de lenguajes de programacin.
Adems, es posible que una tercera empresa tercera producir sus propios motores
de reconocimiento de voz y de texto o adaptar los motores existentes para trabajar
con SAPI. En principio, siempre y cuando estos motores se ajustan a las interfaces
definidas, pueden ser utilizados en lugar de los motores suministrados por
Microsoft.
En general, la API de voz es un componente de libre distribucin que se puede
enviar en cualquier aplicacin de Windows que desea utilizar la tecnologa de voz.
Muchas versiones (aunque no todos) de los motores de reconocimiento de voz y
sntesis tambin son de libre distribucin.
Ha habido dos "familias" principales de la API de Microsoft Speech. Las Versiones
SAPI 1 a 4 son todos similares entre s, con caractersticas adicionales en cada

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 9 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

nueva versin. Sin embargo, SAPI 5 era una interfaz completamente nueva,
lanzada en 2000. Desde entonces, se han lanzado varias sub-versiones de esta
API.
(Microsoft, 2015)
ANDROID STUDIO
Android Studio es un entorno de desarrollo integrado para la plataforma Android.
Fue anunciado el 16 de mayo de 2013 en la conferencia Google I/O, y reemplaz
a Eclipse como el IDE oficial para el desarrollo de aplicaciones para Android. La
primera versin estable fue publicada en diciembre de 2014.
Est basado en el software IntelliJ IDEA de JetBrains, y es publicado de forma
gratuita a travs de la Licencia Apache 2.0. Est disponible para las plataformas
Microsoft Windows, Mac OS X y GNU/Linux.
CARACTERSTICAS

Renderizacin en tiempo real


Consola de desarrollador: consejos de optimizacin, ayuda para la
traduccin, estadsticas de uso.
Soporte para construccin basada en Gradle.
Refactorizacin especifica de Android y arreglos rpidos.
Herramientas Lint para detectar problemas de rendimiento, usabilidad,
compatibilidad de versiones, y otros problemas.
Plantillas para crear diseos comunes de Android y otros componentes.
Soporte para programar aplicaciones para Android Wear.

PLATAFORMAS SOPORTADAS.
Android Studio est disponible para Windows 2003, Vista, 7, 8 y GNU/Linux, tanto
plataformas de 32 como de 64 bits, y Mac OS X, desde 10.8.5 en adelante.

ECLIPSE
Eclipse es un programa informtico compuesto por un conjunto de herramientas
de programacin de cdigo abierto multiplataforma para desarrollar lo que el
proyecto llama "Aplicaciones de Cliente Enriquecido", opuesto a las aplicaciones

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 10 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

"Cliente-liviano" basadas en navegadores. Esta plataforma, tpicamente ha sido


usada para desarrollar entornos de desarrollo integrados (del ingls IDE), como el
IDE de Java llamado Java Development Toolkit (JDT) y el compilador (ECJ) que
se entrega como parte de Eclipse (y que son usados tambin para desarrollar el

mismo Eclipse). Sin embargo, tambin se puede usar para otros tipos de
aplicaciones cliente, como BitTorrent o Azureus.
Eclipse es tambin una comunidad de usuarios, extendiendo constantemente las
reas de aplicacin cubiertas. Un ejemplo es el recientemente creado Eclipse
Modeling Project, cubriendo casi todas las reas de Model Driven Engineering.
Eclipse fue desarrollado originalmente por IBM como el sucesor de su familia de
herramientas para VisualAge. Eclipse es ahora desarrollado por la Fundacin
Eclipse, una organizacin independiente sin nimo de lucro que fomenta una
comunidad de cdigo abierto y un conjunto de productos complementarios,
capacidades y servicios.
HTML5
HTML5 (HyperText Markup Language, versin 5) es la quinta revisin importante
del lenguaje bsico de la World Wide Web,HTML. HTML5 especifica dos variantes
de sintaxis para HTML: una clsica, HTML (text/html), conocida como HTML5, y
una variante XHTML conocida como sintaxis XHTML5 que deber servirse con
sintaxis XML (application/xhtml+xml).1 2 Esta es la primera vez que HTML y
XHTML se han desarrollado en paralelo. La versin definitiva de la quinta revisin
del estndar se public en octubre de 2014.3
Al no ser reconocido en viejas versiones de navegadores por sus nuevas
etiquetas, se recomienda al usuario comn actualizar su navegador a la versin
ms nueva, para poder disfrutar de todo el potencial que provee HTML5.
El desarrollo de este lenguaje de marcado es regulado por el Consorcio W3C.

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 11 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

LISP
El lisp(o LISP) es una familia de lenguaje de programacin de computadora de tipo
multiparadigma con una larga historia y una sintaxis completamente entre
parentesis
Especificado originalmente en 1958 por John McCarthy y sus colaboradores en
el Instituto Tecnolgico de Massachusetts, el Lisp es el segundo ms
viejo lenguaje de programacin de alto nivel de extenso uso hoy en da; solamente
el FORTRAN es ms viejo.
Al igual que el FORTRAN, el Lisp ha cambiado mucho desde sus comienzos, y
han existido un gran nmero de dialectos en su historia. Hoy, los dialectos Lisp de
propsito general ms ampliamente conocidos son el Common Lisp y el Scheme.
El Lisp fue creado originalmente como una notacin matemtica prctica para los
programas de computadora, basada en el clculo lambda de Alonzo Church. Se
convirti rpidamente en el lenguaje de programacin favorito en la investigacin
de la inteligencia artificial (AI). Como uno de los primeros lenguajes de
programacin, el Lisp fue pionero en muchas ideas en ciencias de la computacin,
incluyendo las estructuras de datos de rbol, el manejo de almacenamiento
automtico, tipos dinmicos, y el compilador auto contenido.
El nombre LISP deriva del "LISt Processing" (Proceso de LIStas). Las listas
encadenadas son una de las estructuras de datos importantes del Lisp, y el cdigo
fuente del Lisp en s mismo est compuesto de listas. Como resultado, los
programas de Lisp pueden manipular el cdigo fuente como una estructura de
datos, dando lugar a los macro sistemas que permiten a los programadores crear
una
nueva
sintaxis
de lenguajes
de
programacin
de
dominio
especfico empotrados en el Lisp.
ESPEAK
eSpeak es una fuente abierta de software sintetizador de voz compacta para
Ingls y otros idiomas, para Linux y Windows. http://espeak.sourceforge.net
eSpeak utiliza un mtodo de "sntesis de formantes". Esto permite a muchos
idiomas que se deben proporcionar en un tamao pequeo. El discurso es claro, y
se puede utilizar a altas velocidades, pero no es tan natural o suave como
sintetizadores ms grandes que se basan en grabaciones de voz humanos.

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 12 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

eSpeak est disponible como:

Un programa de lnea de comandos (Linux y Windows) para hablar de texto


desde un archivo o de la entrada estndar.
Una versin de la biblioteca compartida para su uso por otros programas.
(En Windows este es un archivo DLL).
Una versin SAPI5 para Windows, por lo que se puede utilizar con los
lectores de pantalla y otros programas que apoyan la interfaz de Windows
SAPI5.
eSpeak ha sido portado a otras plataformas, incluyendo Android, Mac OSX
y Solaris.

Caractersticas.

Incluye diferentes voces, cuyas caractersticas se pueden alterar.


Puede producir salida de voz como un archivo WAV.
SSML (Speech Synthesis Markup Language) es compatible (no completa),
y tambin en HTML.
Tamao compacto. El programa y sus datos, incluyendo muchos idiomas,
asciende a cerca de 2 Mbytes.
Puede ser utilizado como un front-end para voces difonos Mbrola, consulte
mbrola.html. eSpeak convierte el texto en fonemas con el tono y la
informacin de longitud.
Puede traducir texto a cdigos de fonemas, por lo que podra ser adaptado
como un front-end para otro motor de sntesis de voz.
Potencial para otros idiomas. Varios estn incluidos en distintas etapas de
progreso. Ayuda de hablantes nativos para estos u otros idiomas es
bienvenida.
Las herramientas de desarrollo estn disponibles para la produccin y
puesta a punto de datos de fonemas.
Escrito en C.

Idiomas: El sintetizador de voz eSpeak soporta varios idiomas, sin embargo en


muchos casos se trata de proyectos iniciales y necesitan ms trabajo para
mejorarlos. La ayuda de hablantes nativos es bienvenido para stos u otros
nuevos lenguajes. Por favor, pngase en contacto conmigo si quieres ayudar.

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 13 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

eSpeak hace texto para la sntesis de voz para los siguientes idiomas, algunos
mejores que otros.
Afrikaans, albans, el aragons, el armenio, blgaro, cantons, cataln, croata,
checo, dans, holands, ingls, esperanto, estonio, farsi, finlands, francs,
georgiano, alemn, griego, hindi, hngaro, islands, indonesio, irlands, italiano,
kannada, kurdo, letn, lituano, lojban, macedonio, malayo, malayalam, mandarn,
nepal, noruego, polaco, portugus, punjabi, rumano, ruso, serbio, eslovaco,
espaol, swahili, sueco, tamil, turco, vietnamita, Gals.
VERBIO
Verbio es un conjunto de libreras y utilidades destinadas a conseguir una rpida y
sencilla incorporacin de herramientas del habla (reconocimiento y sntesis del
habla, verificacin de locutor y soluciones relacionadas) en aquellas aplicaciones
en las que pueda resultar interesante disponer de una interfaz vocal.
Verbio incorpora, por lo tanto, funcionalidades de reconocimiento del habla y de
sntesis del habla, cuyas caractersticas principales se detallan en los captulos
Captulo 4. Reconocimiento del habla y Captulo 5. Conversin de texto en habla
respectivamente. Cualquier entorno que disponga de un dispositivo que permita
obtener y/o reproducir muestras de audio ser susceptible de incorporar las
herramientas contenidas en Verbio. Es decir, el sistema de reconocimiento
requerir la obtencin de las muestras de audio dictadas por el locutor para
procesarlas y obtener el resultado de reconocimiento. Por otro lado, el sistema de
snte.

VII.

TIPO DE INVESTIGACIN
Diseo de la Investigacin Cuantitativa, ya que se contaran los
usuarios que acepten la aplicacin as como los que la usen.

VIII.

POBLACIN Y MUESTRA

POBLACIN: Toda las empresas dedicadas a dar soporte tcnico o


servicio al cliente a usuarios que hablen un idioma diferente al del prestador
de servicio. Dicha poblacin tiene Homogeneidad, es decir todos tienen la
misma necesidad de comunicarse y no lo pueden hacer.

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 14 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

MUESTRA: La muestra es sistematica es decir solo se tomaran en cuenta


para las pruebas a 100 usuarios de dichas empresas.

IX.

INSTRUMENTO DE EVALUACIN.
UNIVERSIDAD TECNOLGICA DE TEHUACN
ING. EN TECNOLOGIAS DE LA INFORMACIN Y LA COMUNICACIN
INTEGRADORA III
SEPTIEMBRE-DICIEMBRE 2015

PROTOCOLO DE PROYECTO DE INVESTIGACIN


INSTRUMENTO EVALUATIVO DE LA APLICACIN QUEDICE

INSTRUCCIONES: por favor conteste el presente cuestionario segn tu criterio.


1. Su gnero
Masculino
Femenino
2. Hablas un segundo idioma?
SI
NO
Ninguno
3. Has usado el servicio de bsqueda por voz de google?
SI
NO
4. Te parece til?
SI
NO
5. Qu opinas de una aplicacin en la que una conversacin o frase que t le
digas sean inmediatamente traducidas y pronunciadas en voz alta en un
segundo idioma?
__________________________________________________________________
__________________________________________________________________
__________________________________________________________________
__________________________________________________________________
6. Si llegara a existir, la usaras?
SI
NO
7. Estaras dispuesto a pagar por ella?
SI

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 15 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

NO

8. Qu usos le daras?
__________________________________________________________________
__________________________________________________________________
__________________________________________________________________

X.

COMPROBACIN

Para poder comprobar la viabilidad de este proyecto se elabor una


hiptesis alternativa.
H1
"Es viable desarrollar una aplicacin en la que una conversacin o frase
habladas son inmediatamente traducidas y pronunciadas en voz alta en
un segundo idioma".

Para poder comprobar la viabilidad de este proyecto se elabor una


hiptesis nula.
H0
"No es viable desarrollar aplicacin en la que una conversacin o frase
habladas son inmediatamente traducidas y pronunciadas en voz alta en
un segundo idioma".

Para lo cual se realizarn pruebas de campo donde se pedir a 100


usuarios que por medio de la aplicacin e intenten dar soporte tcnico,
atencin a clientes o simplemente comunicarse con otras personas que
hablen otro idioma.
Una vez acabada la prueba se aplicara una entrevista personal a cada
usuario, donde se le harn preguntas del nivel de dificultad que tuvieron
para comunicarse.
Una vez tenida la informacin recabada de todos los usuarios se agruparn
las respuestas y se aplicaran diferentes mtodos matemticos como las
frecuencias relativas y absolutas para determinar el nivel de aceptacin de
los usuarios para con la aplicacin.

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 16 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

XI.

ALCANCE

Este proyecto se centra en generar una aplicacin capaz de comunicar a


empresas que brindan soporte tcnico o servicio al cliente a travs de voz y
que hablen un idioma diferente al de los usuarios o clientes a los que les
dan servicio. Siendo la aplicacin el medio que hace posible la
comunicacin pues tendr una base de datos de todos los idiomas ms
populares o ms usados del mundo.
Al finalizar el proyecto se entregara una aplicacin compatible con cualquier
dispositivo conectado a internet y que tenga un perifrico de entrada
(micrfono) y un perifrico de salida (altavoz, auricular).

XII.

DURACIN DEL PROYECTO

Semanas como mnimo se puede realizar el proyecto: 24 SEMANAS

XIII.

MEDICIN DEL RETORNO DE LA INVERSIN


(ROI)

El retorno de la inversin es la herramienta que usaremos para saber


cunto esperamos obtener de ganancia de lo se invertir en la aplicacin
Quedice?, as como el tiempo que se llevara la recuperacin del capital.
INVERSIN APLICACON DE VOZ A VOZ

EGRESOS

TOTAL EGRESO

EQUIPOS DE COMPUTO

3,000.00

PANTALLAS EXTERNAS

4,000.00

ALTAVOCES

1,000.00

MICROFONOS

1,300.00

EQUIPOS DE COMPUTO PORTATILES

3,000.00

SOFTWARE DE RECONOCIMIENTO DE VOZ

35,000.00

SOFTWARE DE TEXTO A VOZ

6,000.00

SOFTWARE DE VOZ A VOZ

897.00

SOFWARE DE COMUNICACIN PEER TO PEER

3,400.00

SOFTWARE DE CONTROL DE CAMBIOS DE FICHEROS.

1,300.00

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 17 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100
SOFTWARE PARA EL CONTROL DE PROYECTOS.

500.00

DISEADOR DE APLICACIONES MOBILES

3,000.00

DISEADOR DE APLICACIONES WEB

24,000.00

ADMINISTRADOR DE BASE DE DATOS

14,000.00

GERENTE DE PROYECTO

5,000.00

EXPERTO EN IDIOMAS

8,000.00

TOTAL INVERSIN

113,397.00

EJEMPLO GASTOS MENSUALES DE UNA EMPRESA DE SOPORTE TECNICO CON 10 EMPLEADOS

INVERSIN APLICACON DE VOZ A VOZ


EGRESOS

TOTAL EGRESO

EQUIPOS DE COMPUTO

10,000.00

HONORARIO EXPERTO EN IDIOMAS

12,000.00

LICENCIAS TRADUCTORES TECNICOS

3,000.00

PERDIDAS DE CLIENTES POR EVACIN DE SOPORTE

2,500.00

GASTOS DE TRASLADOS

13,000.00

VIATICOS DE TRASLADOS

40,000.00

HONORARIOS DE PERSONAL DE SOPORTE TECNICO BILINGUES

55,000.00

TOTAL EGRESOS

299,897.00

COSTO LICENCIA "QUE DICE"


1 LICENCIA SOFTWARE VOZ A VOZ

TOTAL EGRESO

$22,000

EJEMPLO GASTOS MENSUALES DE UNA EMPRESA DE SOPORTE TECNICO CON 10 EMPLEADOS

INVERSIN APLICACON DE VOZ A VOZ


EGRESOS

TOTAL EGRESO

EQUIPOS DE COMPUTO

10,000.00

HONORARIO EXPERTO EN IDIOMAS

12,000.00

LICENCIAS TRADUCTORES TECNICOS

3,000.00

PERDIDAS DE CLIENTES POR EVACIN DE SOPORTE

2,500.00

GASTOS DE TRASLADOS

13,000.00

VIATICOS DE TRASLADOS

40,000.00

HONORARIOS DE PERSONAL DE SOPORTE TECNICO BILINGUES

55,000.00

TOTAL EGRESOS

65,000.00

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 18 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

TOTAL
GASTO MENSUAL SIN "QUEDICE?"

299,897.00

GASTO MENSUAL CON "QUEDICE?"

65,000.00

TOTAL DE AHORRO PARA LA EMPRESA

$ 234,897.00

PARA PODER RECUPERAR LA INVERSION HECHA EN EL DESARROLLO DE LA APLICACIN


QUEDICE? SE NECESITAN VENDER 5 LICENCIAS DE LA APLICACIN.
UN CLIENTE QUE HAYA COMPRANDO UNA LICENCIA SOLO NECESITA UN MES PARA
RECUPERAR LO INVERTIDO.

CLAVE: MPI-008

03/10/2015 Sab 14:30

Pgina 0 de 21

Idea
Software, a.c

Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

XIV.

RECURSOS HUMANOS Y MATERIALES

RECURSOS ORGANIZACIONALES

La organizacin actual de la empresa idea


software

Software de control de recursos financieros y


materiales.

Software de control de cambios de ficheros.

Software para el control de proyectos.

RECURSOS HUMANOS

RECURSOS
FINANCIEROS

Diseador de
aplicaciones
mviles
Diseador de
aplicaciones web
Administrador de
base de datos
Se necesitan
Gerente de
$400,000 mil
proyecto

pesos para el
desarrollo de
la aplicacin.

RECURSOS MATERIALES

Equipos de computo

Pantallas externas

Altavoces

Micrfonos

Equipos de cmputo
porttiles
Software de
reconocimiento de voz
Software de texto a voz
Software de voz a voz
Software de
comunicacin peer to
peer

03/10/2015 Sab 14:30

Idea
Software, a.c
Direccin: Prolongacin de la 1 Sur 1101,
Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

XV.

WBS
Speech to Speech
Que dice?

XVI.

CRONOGRAMA

Pgina 0 de 21
Solo ideas creativas

CLAVE: MPI-008

03/10/2015 Sab 14:30

Idea
Software, a.c

Pgina 1 de 21
Solo ideas creativas

Direccin: Prolongacin de la 1 Sur 1101,


Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100

XVII.

CONCLUSIONES

Con la informacin recopilada en este protocolo podemos afirmas que es viable


desarrollar QueDice?, la aplicacin en donde una conversacin o frase hablada,
es inmediatamente traducidas y pronunciadas en voz alta en un segundo idioma,
ya que la sntesis de voz (TTS) y reconocimiento del habla (ASR) son piezas clave
en servicios de atencin al cliente, procesos industriales tambin determinamos
que es factible econmicamente, ya que con solo la venta de 5 licencias de la
aplicacin se absorbe el costo de produccin. Y para el caso del cliente este
desde el primer mes del uso de la aplicacin recupera lo pagado por la licencia del
producto.
Con la aplicacin Quedice? se cumple el reto de dar respuesta a las necesidades
de un mercado de rpida evolucin que requiere gran flexibilidad e innvacion.