You are on page 1of 25

Pg.

1
INDICE
I.

EL PROBLEMA 02

1.1. Anlisis de la situacin problemtica .. 02


1.2. Definicin del problema . 03
1.3. planteamiento del problema .. 04
1.4. Justificacin del problema .. 04
II.

III.

OBJETIVOS . 06
2.1.

Objetivo general . 06

2.2.

Objetivos especficos . 06

MARCO REFENCIAL . 07

3.1. Marco terico 07


3.2. Marco conceptual 17
IV.

V.

VI.

HIPTESIS Y VARIABLES 18
4.1.

Hiptesis general 18

4.2.

Hiptesis especficas . 18

4.3.

Anlisis de variables e indicadores . 19

DISEO DE LA INVESTIGACIN 19
5.1.

Tipo y nivel de investigacin . 19

5.2.

Diseo de la Investigacin 19

5.3.

Matriz de consistencia 21

5.4.

Diseo de prueba de hiptesis 22

5.5.

Poblacin y muestra 23

5.6.

Diseo de recopilacin de informacin 23

PRESUPUESTO Y FINANCIAMIENTO. 24
6.1. Prepuesto bsico 24
6.2. Cronograma 25

VII.

ESTRUCTURA BSICA DEL INFORME .. 25

VIII. BIBLIOGRAFIA CONSULTADA. 26

PROYECTO DE TESIS
TRANSFERENCIA SINTCTICA SUPERFICIAL PARA TRADUCTOR AUTOMTICO DE TEXTOS
DEL IDIOMA ESPAOL A LA LENGUA AYMARA

Pg. 2
I.

EL PROBLEMA
1.1. Anlisis de la situacin problemtica
En este mundo, de mltiples culturas, idiomas, y globalizado, los traductores automticos
como aplicacin del procesamiento de lenguaje natural ha aportado significativamente en la
interaccin de culturas en esta macro sociedad permitiendo al hombre interrelacionarse con
sus semejantes, mediante la traduccin de textos o habla de un lenguaje natural a otro un
claro ejemplo es google, con su traductor automtico para diferentes idiomas.
Sin embargo resalta los aportes de estas tecnologas para lenguas nativas como el aymara y
el quechua en nuestro pas han sido pocos, no existiendo ningn traductor automtico para
estas lenguas y se tiene como consecuencia en nuestro medio la incomprensin de culturas y
conocimientos relegados que podran aportar al desarrollo de nuestro pas.
Asimismo en la Constitucin Poltica del Estado Peruano menciona que toda persona tiene
derecho a usar su propio idioma, y son idiomas oficiales el castellano y tambin lo son el
quechua y el aymara en las zonas donde predominen [PRES93 Art. 2 enciso 19 y Art. 48] . El
problema una vez ms resalta porque no hay herramientas tecnolgicas como traductores
automticos que conlleven esta mocin y que apoyen a la interaccin entre los individuos de
diferentes idiomas y lenguas.
Tambin se sabe que el Per es un pas pluricultural, porque en el espacio social y geogrfico
conviven diversas culturas, entonces se habla de interculturalidad, que es la relacin entre
varias culturas. Para ello, una vez ms se ve que los aportes cientfico tecnolgicos, no han
trascendido en su magnitud para apoyar este intercambio intercultural en comunidades de
habla aymara, que requieren insertarse a la modernidad o a los cambios tecnolgicos,
adems considerando que dos culturas diferentes tienen idiomas distintos cabe sealar que la
interculturalidad empieza su accin en comprender y traducir sus idiomas, vindose la
necesidad lgida que invoca la urgencia de desarrollo e implementacin de herramientas
como los traductores automticos para estas lenguas de la regin andina.
Los actuales aymaras se denominan a s mismos: la nacionalidad qulla y se estima que los
hablantes oscilan entre dos millones y medio de personas quienes viven principalmente en
Bolivia y Per, sobre todo en el altiplano del Titicaca. Quienes realizan estudios e
investigaciones con respecto a esta cultura se encuentra con limitaciones en cuanto al acceso
a la informacin, por lo que un traductor automtico ser una puerta abierta en traduccin a
otros idiomas.
1.2. Definicin del problema

Pg. 3

La inexistencia de un traductor automtico para la lengua aymara es un problema de


desarrollo e implementacin tecnolgica, como tal es una aplicacin del Procesamiento de la
Lengua Natural y esta es una subdisciplina de la Inteligencia Artificial, los traductores
automticos tambin son considerados como una rama de la Lingstica Computacional, la
misma que investiga el uso de software para traducir textos de un lenguaje natural a otro.
Por otro lado, a pesar de que la mayor parte de la produccin de software se hace como
software privativo, tambin el desarrollo de software en cdigo abierto (open source o
software libre), las cuales estn alcanzando su importancia actualmente, evidentemente se ve
como un smbolo de esta lnea al Sistema Operativo Linux, bajo est denominacin Cdigo
Abierto, de la misma forma existe el software OpenTrad Apertium software de traduccin
automtica basado en cdigo abierto, cuyo cdigo fuente se reutilizar para la
implementacin del traductor automtico motivo de la presente investigacin.
La investigacin sobre el Transferencia Sintctica Superficial para Traductor Automtico de
Textos del Idioma Espaol a la Lengua Aymara est enmarcada como tipo de investigacin
Aplicada o tecnolgica y el nivel de investigacin es experimental.
1.3. Planteamiento del Problema
Dada la gran explosin de informacin que vive la sociedad del siglo XX, la traduccin
automtica es una aplicacin que ayudar a superar la barrera del idioma, permitiendo
traducir textos del idioma espaol a la lengua aymara, el aporte que se lograr es relevante
por que conllevar a la comunicacin entre individuos de diferentes culturas.
El traductor automtico antes de su implantacin ser evaluada por los mtodos de
evaluacin de traduccin automtica de esta manera se medir la eficiencia del traductor
automtico.
Por tanto: Ser eficiente la calidad del traductor automtico del idioma espaol a la
lengua aymara basado en la transferencia sintctica superficial?
1.4. Justificacin de la Investigacin
El aporte fundamental de este proyecto es la de complementar la comunicacin entre varias,
como resultado final el traductor automtico beneficiar a los estudiantes, profesionales e
investigadores de la lengua aymara, quienes tendrn la posibilidad de traducir informacin en
esta lengua. Asimismo la investigacin busca la reivindicacin de esta lengua que cumple un
papel trascendental como vehculo de expresin y pensamiento.

Pg. 4

Por otro lado la situacin problemtica actual de las lenguas andinas como el aymara se ha
desarrollado ms en su forma oral que escrita y ms an notndose la inexistencia de
herramientas para el apoyo en lecto escritura de esta lengua, por lo que el aporte del
traductor automtico coadyuvar en el desarrollo del conocimiento de la lingstica andina.
Adems la cultura aymara esta cobrando cada vez mayor importancia por los investigadores
en sus diferentes reas, pero frente a esta importancia existe una brecha, la lengua, entre la
cultura y los investigadores, razones que hacen que se limite los trabajos de investigacin en
este campo, como alternativa para romper esta brecha se propone contribuir con un traductor
automtico para impulsar el conocimiento de la cultura aymara.
La sociedad moderna ha desarrollado la idea que las lenguas como el quechua y el aymara
pertenecen al pasado, los jvenes en las ciudades no quieren hablar el aymara no valoran por
que les parece anticuado, poco utilizable, al navegar en los sitios web confirman su
pensamiento porque no hay herramientas en Internet que se identifiquen con la lengua
aymara, con la implantacin de un traductor automtico se impulsar el aprendizaje de esta
lengua y por ende el crecimiento del conocimiento.
La Ley de Educacin en su Artculo 20, establece que la Educacin Intercultural se debe
ofrecer en todo el sistema educativo nacional [PRES04 Art. 20]. Sin embargo no existen
herramientas atractivas orientadas a Internet para conllevar esa direccionalidad del Ministerio
de Educacin.
Finalmente, el aymara hablante no encuentra textos o bibliografa en su lengua en las
bibliotecas locales mucho menos en las bibliotecas nacionales y/o internacionales, de modo
que se siente limitado para desarrollar conocimiento en su lengua y cultura, situaciones que le
llevan a contar con una herramienta como traductores automticos.
Actualmente no hay investigaciones con la idea de contribuir con un traductor automtico del
idioma espaol a la lengua aymara, es evidente que en los sitios Web se ofrecen traductores
de palabras ms no de frases.
1.5. Antecedentes de la investigacin
En el mbito regional no existe investigaciones con respecto a traductores automticos de
textos del idioma espaol a la lengua aymara. En el mbito nacional tampoco hay
investigaciones emprendidas con respecto a este tema.

Pg. 5
Sin embargo existen implementaciones como el opentrad apertium (Traductor automtico por
transferencia sintctica de espaol a euskera) y maxin para traduccin automtica profunda,
ambas desarrolladas en Espaa.
Considerando que la lengua aymara mas hablada en Bolivia y Per, an no existen
investigaciones para implementar la herramienta como el traductor autmatico.
II.

OBJETIVOS
2.1. Objetivos general
Medir la calidad del traductor automtico de textos del idioma espaol a la lengua aymara
basado en la transferencia sintctica superficial.
2.2. Objetivos especficos

Implementar el traductor automtico de textos del idioma espaol a la lengua aymara


basado en la transferencia sintctica superficial.

Evaluar el traductor automtico de textos del idioma espaol a la lengua aymara basado
en la transferencia sintctica superficial con las mtricas de evaluacin de traductores
automticos

III.

MARCO REFERENCIAL
3.1. Marco terico
3.1.1.

Idioma Espaol

El idioma espaol o el castellano es la segunda lengua ms hablada del mundo por el


nmero de hablantes que la tienen como lengua materna ( 1) (tras el chino mandarn), es
uno de los seis idiomas oficiales de acuerdo la Organizacin de las Naciones Unidas, se
habla como primera y segunda lengua entre 450 y 500 millones de personas a nivel
mundial. Por otro lado, el idioma espaol es el segundo idioma ms estudiado en el
mundo tras el ingls de acuerdo al Instituto Cervantes (dedicada a la promocin y
enseanza de la lengua espaola).
1

SUMMER INSTITUTE of LINGUISTICS.- Instituto que realiza estudios de las lenguas minoritarias y
las culturas de todo el mundo, como dominios acadmicos incluye Lingstica, Traduccin, Computacin y
otros.

Pg. 6

Gramtica del idioma Espaol


Conjunto finito de reglas que especifican el idioma espaol basado en la idea de
estructura de la frase donde las cadenas estn compuestas de subcadenas llamadas
frases, las cuales pueden pertenecer a distintas categoras como frase nominal (FN) frase
verbal (FV), considerando queel idioma espaol es una lengua flexiva de tipo fusional, es
decir, en las oraciones se usa preferentemente la flexin para indicar las relaciones entre
sus elementos. En el idioma espaol como en otros idiomas los lingistas se afanan en
descubrir propiedades del lenguaje por medio de un proceso de investigacin cientfica y
entonces codificar sus descubrimientos en una gramtica.( 2)
Oracin (frase)
Es la mnima unidad de lenguaje con sentido completo. Por sentido completo se entiende
que se est expresando asume una determinada actitud ante lo que dice, es decir, que
pregunta, afirma, niega, etc. La oracin gramatical se divide en dos miembros: Predicado
y sujeto. El ncleo es un elemento clave que nos ayuda a identificar fcilmente tanto al
sujeto como al predicado. El ncleo del predicado es siempre el verbo, ya que este es
indispensable para que exista un predicado. Lo mismo sucede con el sujeto, la palabra
bsica en la mayora de los casos y ncleo del sujeto es el sustantivo. Sin embargo existe
en el espaol tantas variaciones, que existen otros casos de ncleos del sujeto como:
pronombres personales, un infinitivo, un participio sustantivado, un adjetivo sustantivado,
etc. Los dems elementos que acompaan al sustantivo o al verbo se les llama
modificadores del ncleo.
Categora gramatical
Categora gramatical (o parte de la oracin o categora morfolgica o clasificacin
sintctica) es una antigua clasificacin de las palabras segn su tipo La gramtica
tradicional distingue nueve partes de la oracin: Sustantivo o nombre, Pronombre, Verbo,
Adjetivo, participio, Adverbio, Preposicin, Conjuncin e Interjeccin.
Morfologa
Como idioma flexivo las palabras del espaol se forman mediante lexemas o races a los
que se agregan morfemas gramaticales o gramemas (como el gnero masculino o
femenino y el nmero singular o plural para los sustantivos y adjetivos, y el modo, tiempo,
voz, aspecto y persona y nmero para el verbo), ms todo tipo de afijos que sirven para
formar palabras derivadas. La derivacin marca la afectividad con sufijos apreciativosvalorativos tales como: diminutivos, aumentativos, despectivos, y otros, se tiene en
cuenta las siguientes definiciones:

. Stuart Rusell y Meter Norvig, Inteligencia Artificial un enfoque moderno, Segunda Edicin, Editorial.
Pearson Educacin S.A. Madrid 2004 , Pg. 899.

Pg. 7

Palabra es la mnima unidad de significado.

Lexema es el elemento que contiene la significacin de la palabra. Tradicionalmente


se le ha llamado raz.

Morfemas son las letras que van pospuestas al lexema. Indican los accidentes del
vocablo. Estos accidentes son: gnero, nmero, tiempo y persona.

Palabras primitivas son las que originan otros vocablos.

Palabras derivadas son las que han sido originadas por las palabras primitivas, a las
que se les ha aadido uno o ms sufijos.

Prefijos son elementos que se preceden a las palabras, y que les aaden
significacin.

Sufijos son ls elementos que posponen a las palabras y que les aaden significacin.

Incremento es la letra o letras que van entre el lexema y el sufijo. Esta letra o letras
se han aadido por eufona. Los sufijos sirven para formar sustantivos y adjetivos
principalmente.

Composicin
La composicin consiste en la suma de lexemas. Para componer palabras en espaol se
recurre a ocho procedimientos:

Sustantivo + preposicin + sustantivo: agua de borrajas.

Sustantivo + adjetivo: arma blanca, aguardiente, aguamarina.

Adjetivo + sustantivo: mala pata, media naranja, ricohombre.

Sustantivo + sustantivo: cartn piedra, coche cama, varapalo.

Verbo + complemento: buscavidas, chupatintas, correcalles.

Verbo + verbo: duermevela, ganapierde, picapica, tejemaneje, vaivn.

Sustantivo + i + adjetivo: alicado, boquiabierto, cabizbajo, pelicano.

Adjetivo + adjetivo: agridulce, anchicorto, grecorromano, todopoderoso.

Adverbio + adjetivo: bien hablado, bienaventurado, malcontento.

3.1.2. Lengua aymara y su gramtica


Es una lengua andina hablada por dos millones y medio de personas aproximadamente,
recibe su nombre de la nacin colla y es co-oficial con el castellano en Per y Bolivia. La
lengua aymara se extiende en Per en los departamentos de Puno, Moquegua, Tacna,
Arequipa (migrantes) Lima (Yauyos, Tupe, Cachuy); en Bolivia en los departamentos de
Oruro, La Paz, Potos, Cochabamba, Chuquisaca, Beni, Pando, Santa Cruz, y Tarija; en
Chile se habla en las regiones de Tarapac y Antofagasta; en Argentina (migrantes en
Jujuy, Salta).(3)
3

Morfologa Contrastiva Quechua/Aymara/Castellano, Escuela de Postgrado de la Universidad Andina


Nstor Cceres Velsquez, Segunda Especializacin en Educacin Biligue Intercultural.

Pg. 8

Los aymaras se asocian a s mismos como la civilizacin centrada en Tiwanaku, territorio


que fue fundado aproximadamente en 200 adC. El cronista espaol Pedro Cieza de Len
(escritor de crnicas de los Incas, 1540) refiri que cuando los espaoles llegaron, todos
los habitantes de los alrededores del lago Titicaca hablaban la lengua Aymara, pero esta
era solo una lengua hablada ya que no tena alfabeto.
El 1603 en la ciudad de Juli, se estableci una imprenta donde fueron publicados los
trabajos de Ludovico Bertonio. Estos libros son todava la ms importante fuente de
informacin de la lengua Aymara. Bertonio fue el primero en proponer un alfabeto Aymara
basado en el alfabeto espaol de la poca. Sin embargo, debido a las variaciones de la
pronunciacin, este era imperfecto y a travs del tiempo ms de 30 diferentes alfabetos
fueron propuestos para la lengua Aymara.
Los ochos ms importantes alfabetos fueron: Bertonio en 1612; Middendorf en 1891;
Cala, literatura Aymara y comisin de alfabetizacin en 1968; Ebbing en 1965; Maryknoll
en 1975; Yapita en 1968; IGR (Ivan Guzmn de Rojas en 1984). Despus de muchas
propuestas y encuentros, el Decreto Supremo de Bolivia 22227-DS de mayo 9 de 1984 y
la Resolucin Ministerial Peruana 1218 -R.M de noviembre 18 de 1958, aprob por ley el
alfabeto Aymara, conocido como el alfabeto unificado.
Gramtica de la lengua aymara
Tomando como unidad de anlisis una oracin simple y declarativa (es decir, ni
interrogativa ni imperativa), el aymara presenta un orden favorito de los elementos
constitutivos mayores de aquella en virtud del cual el sujeto (S) va delante, siguindole el
objeto (O) y luego cerrando el enunciado el verbo (V) entonces se trata de orden SOV, sin
embargo son perfectamente posibles otras desviaciones a partir de ella tales como OSV,
OVS, SVO, VOS y VSO, pero esto atendiendo a factores pragmticos que dependen de
la intencionalidad del hablante y de su afn por impactar mejor a su oyente.( 4)
Estructura de la frase
La frase es una construccin sintctica menor que la oracin, constituida por un ncleo o
cabeza con o sin modificaciones. Tomando dos de las categoras mayores bsicas del
aymara Nombre y Verbo en torno a las cuales se nuclean otras categoras menores, se
puede distinguir fundamentalmente dos tipos de frases: frase nominal (FN) y frase verbal
(FV), donde los ncleos son respectivamente, un nombre y un verbo,
Morfologa

Rodofo Cerrn Palomino Quechumara Estructuras Paralelas de las lenguas Qhuachua y Aymara Pg.
146

Pg. 9
El Aymara lengua aglutinante expresa conceptos y relaciones gramaticales mediante la
adicin de sufijos a los temas radicales y siempre y cuando a cada sufijo corresponda
unvocamente un significado y viceversa. La lengua aymara al ser aglutinante pertenece
al subtipo especfico llamado sufijante; dicho apelativo significa que a muchos morfemas
races se aaden sufijos para formar palabras cada vez ms extensas. En estas lenguas
no hay prefijos, de modo que la expansin de una palabra implica crecimiento hacia la
derecha mediante la adicin de sufijos, razn por la cual se puede afirmar que el aymara
es una lengua de morfologa derechista.
3.1.3. Inteligencia Artificial (IA)
Se denomina inteligencia artificial a la ciencia que desarrolla procesos que imitan a la
inteligencia de los seres vivos. La principal aplicacin de esta ciencia es la creacin de
mquinas para la automatizacin de tareas que requieran un comportamiento inteligente.
La IA estudia cmo lograr que las mquinas realicen tareas que normalmente lo realiza el
ser humano (5).
Son reas o ramas clsicas de IA: Sistemas Expertos (Sistemas basados en
Conocimiento), Aprendizaje y Razonamiento Automtico, Robtica, Procesamiento de
Lenguaje Natural, entre otros.
3.1.4. Procesamiento de lenguaje natural (PLN)
Es una rama de la Inteligencia Artificial, que se ocupa de la formulacin e investigacin de
mecanismos eficaces computacionalmente para la comunicacin entre personas o entre
personas y mquinas por medio de programas que ejecuten o simulen la comunicacin.
Los modelos aplicados se enfocan no slo a la comprensin del lenguaje, sino a aspectos
generales cognitivos humanos y a la organizacin de la memoria. El lenguaje natural
sirve como medio para estudiar estos fenmenos.
Las aplicaciones de Procesamiento de Lenguaje natural son: Sntesis del discurso,
Anlisis del lenguaje, Comprensin del lenguaje, Reconocimiento del habla, Sntesis de
voz, Generacin de lenguajes naturales, Traduccin automtica, Recuperacin de la
informacin, Dictado Automtico (6). Teniendo mltiples aplicaciones el Procesamiento del
Lenguaje Natural contempla elementos como: Anlisis morfolgico, anlisis sintctico,
anlisis semntico y anlisis pragmtico.
3.1.5. Lingstica Computacional
La lingstica computacional es un campo multidisciplinar de la lingstica y la informtica
que utiliza la informtica para estudiar y tratar el lenguaje humano. Para lograrlo, intenta
modelar de forma lgica el lenguaje natural desde un punto de vista computacional. Dicho
5
6

Elaine Rich y Kevin Knight Inteligencia Artificial Pg. 1.


Nilsson Nils Inteligencia Artificial Primera Edicin Pg. 344.

Pg. 10
modelado no se centra en ninguna de las reas de la lingstica en particular, sino que es
un campo interdisciplinaria, en el que participan lingistas, informticos especializados en
inteligencia artificial, psiclogos cognoscitivos y expertos en lgica, entre otros.
Algunas de las reas de estudio de la lingstica computacional son: Corpus lingstico
asistido por ordenador, Diseo de analizadores sintcticos (en ingls: parser), para
lenguajes naturales, Diseo de etiquetadores o lematizadores (en ingls: tagger), tales
como el POS-tagger, Definicin de lgicas especializadas que sirvan como fuente para el
Procesamiento de Lenguajes Naturales, y Traduccin automtica.
3.1.6. Traduccin automtica
Es una aplicacin de Procesamiento de Lenguaje Natural, tambin considerada como
rea de la lingstica computacional que investiga el uso de software para traducir texto o
habla de un lenguaje natural a otro. En un nivel bsico, la traduccin por computadora
realiza una substitucin simple de las palabras atmicas de un lenguaje natural por las de
otro.
El traductor automtico debe analizar el texto original, interrelacionar con la situacin
referida y como resultado debe encontrar el texto correspondiente en el lenguaje destino.
(7). Los tipos de traduccin automtica son: Traduccin automtica basada en reglas,
Traduccin automtica basada en corpus lingstico y la traduccin automtica basado en
contexto.
La traduccin automtica basada en reglas
Asume varios grados en su fundamento: a) traduccin directa o por diccionario como
modelo diccionarios bilinges. La traduccin de un texto se obtiene a partir de la
traduccin palabra por palabra, sin tener en cuenta ni la relacin entre ellas ni el contexto
en que se encuentran; b) Traduccin automtica por transferencia en donde el anlisis
del texto original juega un papel ms importante, y da paso a una representacin interna
que es la que se utiliza como enlace para traducir entre idiomas distintos finalmente
recomponiendo para el idioma meta; y c) Traduccin por Lenguaje Intermedio conocida
tambin Traduccin Automtica Mediante Lengua Intermedia (interlingua), en donde el
lenguaje original, por ejemplo un texto que debe ser traducido, es transformado a un
lenguaje intermedio, cuya estructura es independiente a la del lenguaje original y a la del
lenguaje final. El texto en el lenguaje final se obtiene a partir de la representacin del
texto en el lenguaje intermedio.

Stuart Rusell y Meter Norvig, Inteligencia Artificial un enfoque moderno, Segunda Edicin, Editorial.
Pearson Educacin S.A. Madrid 2004 , Pg. 965.

Pg. 11

Traduccin automtica basada en corpus lingsticos se basa en el anlisis de muestras


reales con sus respectivas traducciones, entre los mecanismos que utilizan corpus se
incluyen los mtodos estadsticos y los basados en ejemplo; finalmente la traduccin
automtica basado en contexto, utiliza tcnicas para hallar la mejor traduccin, para una
palabra fijndose en el resto de palabras que la rodean, bsicamente este mtodo se
esmera en tratar el texto en unidades de entre 4 y 8 palabras, de manera que se traduce
cada una de ellas por su traduccin al idioma destino y se eliminan las traducciones que
han generado una "frase" sin sentido.
3.1.7. Traduccin automtica por transferencia
En la traduccin automtica basado en el modelo de transferencia, el texto original se
analiza primero morfolgica y sintcticamente, obteniendo como resultado una
representacin sintctica superficial. Esta representacin se transforma a continuacin en
otra ms abstracta que hace especial nfasis en aspectos relevantes para el proceso de
traduccin e ignora otro tipo de informacin. El proceso de transferencia convierte esta
ltima representacin (ligada an al idioma original) a una representacin al mismo nivel
de abstraccin pero ligada al lenguaje objetivo. Estas dos representaciones son las
llamadas normalizadas o intermedias. A partir de aqu el proceso se invierte: los
componentes sintcticos generan una representacin del texto y finalmente se genera la
traduccin en la lengua meta.
Tipos de transferencia
La principal caracterstica de los sistemas de transferencia es la existencia de una fase
que proyecta representaciones intermedias del texto original sobre representaciones del
texto objetivo. ste componente puede trabajar en distintos niveles de anlisis lingstico,
por lo que se pueden distinguir dos tipos de transferencia: Transferencia superficial y
Transferencia profunda.
Transferencia superficial (sintctica)

Pg. 12
Se caracteriza por hacer un anlisis sintctico mediante el que se transfieren las
estructuras sintcticas del lenguaje origen a las estructuras sintcticas del lenguaje
objetivo. Este tipo de transferencia resulta muy apropiado para traducciones entre
idiomas de una misma rama (p.ej. entre lenguas romance como el castellano, el cataln,
el francs, el italiano, o el portugus).
Transferencia profunda (semntica)
Construye una representacin semntica que es dependiente del lenguaje original. Esta
representacin puede consistir en una serie de estructuras que representen el significado.
En estos sistemas la transferencia se realiza principalmente sobre predicados. La
traduccin de palabras normalmente tambin requiere una transferencia estructural
previa. Este tipo es ms comn entre idiomas de ramas diferentes (p.ej. castellano-ingls,
castellano-euskera, etc.).
.
3.1.8. Mtricas de ingeniera de software
El concepto de mtrica es el trmino que describe variados casos de medicin. Siendo
una mtrica una medida estadstica (no cuantitativa como en otras disciplinas ejemplo
fsica) que se aplica a todos los aspectos de calidad de software, los cuales deben ser
medidos desde diferentes puntos de vista como el anlisis, construccin, funcional,
documentacin, mtodos, proceso, usuario, entre otros.
Las mediciones de ingeniera de software pueden ser: Medidas Directas que mide el
costo, y el esfuerzo aplicado, las lneas de cdigo producidas, velocidad de ejecucin, el
tamao de memoria y los defectos observados en un determinado periodo de tiempo; y
Medidas Indirectas que mide la funcionalidad, calidad, complejidad, eficiencia, fiabilidad,
facilidad de mantenimiento, etc.
3.1.9. Mtricas de evaluacin de traductores automticos
Permite comprobar la calidad de traductores automticos, dependiendo de la finalidad a
la que esta dirigida la traduccin, ser necesario un nivel de calidad distinto.
Los mtodos objetivos de traductores automticos, no es necesaria la valoracin de la
traduccin por un ser humano tales como: WER (word error rate), PER (positionindependent word error rate), mejora de WER para que sea independiente de la posicin
de las palabras dentro de la frase, mWER (multi-reference word error rate), BLEU mide la
precisin de los ngramas (unigramas, bigramas, trigramas y cuatrigramas) con respecto a
un conjunto de traducciones de referencia y NIST.
En los mtodos subjetivos, los humanos intervienen en la valoracin de la traduccin los
mtodos son: SSER (subjective sentence error rate), un humano califica la traduccin de

Pg. 13
una frase de 0 a 1. Una calificacin de 0 se le da una traduccin perfecta, mientras que
una de 1 se corresponde una traduccin sintctica y semnticamente incorrecta. IER
(information item error rate) las frases de prueba se dividen en items. Un humano
examina si la informacin de cada uno de los items se encuentra presente en la
traduccin. De esta manera se puede comprobar si siendo la traduccin de la frase
incorrecta, existen partes de sta que en cambio s son correctas.
3.2. Marco conceptual
3.2.1.

Texto de la lengua original

Bloques de texto escritos en el idioma espaol que requieren la traduccin a la lengua


aymara.
3.2.2.

Anlisis morfolgico

Consiste en identificar los elementos del texto y clasificarlos en funcin de lo que son:
nombres, verbos, adjetivos, etc. Adems, tambin deben reconocerse abreviaturas y
otras expresiones o palabras compuestas.
3.2.3.

Categorizacin lxica

Algunas de las palabras que aparecen en un texto pueden tener ms de un significado,


causando as ambigedad a la hora de hacer su anlisis. La categorizacin lxica analiza
el contexto, es decir, los elementos vecinos al actual, y escoge el significado que mejor
encaja.
3.2.4.

Transferencia lxica

La transferencia lxica es equivalente a lo que comnmente se conoce como traduccin


por diccionario. A partir de la forma lxica de la palabra original, se trata de derivar su
equivalente en el nuevo idioma.
3.2.5.

Transferencia estructural

Una transferencia estructural analiza el texto desde un punto de vista ms amplio. En vez
de centrarse en palabras, amplia su objetivo a fragmentos mayores. De esta manera se
pueden encontrar expresiones que puedan requerir un tratamiento especial (p.ej.
refranes, dichos, etc.).
3.2.6.

Generador morfolgico

En el momento en que ya se ha realizado el anlisis, el generador morfolgico es el


encargado de asociar cada elemento identificado en fases anteriores con su equivalente
en la lengua objetivo, procurando que la interpretacin sea lo ms fiel posible.
3.2.7.

Texto de la lengua meta

Pg. 14
Bloques de texto traducidos del idioma espaol a la lengua aymara.
3.2.8.

Cdigo Abierto (open source)

Es el trmino con el que se conoce al software distribuido y desarrollado libremente. Fue


utilizado por primera vez en 1998 por algunos usuarios de la comunidad del software
libre, tratando de usarlo como reemplazo al ambiguo nombre original en ingls del
software libre (free software).
IV.

HIPOTESIS Y VARIABLES
3.3.

Hiptesis general

La calidad del traductor automtico de textos del idioma espaol a la lengua aymara basado en
la transferencia sintctica es eficiente.
3.4.

Hiptesis especficas
El traductor automtico de textos del idioma espaol a la lengua aymara basado en la
transferencia sintctica superficial cumple los estndares de las mtricas de ingeniera de
software.

La evaluacin del traductor automtico de textos del idioma espaol a la lengua aymara
basado en la transferencia sintctica superficial es aceptable.

3.5.

Anlisis de variables e indicadores


VARIABLES
Independiente:

INDICADORES

INDICES
1.1.1. Anlisis morfolgico
- Nombres
1. Transferencia
1.1.
Estructura
sintctica
- Verbos
sintctica superficial
superficial
- Adjetivos
1.1.2. Categorizacin lxica
1.1.3. Transferencia lxica
1.1.4. Transferencia estructural
1.1.5. Generador morfolgico
Dependiente:
2.1. Mtricas de Ingeniera de 2.1.1. Valoracin de Calidad
Software
2.1.2. Valoracin de Funcionalidad
2.
Traductor
2.1.3. Valoracin de Utilidad
automtico de textos
del idioma espaol a 2.2.
2.2.1. Nivel de Calidad de traduccin
Mtricas de

Pg. 15
la lengua aymara

V.

evaluacin de traductores
automticos

2.2.2. Grado
traduccin
2.2.3.
Nivel
sustituciones

de
de

precisin

de

errores

DISEO DE LA INVESTIGACION
5.1.

Tipo y nivel de investigacin


rea de Investigacin: Ciencias de la Computacin
Tipo de Investigacin: Investigacin Aplicada o tecnolgica
Nivel de investigacin: Experimental
Lnea de Investigacin: Inteligencia Artificial
Campo de investigacin: Procesamiento de Lenguaje Natural
Tema de Investigacin: Traductor automtico

5.2.

Diseo de la investigacin
5.1.1.

Etapas de la investigacin

Ingeniera de traduccin automtica por transferencia sintctica

Desarrollo del traductor automtico

Implementacin de diccionarios y construccin de reglas gramaticales

Evaluacin del traductor automtico

5.1.2.

Mtodo de la investigacin

Para el desarrollo e implementacin del traductor automtico de textos del idioma espaol
a la lengua aymara se utilizar el modelo de desarrollo de Software.

Definicin de Requerimiento

Anlisis y diseo del sistema

Codificacin del sistema

Integracin del sistema

Pruebas del sistema

Evaluacin del sistema

Para evaluacin del traductor automtico de textos del idioma espaol a la lengua aymara
se utilizar las mtricas de evaluacin de traductores automticos:

Pg. 16
WER (word error rate),

Donde:

S es el nmero de sustituciones,

B es el nmero de borrados,

I es el nmero de inserciones,

N es el nmero de palabras que tiene la frase de referencia.

BLEU mide la precisin de los ngramas (unigramas, bigramas, trigramas y cuatrigramas)

Pg. 17
5.3. Matriz de consistencia
Problemas

Objetivos

Hiptesis

Variables

Problema Principal:

Objetivo Principal

Hiptesis Principal

Independiente:

La inexistencia de un
traductor
automtico
para comprensin de
textos
del
idioma
espaol en la lengua
aymara

Medir
la
calidad
del
traductor automtico de
textos del idioma espaol a
la lengua aymara basado
en
la
transferencia
sintctica superficial.

La calidad del traductor


automtico de textos del
idioma espaol a la lengua
aymara basado en la
transferencia sintctica es
eficiente.

Problema Especfico
Nro. 1:

Objetivo Especfico Nro. 1

Hiptesis especfica Nro. 1

Implementar el traductor
automtico de textos del
idioma espaol a la lengua
aymara basado en la
transferencia sintctica
superficial.

Dependien
El traductor automtico de
textos del idioma espaol a te
la lengua aymara basado en
la transferencia sintctica
superficial cumple los
2. Traductor
estndares de las mtricas automtico
de ingeniera de software.
de textos del

Per un pas
pluricultural que no
cuenta con
herramientas como
traductores automticos
para interrelacionar
culturas.
Problema Especfico
Nro. 2:

Objetivo Especfico Nro. 2

Evaluar el traductor
Dos millones y medio de automtico de textos del
personas ayamara
idioma espaol a la lengua
hablantes que no tienen aymara basado en la
acceso a la informacin transferencia sintctica
en su propia lengua.
superficial con las mtricas de
evaluacin de traductores
automticos

Hiptesis especfica Nro. 2


La evaluacin del traductor
automtico de textos del
idioma espaol a la lengua
aymara basado en la
transferencia sintctica
superficial es aceptable.

1.
Transferenci
a sintctica
superficial

idioma
espaol a la
lengua
aymara

Indicadore
s
De la VI:

ndices

1.1.1. Anlisis morfolgico


- Nombres
1.1. Estructura
- Verbos
sintctica
- Adjetivos
superficial
1.1.2. Categorizacin lxica
1.1.3. Transferencia lxica
1.1.4. Transferencia estructural
1.1.5. Generador morfolgico

Mtodo
-Poblacin: Representada por
300 personas hablantes la
lengua aymara y/o que tengan
estudios de lingstica andina
- Muestra: No probabilstica ha
seleccionado por el investigador
50 personas
- Tipo de Investigacin:
Investigacin Tecnolgica /
Experimental

2.1.
Mtricas 2.1.1. Valoracin de Calidad
de
Ingeniera 2.1.2.
Valoracin
de - Estrategia:
de Software
Funcionalidad
2.1.3. Valoracin de Utilidad
1) Recoleccin de bibliografa

especializada y planificacin del

2.2. Mtricas
de evaluacin
de traductor
automtico

2.2.1. Nivel de Calidad de proyecto.


traduccin
2.2.2. Grado de precisin de
2) Ingeniera de traduccin
traduccin
2.2.3. Nivel de errores y automtica por transferencia
sintctica
sustituciones

3) Implementacin del traductor


automtico
5) Evaluacin del traductor
automtico.

Pg. 18
5.4. Diseo de prueba de hiptesis
Prueba de hiptesis para la media
Se usar esta prueba para mtricas de ingeniera de software y mtricas
de evaluacin de traductores automticos con el procedimiento es el
siguiente:
b) Planteamiento de hiptesis
Ho (hiptesis nula): = o
H1 (hiptesis alterna): > o
c) Estadstico de prueba: Se usar la distribucin normal (Z)
d) Nivel de significancia, alfa: 1%, 5% y 10%
e) Regla de decisin
Dibujo
Si Zc > Z entonces se rechazar Ho
f) Calcular Zc
Zc

/ n 1

g) Conclusin

5.5. Poblacin y muestra


POBLACION: La poblacin ser representada por las personas hablan,
que investigan la lengua aymara, quienes comprenden textos en la lengua
aymara adems su gramtica, as como su escritura y su lectura.
MUESTRA: El mtodo de muestreo es no probabilstica a seleccin por
criterio de investigador, para lo cual se seleccionarn 50 personas que
hablan o que investigan la lengua aymara.

Pg. 19

5.6. Diseo de recopilacin de informacin

Recopilacin de informacin con respecto a la estructura gramatical del


idioma espaol y de la lengua aymara.

Fichas de observacin de mtricas de ingeniera de software

Fichas de observacin de mtricas de evaluacin de traductor


automtico

VI.

Ficha de entrevistas

PRESUPUESTO Y FINANCIAMIENTO
6.1. Presupuesto bsico
D E S C R I P C I ON
UND.

MATERIAL DE ESCRITORIO
Papel Bond 80 g
Cds Simples

CAN PRECIO
T
UNIT.

TOTAL
S./

Millar
Unid.

02
10

25.20
0.80

50.40
8.00

Flder Manila T /A4


Cuaderno cuadriculado 100 h T/A4

Unid.
Unid.

25
02

0.15
2.80

3.75
5.60

Archivador de palanca lomo ancho T /oficio

Unid.

01

2.92

2.92

Unidad de Almacenamiento (2 Gigas)

Gigas

01

92.50

92.50

Unid.

01

460.00

460.00

Das

02

223.5

447.00

persona

01

170.00

170.00

01

30.00

30.00

BIENES DE CONSUMO
Toner para impresora ML-225 1N Sansumg
VITICOS Y ASIGNACIONES
Viticos a nivel Nacional
PASAJES
Abancay-Puno-Cusco- Abancay
SERVICIOS
Compra de Dominio (Anual)
www.aymaramarka.com
Proveedor de Dominios
Alquiler de Hosting (Anual)
1000 Megas PHP, SSL, MySql, proveedor de
servicios de Internet

01

2000.0 2000.00

Pg. 20
Servicio
de
Posicionamiento
en
Internet
(Indexadores, Directorios, Buscadores) proveedor
de servicios de Internet
Elaboracin de material de Material de
Recopilacin
Servicio de:
- Diseo de encuestas
- Impresin de encuestas
Ejecucin de encuestas
Servicio de Internet
Unid.
Impresin de materiales de investigacin
Unid.
Bibliografa
IMPREVISTOS
Movilidad local y otros
Costo Total

Unid.

01

450.00

450.00

01

400.00

400.00

4
300

150.00
1.00

600.00
300.00

10

50.00

500.00
150.00

S/.

5,670.17

6.2. Financiamiento
El presupuesto bsico calculado se presenta en su forma estimada para la
realizacin de la investigacin el cual asciende a S/. 5670.17 (Cinco mil
seiscientos setenta nuevos soles con 17/100 cntimos) la cual ser
autofinanciado por el investigador.
VII.

CRONOGRAMA
N
1
2
3
4
5
6
7
8

Actividades
Elaboracin y aprobacin del
Proyecto
Diseo de ingeniera de traduccin
por transferencia sintctica
Desarrollo del traductor automtico
por transferencia sintctica
Implementacin de diccionarios y
reglas gramaticales
Evaluacin del traductor automtico
por transferencia sintctica
Implementacin en el sitio web del
traductor automtico
Test de comprensin de textos del
idioma espaol en la lengua aymara
Informe y publicacin

Diciembre
1

Enero

Febrero

X
X

Marzo
4

X
X

X
X

X
X

Pg. 21
VIII.

ESTRUCTURA TENTATIVA DEL INFORME FINAL


I.

INTRODUCCIN

II.

EL PROBLEMA
2.1. Anlisis de la situacin problemtica
2.2. Definicin del problema
2.3. Planteamiento del problema
2.4. Justificacin del problema

III.

OBJETIVOS
3.1. Objetivo general
3.2. Objetivos especficos

IV.

MARCO REFENCIAL
4.1. Marco terico
4.2. Marco conceptual

V.

HIPTESIS Y VARIABLES
5.1. Hiptesis general
5.2. Hiptesis especficas
5.3. Anlisis de variables e indicadores

VI.

DISEO DE LA INVESTIGACIN
6.1. Diseo de la investigacin
6.2. Matriz de consistencia
6.3. Diseo de prueba de hiptesis
6.4. Poblacin y muestra
6.5. Mtodos de discusin

VII.

RESULTADOS Y DISCUSIN

VIII.

CONCLUSIONES

IX.

SUGERENCIAS

X.

BIBLIOGRAFIA CONSULTADA

XI.

ANEXOS

Pg. 22
IX.

BIBLIOGRAFIA DE CONSULTADA
[ALVA81]

ALVARADO, MAITE y otros. Teora y prctica de un taller de


escritura. Madrid, Altalena 1981.

[RICH94] Elaine RICH y Kevin Knight. Inteligencia Artificial. Segunda Edicin.


Espaa. McGraw-Hill/Interamericana S.A. 1994.
[ESPE94] Elvira, ESPEJO AYKA. Jichha n Parlt' (Ahora les voy a Narrar).
Bolivia Ediciones ILCA, 1994.
[LAYME]

Felix, LAYME PAIRUMANI. Diccionario Biling: Aymara Castellano.


Tercera Edicin. Bolivia Consejo Educativo Aymara (CEA) 2004.

[GATT01]

GATTI MURIEL, Carlos. Elementos de Gramtica Espaola.


Segunda Edicin. Lima Universidad del Pacfico. 2001.

[MEND91] Jos

MENDOZA,

Donato

GOMEZ

etc.

Yaticha

Arunaka

(Diccionario Especializado Aymara). Bolivia 1991.


[KOLM97] KOLMAN, BUSBY y ROSS. Estructuras de Matemticas Discretas
para la Computacin, Prentice Hall, 1997.
[SOMM02] Lan, SOMMERVILLE. Ingeniera de Software. Sexta Edicin.
Mxico Pearson Educacin. 2002.
[LOUD04] Louden, K. C. Construccion de Compiladores Principios y Practica.
Thomson. 2004.
[THER93] Lucy, THERINA BRIGGS. El Idioma Aymara: Variantes Regionales
y Sociales. La Paz, Bolivia Ediciones ILCA. 1993.
[PRES03] Presidente de la Repblica del Per. Ley General de Educacin
28044. Lima 2003.
[PRES93] Presidente del Congreso Constituyente Democrtico del Per.
Constitucin Poltica del Per. Lima 1993.
[GRON99] Marcelo, GRONDIN N. Mtodo de Aymara: Qullajaqin Arupa. La
Paz, Cochabamba (Bolivia), Editorial Los Amigos del Libro. 1999.
[MEDI03]

MEDINA G., Antonia. Lexicografa espaola. Barcelona Editorial


Ariel. 2003.

Pg. 23
[NILS04]

Nilsson NILS. Inteligencia Artificial. Madrid. McGraw Madrid.


Hill/Interamericana S.A. 2004.

[ALVA06]

Octavio, LVAREZ MAURICIO. Mtodo para optar el Ttulo


Profesional y los grados de Magster y Doctor. Lima, Grupo Editorial
Megabyte S.A.C. 2006.

[CORP84] CORPUNO.

Diccionario

Aymara-Castellano.

Puno,

Proyecto

Experimental Educacin Bilinge Puno-Per. 1984.


[BRE03] Ramn BREA. Autmatas y Lenguajes. Mxico. 2003.
[CERR87] Rodofo, CERRN PALOMINO. Quechumara Estructuras Paralelas
de las lenguas Quechua y Aymara. Per: Puno. 1987.
[CERR00] Rodolfo CERRN PALOMINO. Lingstica Aimara. Lima, 2000.
[PRES02] Roger S. PRESSMAN. Ingeniera de Software: Un Enfoque
Prctico.

Quinta

Ediccin.

Madrid,

etc.

McGraw

Madrid.

Hill/Interamericana S.A. 2002.


[RUSE04] RUSELL, Stuart y NORVIG Meter. Inteligencia Artificial un enfoque
moderno. Segunda Edicin. Madrid. Pearson Educacin S.A. 2004.
[PRAT98]

T. PRATT y V. ZELKOWITZ. Lenguajes de Programacin Diseo e


Implementacin. Prentice-Hall Hispanoamericana S.A. 1998.

[UANC03] UANCV

(Universidad

Andina

Nstor

Cceres

Velsquez).

Morfologa Contrastiva Quechua/Aymara/Castellano. Escuela de


Postgrado de la, Segunda Especializacin en Educacin Bilinge
Intercultural. Per: Juliaca. 2003.

UNIVERSIDAD ANDINA NESTOR CCERES VELSQUEZ


ESCUELA DE POSTGRADO
MAESTRIA EN INGENIERIA DE SISTEMAS

TRANSFERENCIA

SINTCTICA
SUPERFICIAL
PARA
TRADUCTOR
AUTOMTICO DE TEXTOS DEL IDIOMA ESPAOL A LA LENGUA AYMARA

Presentado por: Ing. Hugo David Calderon Vilca

PARA OPTAR EL GRADO DE


MAGISTER EN INGENIERA DE SISTEMAS

JULIACA PERU
2007

UNIVERSIDAD ANDINA NESTOR CCERES VELSQUEZ


ESCUELA DE POSTGRADO
MAESTRIA EN INGENIERIA DE SISTEMAS

TRANSFERENCIA

SINTCTICA
SUPERFICIAL
PARA
TRADUCTOR
AUTOMTICO DE TEXTOS DEL IDIOMA ESPAOL A LA LENGUA AYMARA .

PROYECTO DE TESIS
Presentado para optar el grado de:
MAGISTER EN INGENIERIA DE SISTEMAS
Mencin: Ingeniera del Software
APROBADA POR

PRESIDENTE DE JURADO

:________________________________

MIEMBRO DEL JURADO

:________________________________

MIEMBRO DEL JURADO

:________________________________

ASESOR DE TESIS

:________________________________
M.Cs. Daniel Yucra Sotomayor

ASESOR DE TESIS

:________________________________
M.Cs. Juan Reynaldo Paredes Quispe