Procesamientodelenguajenatural 1

UNIVERSIDAD NACIONAL DE SAN ANTONIO
ABAD DEL CUSCO
DESARROLLAR UNA PLATAFORMA WEB EN PYTHON PARA LA EXTRACCIN

AUTOMTICA DE INFORMACIN SEMNTICA
PLAN DE TESIS
Presentado para el curso de

Procesamiento del Lenguaje Natural
HANCCO QUIONES YURY FERNANDO

090623
ARENAS ABARCA EDWIN
090207
Bajo la asesora de:
ING. JULIO CSAR CARBAJAL LUNA
Per, Agosto de 2016
Escuela profesional de Ingeniera Informtica y de Sistemas
Facultad de Ingeniera Elctrica, Electrnica, Informtica y Mecnica
Universidad Nacional San Antonio Abad del Cusco
INDICE
RESUMEN.................................................................................................................. 1
1 ESTADO DEL ARTE............................................................................................2
1.1 User Trainable Fact Extraction (UTFE) (Joosse, 2007)................................2
1.2 Un esquema de evaluacin semiautomtica (Liang Kwon & Hovy, 2007)....6
1.3 Sistema de extraccin automtica de informacin semntica de los libros de
texto estructurados (Herrera de la Cruz, 2010).......................................................7
2 PROBLEMA DE INVESTIGACIN......................................................................9
3 JUSTIFICACIN................................................................................................10
4 OBJETIVOS.......................................................................................................11
4.1 Objetivo General.........................................................................................11
4.2 Objetivos Especficos..................................................................................11
5 ALCANCES Y LIMITACIONES..........................................................................11
6 MARCO TERICO............................................................................................12
6.1 Recuperacin de informacin (Mouliner, 2007)..........................................12
6.2 Extraccin de informacin..........................................................................13
6.3 Estructuras sintcticas................................................................................13
6.3.1 La oracin............................................................................................14
6.4 Enfoques sintcticos de la oracin.............................................................15
6.4.1 Enfoque de constituyentes..................................................................15
6.4.2 Enfoque de dependencias...................................................................16
6.5 Anlisis sintctico automtico.....................................................................17
6.5.1 NLTK...................................................................................................17
7 MTODO DE TRABAJO....................................................................................18
7.1 Libros de texto............................................................................................18
7.2 Preprocesamiento......................................................................................19
7.3 Anlisis Sintctico.......................................................................................19
7.4 rbol de dependencias...............................................................................20
7.5 Extraccin de hechos.................................................................................20
7.6 Almacenamiento de hechos.......................................................................21
8 RESULTADOS (A PRIORI) ESPERADOS.........................................................22
9 CONTRIBUCIONES ORIGINALES ESPERADAS.............................................22
10 IMPACTO SOCIAL ESPERADO....................................................................22
11 NDICE TENTATIVO DEL PROYECTO DE INVESTIGACIN.......................23
12 CRONOGRAMA DE ACTIVIDADES..............................................................26
13 PRESUPUESTO............................................................................................27
14 REFERENCIAS Y CITAS BIBLIOGRFICAS.................................................28
NDICE DE ILUSTRACIONES
FIGURA 1 FRAGMENTO DE TEXTO ANOTADO CON HECHOS SIMPLES Y COMPLEJO..............3

FIGURA 2 LA ORACIN Y SUS COMPONENTES DESDE EL PUNTO DE VISTA SEMNTICO......14
FIGURA 3 LA ORACIN Y SUS COMPONENTES DESDE EL PUNTO DE VISTA SINTCTICO.....15
FIGURA 4 RBOL DE CONSTITUYENTES DE LA ORACIN LOS NIOS PEQUEOS ESTUDIAN
POCAS HORAS......................................................................................................16
FIGURA 5 RBOL DE DEPENDENCIAS DE LA ORACIN LOS NIOS PEQUEOS ESTUDIAN

POCAS HORAS......................................................................................................17
FIGURA 6 ARQUITECTURA GENERAL DEL MTODO PROPUESTO.....................................18

RESUMEN
En los ltimos aos la cantidad de informacin en formatos digitales fue

creciendo exponencialmente, haciendo imposible que las personas puedan
leer, comprender y sintetizar toda la informacin contenida en dichos libros.
Para gestionar esta informacin que esta estructurada en lenguaje natural, se
aplican estrategias tales como la Recuperacin de Informacin y la
Extraccin de Informacin. Sin embargo, tambin surgieron nuevas limitantes
para los sistemas de procesamiento del lenguaje natural, como es el
problema de determinar el nivel de granularidad de las unidades de
informacin para un adecuado anlisis de extraccin de informacin,
surgiendo una nueva definicin de unidad de texto ms pequeas que las
oraciones. Estas pequeas unidades, con informacin semntica propia se
llaman hechos y se pueden obtener a travs de la descomposicin de la
oracin en una coleccin de hechos. Los hechos pueden ser utilizados por
otras tareas de Procesamiento Automtico de Lenguaje Natural, como llenar
bases de conocimiento, crear resmenes automticos, desarrollar sistemas
de pregunta-respuesta y evaluar la calidad de contenido de un documento
mediante el nmero de hechos encontrados en l en relacin a su longitud.
Adems, lograr que la computadora guarde conocimiento y no slo textos. En
la presente investigacin se plantea desarrollar un sistema web para extraer
hechos de forma automtica empleando rboles de dependencias de las
oraciones. Al sistema se le proporcionara un conjunto de oraciones y
devolvern los hechos de cada una de ellas. Los hechos se muestran en la
interfaz del sistema y se guardan en una base de datos. Para el desarrollo del
sistema, se estudiarn patrones sintcticos en los rboles de dependencias,
que identifiquen a los hechos. Con base en estos patrones sintcticos se
desarrollaran algoritmos heursticos para la extraccin de hechos. La
investigacin est orientada a textos en el idioma espaol, pero el mtodo se
puede aplicar a cualquier idioma en el que se puedan construir rboles
sintcticos. El proyecto ser implementado en un sistema web, permitiendo a
los usuarios utilizar el sistema a travs de una navegador web.
1
1 ESTADO DEL ARTE
A continuacin se describen algunos proyectos relacionados con la extraccin
de informacin semntica (hechos).
1.1 User Trainable Fact Extraction (UTFE) (Joosse, 2007)
Extraccin de hechos con intervencin de usuario y entrenamiento

(UTFE) es un sistema desarrollado por Wouter Joosse en el ao 2007.
Este sistema interacta con el usuario para que ste le indique al
sistema: el tipo de informacin, o los documentos en los que est
interesado. El sistema usa estos datos recibidos por el usuario para
encontrar el mismo tipo de informacin en documentos similares. El
usuario registra la informacin etiquetando fragmentos de texto en
documentos basados en una ontologa determinada. Tambin se puede
adicionar informacin especfica mediante la anotacin de hechos, los
cuales representan las relaciones entre las anotaciones. Todas las
anotaciones brindan al sistema la informacin necesaria para extraer
informacin desde los nuevos documentos. El sistema UTFE muestra al
usuario la informacin recientemente descubierta junto con los
documentos.
En el sistema UTFE se implementaron herramientas de anotacin y

extraccin de informacin. El usuario interacta con la herramienta de
anotacin mientras que la herramienta de extraccin de informacin
trata de encontrar en los nuevos documentos los hechos en los que el
usuario est interesado.
Para evaluar el rendimiento del sistema UTFE, probaron con un dominio

formado por los ganadores del premio Nobel. En esta prueba el usuario
entrena al sistema para encontrar el nombre del ganador del premio
Nobel y el premio Nobel que l o ella gan. La parte de extraccin de
informacin del sistema UTFE es evaluada por el rendimiento en un
nmero determinado de corpus. A diferencia de los tradicionales
Sistemas de Recuperacin de Informacin, el enfoque de extraccin de
2
informacin de UTFE es mostrar al sistema algunos documentos
ejemplo, en los cuales est indicado la informacin que el usuario est
buscando. Entonces el sistema utiliza estos documentos para mostrar
informacin similar extrada desde otros documentos.
Wouter Joosse explica que la Extraccin de Hechos (Fact Extraction

(FE), en ingls) es una capa adicional de extraccin sobre la Extraccin
de Informacin. El objetivo de la FE es encontrar piezas de informacin
y relacionarlas entre ellas, por ejemplo, si el usuario est interesado en
fechas de cumpleaos de personas, entonces la tarea del motor de FE
es primero encontrar nombres de personas y fechas de cumpleaos en
un documento, despus las personas encontradas y las fechas de
cumpleaos tienen que ser relacionadas para determinar la pertenencia
entre las piezas encontradas. Se puede observar que la primera tarea
pertenece al rea de Extraccin de Informacin, pero relacionar la
informacin es lo que distingue la Extraccin de Hechos de la Extraccin
de Informacin.
La informacin obtenida por los Sistemas de Extraccin de Informacin

es nombrada un hecho simple, una secuencia de texto sealada con
etiqueta proporcionando informacin adicional. En cambio los Sistemas
de Extraccin de Hechos obtienen hechos complejos, obteniendo
tambin relaciones entre anotaciones.
En la investigacin de Joosse, un hecho simple es conocido como una

anotacin, y un hecho complejo es conocido como un hecho. En la
siguiente imagen se muestra un fragmento de texto donde se indica la
fecha de nacimiento de Albert Einstein con hechos simples y complejo.
Figura 1 Fragmento de Texto anotado con hechos simples y complejo
3
El sistema UTFE combina tcnicas de Extraccin de Informacin y
Recuperacin de informacin con una interfaz de usuario amigable para
automticamente encontrar hechos en nuevos documentos. En
resumen, un usuario anota, en la herramienta de anotacin del
sistema, un nmero de documentos con informacin (anotaciones y
hechos) en los que l est interesado. Una vez que un nmero
adecuado de documentos han sido anotados, el usuario ordena al
sistema encontrar la informacin en otros documentos.
En el sistema UTFE el usuario interacta con el sistema etiquetando

ciertas piezas de informacin dentro del documento agregando tambin
informacin adicional. Esta informacin adicional viene de una
ontologa. La ontologa es una lista de etiquetas de informacin que el
usuario quiere agregar a un fragmento de texto. Por ejemplo, solo la
palabra o elemento William no significa nada, pero si el usuario
etiqueta esta palabra como el nombre de una persona, es as como esta
palabra se convierte en informacin relevante para el sistema. Estas
piezas de texto etiquetadas representan hechos simples o anotaciones
y los algoritmos de Extraccin de Informacin deben descubrirlos.
Con la anterior descripcin que se dio del sistema UTFE, se obtuvieron

las siguientes conclusiones:
Este sistema se enfoca slo en documentos que
estn en el idioma ingls.
El sistema trabaja a partir de un conjunto de
documentos elegidos inicialmente, los cuales estn en un dominio
especfico.
En los documentos elegidos inicialmente se hacen
anotaciones por el usuario con la informacin de inters del usuario,
luego realiza una consulta buscando nuevos documentos con la
informacin etiquetada anteriormente.
El Sistema utiliza una herramienta para recuperar
documentos similares al conjunto de documentos elegidos durante
el entrenamiento del usuario, en los cuales el Sistema extraer la
informacin requerida.

4
Se puede determinar que este Sistema es un
sistema semiautomtico ya que las anotaciones y la relacin entre
ellas las tiene que hacer el usuario. Las hace mediante una
herramienta de anotaciones, y ya en la ejecucin del sistema se
aplica un algoritmo de Extraccin de Informacin para realizar
nuevas anotaciones en los nuevos documentos, tomando como
referencia los documentos anotados por el usuario en la etapa de
entrenamiento.
Para trabajar, el sistema necesita la intervencin
del usuario y de entender ciertos conceptos como el de hechos
simples y las relaciones entre ellos (hechos complejos).
El usuario necesita conocer y entender la
ontologa para representar la informacin que le interesa.
En la presente investigacin a diferencia del sistema de Joosse se

construye una plataforma en la que se extrae hechos de forma
completamente automtica mediante heursticas que no necesitan
entrenamientos previos. La definicin de hecho que se maneja en la
presente investigacin, es la de hechos complejos comparado con las
definiciones de W. Joosse.
Un aporte importante del sistema que se va a desarrollar es que este

sistema va extraer todos los hechos existentes en las oraciones de los
documentos.
El sistema va a utilizar corpus en el idioma espaol.
Otra diferencia con el sistema UTFE, es que no se va a realizar

anotaciones en las oraciones ya que la extraccin es con base al
anlisis de estructuras sintcticas, guardando los hechos encontrados
en Bases de Datos Relacionales.
5
1.2 Un esquema de evaluacin semiautomtica (Liang Kwon & Hovy,
2007)
En el ao 2007, los investigadores Hovy, Zhou, y Kwon indicaron que en
muchas tareas de Procesamiento del Lenguaje Natural, existen
problemas al momento de determinar el nivel de granularidad adecuado
para las unidades de informacin. Comnmente los investigadores
utilizan las oraciones como la unidad individual de informacin. Sin
embargo, un gran nmero de aplicaciones de PLN requieren utilizar
unidades de texto ms pequeas que las oraciones, denominadas
hechos. La forma de automatizar la tarea de extraccin de hechos
contenidos en un texto, propuesta por Hovy consiste en utilizar una
mquina generadora de nuggets. Los nuggets son piezas de
informacin independiente y con significado.
Por ejemplo en la siguiente oracin:
The Danube at Cernavoda village, where the reactor is located, fell to a

depth of less than three meters on Saturday, down from its usual level of
almost seven meters.
Segn la teora explicada por Hovy, de la anterior oracin se obtienen

los siguientes nuggets:
1. Danube
2. Danube is at Cernavoda village
3. Danube fell
4. Danube fell to a depth of less than three meters
5. Danube fell on Saturday
6. Danube fell down from its usual level of almost
seven meters
Para la extraccin de nuggets se emplean rboles sintcticos

producidos por el analizador sintctico Collins obteniendo
representaciones estructurales de las oraciones. Los nuggets se extraen
mediante la identificacin de subrboles que son descripciones de
entidades y eventos, por ejemplo, para nuggets de tipo entidad se
6
examinan subrboles encabezados por NP, para nuggets de tipo
evento se examinan subrboles encabezados por VP y sus
correspondientes sujetos se tratan como entidad adjunta para la frase
verbal.
Hovy lleg a determinar que de la anterior oracin ejemplo y sus

respectivos nuggets, se puede observar que la definicin de nugget o
hecho para la presente investigacin son diferentes, determinando que
Hovy considera un nivel granularidad de hechos diferente, como:
Sustantivo (Sujeto)
Sustantivo (Sujeto) + Verbo
Sustantivo (Sujeto) + Verbo +
Objeto/Complemento
Una diferencia encontrada con el sistema que se est proponiendo en

esta investigacin es respecto a la forma de determinar un hecho,
determinando que no solamente es una combinacin de estos tres
elementos: Sujeto + Verbo + Objeto/Complemento.
Otra diferencia es que el esquema de Hovy trabaja con textos en el

idioma ingls.
1.3 Sistema de extraccin automtica de informacin semntica de los

libros de texto estructurados (Herrera de la Cruz, 2010)
Este sistema es una investigacin realizada por Juve Herrera de la Cruz
en el ao 2010, en el que indican que extraen hechos mediante
heursticas creadas con base al anlisis de estructuras sintcticas, de
libros de texto en espaol. La funcin de las heursticas que utilizan es
la de examinar rboles de dependencias creadas por el analizador
sintctico llamado Connexor para espaol de la compaa Connexor
Oy. Los hechos hallados son almacenados en una base de datos
relacional.
Connexor es un software de pago, no tiene un buen funcionamiento

para el anlisis de oraciones en espaol ya que en ocasiones los
7
rboles de dependencias que proporciona no estn bien formados,
dejando en ocasiones nodos hurfanos o palabras donde no se
reconoce la funcin sintctica.
Las heursticas desarrolladas por Herrera de la Cruz son muy genricas,

no analizan algunos tpicos comunes, y la descripcin de cmo se
relacionan entre ellas es poco descriptiva. Por ejemplo, no maneja la
coordinacin de adjetivos, preposiciones, etc.
8
2 PROBLEMA DE INVESTIGACIN
La informacin en un texto se conforma de prrafos, cada prrafo por un
conjunto de oraciones y estas, por unidades de texto ms pequeas que la
oracin, que se pueden obtener a travs de la descomposicin de la oracin
en una coleccin de frases. Cada frase tiene informacin independiente que
puede ser usada como una unidad independiente (Liang Kwon & Hovy,
2007).
Estas frases se encuentran fusionadas en la oracin para enunciar algo de

manera ms amplia, pero al separarse de la oracin tienen sentido completo,
es decir, tienen informacin semntica por ellas mismas. Una oracin tiene
sentido completo si contiene sujeto y predicado (Fuentes de la Corte, 2010) .
De acuerdo a (Liang Kwon & Hovy, 2007) y (Fuentes de la Corte, 2010), en la

presente investigacin estas frases que por ellas mismas contienen
informacin semntica, se les llama hechos, y su definicin formal es:
Un hecho es la unidad mnima de texto que se puede extraer de una oracin,

tiene independencia semntica, nicamente un verbo y su forma es una
tripleta conformada as:
Hecho = [Sujeto] + [Verbo] + [Objeto/Complemento]
Por ejemplo en la oracin: La civilizacin China nos hered el papel, la

plvora, una forma de imprenta rudimentaria, y la brjula, se pueden
identificar los hechos que se muestran en la siguiente tabla.
N Sujeto Verbo Objeto/Complemento
1 La civilizacin China hered el papel
2 La civilizacin China hered la plvora
3 La civilizacin China hered una forma de imprenta

rudimentaria
4 La civilizacin China hered la brjula
9
Se puede observar que cada hecho tiene independencia semntica, es decir,
ninguno necesita a otro para tener sentido completo o informar algo. Todos
tienen un solo verbo, todos cumplen la tripleta que define hecho. Y que una
oracin puede tener varios hechos.
As que la presente investigacin consiste en desarrollar un mtodo para

identificar y extraer la informacin semntica o hechos que se encuentran
fusionados en las oraciones, con base en anlisis de estructuras sintcticas.
La extraccin de informacin semntica o hechos, se hace desde un corpus

formado por un conjunto de oraciones extradas de libros de texto de
educacin primaria y secundaria, en el idioma espaol.
En adelante, a la informacin semntica que se extrae de las oraciones se

le llamar tambin hechos, utilizando los dos conceptos para referirse a lo
mismo.
3 JUSTIFICACIN
La extraccin de hechos de corpus textuales es un proceso que durante el
tiempo se ha vuelto importante para las tareas de LPN, otorgando productos
a las tareas de LPN relacionadas con la comprensin de un texto, por
ejemplo:
Llenar bases de conocimiento.

Sistemas de pregunta-respuesta (Question Answering, en ingls).
Generacin automtica de resmenes extractivos y abstractivos.
Evaluar la calidad de contenido de un documento mediante el nmero de
hechos encontrados en l en relacin a su longitud.
Adems:
Se pretende que la computadora adquiera conocimientos, leyendo libros y
separando datos relevantes (hechos) para luego ser almacenados en bases
de conocimientos y posteriormente utilizarlos.
Tambin se pretende lograr que la computadora almacene conocimiento.
10
4 OBJETIVOS
4.1 Objetivo General
Desarrollar un mtodo y una plataforma web en python para la

extraccin automtica de informacin semntica (hechos), desde un
corpus de oraciones, con base en anlisis de estructuras sintcticas
que identifiquen la informacin semntica en las oraciones.
4.2 Objetivos Especficos
Elaborar un manual para identificar la informacin

semntica o hechos en una oracin.
Crear un corpus de prueba, conformado de un
conjunto de oraciones en la cual identificamos los hechos que
contiene cada una oracin.
Identificar los patrones sintcticos que identifican
la informacin semntica o hechos en una oracin.
Desarrollar el algoritmo basado en heurstica para
extraer la informacin semntica o hechos.
Desarrollar una base de datos para guardar la
informacin semntica o hechos.
Desarrollar la plataforma web.
Evaluar los resultados obtenidos por el sistema.
5 ALCANCES Y LIMITACIONES
Alcances
Con este trabajo de tesis se pretende desarrollar una plataforma web que sea
capaz de generar una base de hechos de un texto de manera automtica.
Con esta plataforma se pretende proporcionar una base para un siguiente
proyecto de Sistema de Pregunta-Respuesta.
Limitaciones
El proyecto estar restringido slo para el anlisis de textos en el idioma
espaol.
11
El sistema estar solo disponible para usuarios que tengan dispositivos con
acceso a la web.
6 MARCO TERICO
6.1 Recuperacin de informacin (Mouliner, 2007)

Segn Jackson & Moulinier, en el ao 2007, define que la
Recuperacin de Informacin (IR) es como la aplicacin de tecnologa
informtica para la adquisicin, organizacin, almacenamiento,
recuperacin y distribucin de informacin.
Jackson & Moulinier explica que la IR se ocupa de las bases tericas y

la mejora prctica de la tecnologa de motores de bsqueda,
incluyendo la construccin y el mantenimiento de grandes repositorios
de informacin. En la actualidad, los investigadores han expresado
nuevas preocupaciones que abarca desde la bsqueda bibliogrfica y
texto completo de repositorios de documentos a realizar bsquedas en
la web.
Dentro del propsito de la IR est que un usuario de un motor de

bsqueda comienza con una necesidad de informacin, que l o ella
formula como una consulta con el objetivo de encontrar documentos
relevantes. Esta consulta podra no ser la mejor formulada para indicar
esa necesidad, quizs no est bien escrito, se hayan seleccionado mal
las palabras, podra contener demasiadas palabras o insuficientes. Sin
embargo es la nica pista que el motor de bsqueda recibe para lograr
su objetivo.
Jackson & Moulinier indican que a menudo se habla de los

documentos en el conjunto de resultados como algo relevante para la
consulta, pero, en sentido estricto esto vendra a ser incorrecto. Pues
como bien dice, es el usuario quien juzga la relevancia con respecto a
la necesidad de informacin y no la consulta.
12
6.2 Extraccin de informacin
Jackson & Moulinier indican que la Extraccin de Informacin IE difiere
de la Recuperacin de Informacin IR, en el aspecto de que el objetivo
no est en la bsqueda de documentos, sino en la bsqueda de
informacin til dentro de los documentos. Por lo general, los textos en
una base de datos o documento electrnico son examinados por
programas para ver si contienen cierta informacin objetivo, que podran
ser trminos lingsticos simples, tal como nombres propios o podran
ser estructuras lingsticas ms complejas, tal como la relacin a un
cierto tipo de eventos.
Mart Antonn & Alonso Martn, en el ao 2003, comentan que la

Extraccin de Informacin consiste en obtener informacin de forma
selectiva de un documento (Quin hizo qu, cundo, cmo, etc). Para
ello se definen unas plantillas o esquemas correspondientes al dominio
que se desea tratar, que deben ser rellenadas para cada documento.
La IE busca entidades en el texto sobre categoras predefinidas como

nombres de personas, organizaciones, lugares, cantidades, valores
monetarios, porcentajes, expresiones de hora; y relaciones entre ellas u
otros tpicos especficos dentro de los textos.
6.3 Estructuras sintcticas

La extraccin automtica de informacin semntica o extraccin de
hechos que se realiza en el presente trabajo, es con base en anlisis de
estructuras sintcticas, especficamente en el anlisis de lo que se
conoce en gramtica como oracin, el objeto de anlisis. Este anlisis
ayuda a identificar la funcin sintctica de las palabras y con ello definir
los patrones sintcticos que identifican a los hechos.
6.3.1 La oracin
La oracin es la serie o cadena de palabras que trasmite un sentido
completo (Fuentes de la Corte, 2010)
13
(Mungua Zatarain Irma, 2000) Expone que la oracin es la unidad,
dentro del discurso, que expresa un sentido completo y est
constituida por sujeto y predicado. El sujeto es de quien se habla en
la oracin y muchas veces es el agente de la accin del verbo. El
predicado es lo que se dice sobre el sujeto.
6.3.1.1 Elementos de la oracin

La estructura general de la oracin es bimembre, es decir se
compone de dos elementos: el sujeto y el predicado. Pero estos
elementos estn formados a su vez por subestructuras ms
pequeas y que son en cada miembro el ncleo y tienen uno o
varios modificadores.
Desde el punto de vista semntico, podemos decir que la oracin se

conforma e dos elementos principalmente: el sujeto y el predicado. El
sujeto responde a las preguntas: De qu o de quin se habla?, y
Quin o qu realiza la accin? El predicado responde a la pregunta:
Qu se dice, de quin se habla o de lo que se habla? (Mora, 2000)
Figura 2 La oracin y sus componentes desde el punto de vista semntico
Y desde el punto de vista sintctico (Fuentes de la Corte, 2010) dice

que sintcticamente una oracin tiene un sintagma nominal y otro
predicativo
14
Figura 3 La oracin y sus componentes desde el punto de vista sintctico
6.4 Enfoques sintcticos de la oracin

Para describir formalmente la estructura sintctica de una oracin
existen dos enfoques principalmente: constituyentes y dependencias
(Galicia Haro, 2007). Los dos enfoques emplean rboles para
representar la estructura sintctica de una oracin, pero se diferencian
por el significado de los nodos y sus relaciones en el rbol.
6.4.1 Enfoque de constituyentes

Segn la definicin sugerida por Leonard Bloomfield en 1933, los
constituyentes y la suposicin de la estructura de la frase, son el
enfoque en que las oraciones se analizan mediante un proceso de
segmentacin y clasificacin.
Se segmenta la oracin en sus partes constituyentes, se clasifican

estas partes como categoras gramaticales, despus se repite el
proceso para cada parte dividindola en subconstituyentes, y as
sucesivamente hasta que las partes sean las partes de la palabra
indivisibles dentro de la gramtica (morfemas).
La suposicin de frase y la nocin de constituyentes, se aplican de

la siguiente manera. La frase los nios pequeos estudian pocas
horas se divide en el grupo nominal (GN) los nios pequeos ms
el grupo verbal (GV) estudian pocas horas, este ltimo a su vez,
se divide en el vero estudian ms el grupo nominal pocas horas y
as sucesivamente.
15
Figura 4 rbol de constituyentes de la oracin Los nios pequeos estudian pocas horas
6.4.2 Enfoque de dependencias

Fue Lucien Tesnire en 1959 el primero en construir una teora que
describiera las gramticas de dependencias.
En este enfoque las dependencias se establecen entre pares de

palabras, donde una es principal o rectora y la otra est
subordinada a (o dependiente de) la primera (Galicia Haro,
2007).Por lo tanto si cada palabra de la oracin tiene una palabra
propia rectora, la oracin entera se ve como una estructura
jerrquica de diferentes niveles, o sea como un rbol de
dependencias. Y la nica palabra que no est subordinada a otra es
la raz del rbol.
La motivacin de muchas dependencias sintcicas es el sentido de

las palabras. Por ejemplo en la frase Los nios pequeos estudian
pocas horas, las palabras pequeos y pocas son modificadores
de atributo de las palabras nios y horas respectivamente, y
nio es el sujeto de estudiar. Algo muy importante de las
dependencias es que no son iguales: una sirve para modificar el
significado de la otra, as la secuencia los nios pequeos denota
ciertos nios, y estudian pocas hora denota una forma de estudiar.
16
Figura 5 rbol de dependencias de la oracin Los nios pequeos estudian pocas horas
6.5 Anlisis sintctico automtico

Segn Mart Antonn & Alonso Martn, Tecnologas del lenguaje, indican
que El proceso de anlisis sintctico consiste en asignar a cada oracin
de un texto su estructura sintctica. El anlisis sintctico automtico se
logra por medio de un programa informtico que toma una oracin como
entrada y le asigna su estructura sintctica.
6.5.1 NLTK
El kit de herramientas de Lenguaje Natural (NLTK) es una plataforma
utilizada para la construccin de programas en Python las cuales
trabajan con los datos del lenguaje humano para aplicar en el
procesamiento del lenguaje natural estadstica (PNL).
Contiene bibliotecas de procesamiento de texto para tokenizacin,

anlisis, clasificacin, derivado, el etiquetado y el razonamiento
semntico. Tambin incluye demostraciones grficas y conjuntos de
datos de muestra, as como acompaados de un libro de cocina y un
libro que explica los principios detrs de las tareas de procesamiento del
lenguaje subyacentes que NLTK apoya.
17
7 MTODO DE TRABAJO
La arquitectura general del mtodo propuesto para la extraccin de hechos
se muestra en la siguiente figura.
Figura 6 Arquitectura General del Mtodo Propuesto
De los libros de texto se escogen las lecciones de inters, y de estas se

crea un conjunto de oraciones. A continuacin con la herramienta NLTK se
realiza un anlisis sintctico de cada oracin y crea un rbol de
dependencias de cada una de las oraciones. Luego mediante un conjunto
de heursticas se analizan los rboles de dependencias y se extraen los
hechos de cada oracin para luego ser almacenadas en una base de
datos relacional.
7.1 Libros de texto

Libros de texto se refiere a libros didcticos utilizados para la
enseanza de alguna materia de estudio. Estos libros, por su objetivo,
estn estructurados por temas y subtemas, tambin llamados captulos
y subcaptulos. Cada subtema est compuesto por un ttulo, un
conjunto de prrafos y cada prrafo por un conjunto de oraciones. En
la presente investigacin a un subtema se le denomina leccin.
La estructura que presentan los libros de texto es una de las razones

de seleccionarlos para la extraccin de hechos. Otra razn y la ms
18
importante, porque contienen muchas definiciones e informacin
enunciativa; ya que han sido redactados para cumplio un propsito
educativo, y por lo tanto contienen gran cantidad de hechos.
7.2 Preprocesamiento
En el preprocesamiento se eligen las lecciones de inters para extraer
hechos, de cada leccin se extraen solamente los prrafos de
informacin que la conforman, es decir elementos como: tablas,
imgenes, grficos, ecuaciones, indicaciones o preguntas para los
lectores; no son tomados en cuenta.
Despus cada prrafo se separa en un conjunto de oraciones,

considerando que el delimitador es el smbolo de punto. Todas las
oraciones se guardan en un archivo de texto plano.
7.3 Anlisis Sintctico

Para el anlisis sintctico NLTK realiza previamente un etiquetado de
POS, esta rutina se encarga de crear un diccionario con cada uno de
los tokens y sus correspondientes POS.
Por ejemplo, si la sentencia El coche es rojo es procesada por un

POS Tagger el resultado es el siguiente: {El : AT, coche : NN, es :
VB, rojo : JJ}. Donde cada POS asume los siguientes valores:
AT : Artculo
NN : Sustantivo
VB : Verbo
JJ : Adjetivo
El anlisis sintctico es el proceso que permite extraer las relaciones
entre los componentes de la oracin, lo que contribuye a comprender e
interpretar eficazmente un texto, complementando el anlisis previo y
sirviendo de partida para el anlisis semntico posterior
19
7.4 rbol de dependencias
Cada nodo del rbol de dependencias representa una palabra de la
oracin, contiene informacin sintctica y morfolgica de cada una de
ellas, organizados de forma jerrquica.
La idea bsica del anlisis de dependencias consiste en generar una

estructura sintctica formada por una serie de palabras conectadas por
relaciones de dependencia. A la palabra sintcticamente subordinada
en una relacin de dependencia se le denomina dependiente y a la
palabra de la que depende, padre. El tipo de dependencia es la
etiqueta que se le asocia a cada relacin y que resume la informacin
sintctica que liga a la palabra subordinada con la subordinante.
7.5 Extraccin de hechos

Para la extraccin de hechos el mtodo propuesto utiliza los archivos
de los rboles de dependencias generados por NLTK. Y mediante un
conjunto de heursticas se extraen los hechos que contienen las
oraciones.
Las heursticas hacen uso de los datos morfolgicos y sintcticos de

los rboles de dependencias y buscan patrones sintcticos en ellos.
Mediante estos patrones se extraen los componentes de la tripleta que
define un hecho.
La tarea principal de las heursticas es buscar verbos, que constituyen

la parte ms importante de los hechos. Una vez que se encuentran
verbos en la oracin. se busca el sujeto y complemento
correspondiente a cada verbo.
La aplicacin de una heurstica o de varias heursticas a una oracin,

depende de cmo est conformada la oracin, es decir si la oracin
contiene una frase verbal, elementos coordinantes o elementos
subordinantes. Por ello, primero se clasifica la oracin para aplicar la
heurstica adecuada.
Nombramos algunas heursticas:
20
Heurstica Bsica: Aplicadas a los rboles que
tienen el patrn sintctico donde la raz es un verbo.
Heurstica Coordinacin de Verbos: Esta
heurstica se aplica a los rboles que tienen el patrn sintctico
donde la raz representa una conjuncin y sus hijos son verbos, es
decir, existe coordinacin de verbos.
Heurstica Pronombre Relativo: Esta heurstica
se aplica a los rboles que tienen el patrn sintctico donde
aparece un pronombre relativo.
Heurstica Coordinacin de Adjetivos, tipo A:
Se aplica a los rboles que presentan el patrn sintctico que
contiene coordinacin de adjetivos que dependen de un verbo.
Heurstica Coordinacin de Adjetivos, tipo B:
Se aplica a rboles que presentan el patrn que contiene un
predicado con un sustantivo modificado por una coordinacin de
adjetivos.
Heurstica Atributo Nominal: Se aplica a los
rboles que presentan el patrn donde se tiene un verbo
copulativo necesariamente, lo que la distingue de las heursticas
de coordinacin de adjetivos; luego un sustantivo que puede ser
modificado por un adjetivo o varios, o ese sustantivo puede ser el
sujeto para otro hecho cuando se presenta el patrn Pronombre
Relativo.
7.6 Almacenamiento de hechos

Los hechos se almacenan en una base de datos relacional compuesta
de las siguientes tablas:
Tabla de oraciones: Aqu van a guardarse todas las oraciones que se les
extrae sus hechos, una oracin por registro. Los registros estarn
compuestos de dos campos: el identificador de la oracin y la oracin
respectivamente.
Tabla de hechos: Aqu van a guardarse todos los hechos que se extraen de
las oraciones. Estos registros tendrn 5 campos: el identificador del hecho,
sujeto, verbo, complemento y un campo para guardar el nmero de la oracin
a la que pertenecen los hechos.
21
La relacin que se tendrn las dos tablas es: una oracin puede tener
muchos hechos, pero un hecho pertenece nicamente a una oracin.
8 RESULTADOS (A PRIORI) ESPERADOS

Con implementacin del sistema se espera brindar una plataforma web
para la extraccin de informacin semntica, dicho sistema ser accesible
para cualquier usuario que tenga acceso a internet.
Se espera tambin otorgar una herramienta que permita al usuario hacer

consultas sobre textos ingresados previamente, resolviendo la limitante de
otros Sistemas de Extraccin de Informacin, las cuales estn hechas para
idiomas distintas al espaol.
9 CONTRIBUCIONES ORIGINALES ESPERADAS

Los proyectos mencionados en los antecedentes, son sistemas semi-
automticos o son sistemas que utilizan software de pago, dichos
sistemas tienen limitaciones para el anlisis de oraciones en espaol, para
lo cual nuestro aporte es desarrollar un sistema automtico para el anlisis
de textos en el idioma espaol, utilizando herramientas libres y de cdigo
abierto, python y NLTK, las cuales nos van a permitir implementar nuestro
sistema en una plataforma web.
10 IMPACTO SOCIAL ESPERADO

Consideramos que el presente sistema tendr un impacto social positivo,
permitiendo a los usuarios realizar consultas sobre textos, utilizando las
tecnologas de la informacin.
Este proyecto servir como base para futuras investigaciones en el campo

de Extraccin de Informacin, utilizando herramientas de cdigo abierto.
22
11 NDICE TENTATIVO DEL PROYECTO DE INVESTIGACIN
1. INTRODUCCIN
1.1. Planteamiento del problema
1.2. Justificacin
1.3. Objetivos
1.3.1. Objetivo general
1.3.2. Objetivos especficos
2. MARCO TERICO
2.1. Tareas de lingstica computacional
2.1.1. Recuperacin de informacin
2.1.2. Extraccin de informacin
2.2. Estructuras sintcticas
2.2.1. La oracin
2.2.1.1. Elementos de la oracin
2.2.1.1.1. El sujeto
2.2.1.1.2. Ncleo y modificadores del sujeto
2.2.1.1.3. El predicado
2.2.1.1.4. Ncleo del predicado
2.2.1.1.5. Predicado verbal y predicado nominal
2.2.1.1.6. Complementos del ncleo del predicado
2.2.2. Cmo se construyen las oraciones?
2.2.2.1. Aspectos sintcticos
2.2.2.2. Aspectos semnticos
2.3. Enfoques sintcticos de la oracin
2.3.1. Enfoque de constituyentes
2.3.2. Enfoque de dependencias
2.4. Anlisis sintctico automtico
2.4.1. NLTK
2.5. Heursticas para la extraccin de hechos
2.6. Corpus
2.7. Definicin de hecho
2.7.1. Algunas definiciones de hecho
2.7.2. Definicin formal de hecho en esta investigacin
2.7.3. Caractersticas de un hecho
3. ESTADO DEL ARTE

3.1. Extraccin de hechos con intervencin de usuario y entrenamiento
3.2. Un esquema de evaluacin semiautomtica
3.3. Sistema de extraccin automtica de informacin semntica de los libros de
texto estructurados
4. MTODO PROPUESTO
4.1. Arquitectura general
4.2. Libros de texto
23
4.3. Preprocesamiento
4.4. Anlisis sintctico
4.4.1. rbol de dependencias
4.5. Extraccin de hechos
4.5.1. Heursticas
4.5.1.1. Cmo trabajan las heursticas
4.5.2. Convenciones para describir las heursticas
4.5.3. Algoritmo clasificador
4.5.4. Complemento simple
4.5.5. Heurstica: Bsica
4.5.6. Heurstica: Coordinacin de Verbos
4.5.7. Heurstica: Pronombre Relativo
4.5.8. Heurstica: Coordinacin de Adjetivos, tipo A
4.5.9. Heurstica: Coordinacin de Adjetivos, tipo B
4.5.10. Heurstica: Atributo Nominal
4.5.11. Heurstica: Coordinacin de Sustantivos
4.5.12. Heurstica: Coordinacin de Preposiciones
4.5.13. Heurstica: Complemento Circunstancial Subordinado
4.5.14. Heurstica: Verbo en Infinitivo
4.5.14.1. Perfrasis verbal del Infinitivo
4.5.14.2. Coordinacin de Verbos en Infinitivo
4.5.14.3. El algoritmo
4.5.15. Heurstica: Correferencia de Sujeto
4.6. Almacenamiento de hechos
5. DESARROLLO DEL SISTEMA

5.1. Construccin del Corpus
5.2. Configuracin de NLTK
5.3. Representacin de los datos
5.4. Desarrollo del sistema
5.4.1. Arquitectura de desarrollo y ejecucin
5.4.1.1. Hardware
5.4.1.2. Software
5.4.2. Diagrama de bloques
5.4.3. Interfaz del sistema
6. EVALUACIN Y RESULTADOS
7. CONCLUSIONES
24
12 CRONOGRAMA DE ACTIVIDADES
25
26
13 PRESUPUESTO
Componentes Costos S/. Fuente de financiamiento
Materiales: S/ 700.00
papel bond a4 propia
impresora canon L455
Equipos: S/ 2200.00 propia

Laptop hp core i5
Software:
Sistema Operativo
Debian 8 S/ 0.00 propia
Python3
NLTK
Transporte S/ 50.00 propia
Gastos Administrativos S/ 1000.00 propia
Otros no previstos S/ 600. 00 propia
27
14 REFERENCIAS Y CITAS BIBLIOGRFICAS
Fuentes de la Corte, J. (2010). Grmatica Moderna de la lengua espaola.
Mxico.
Galicia Haro, &. G. (2007). Investigacin en anlisis sintctico para el espaol.

Mxico: Instituto Politcnico Nacional.
Herrera de la Cruz, J. A. (2010). Sistema de extraccin aultomtica de

informacin semntica de los libros de texto estructurados.
Joosse, W. (2007). User Trainable Fact Extraction.
Liang Kwon & Hovy, Z. N. (2007). A Semi.Automatic Evaluation Scheme:

Automated Nuggetization for Manual Annotation. NY: Rochester.
Mora, A. d. (2000). Las partes de la oracin. Mxico: Trillas.
Mouliner, J. &. (2007). Natural Language Processing for Online Applications Text
Retrieval, Extraction and Categorization. Amsterdam: Second Revised.
Mungua Zatarain Irma, M. Z. (2000). Gramtica Lengua Espaola. Reglas y

Ejercicios. Mxico.
28
29

Procesamientodelenguajenatural 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Procesamientodelenguajenatural 1

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD NACIONAL DE SAN ANTONIO

ABAD DEL CUSCO

DESARROLLAR UNA PLATAFORMA WEB EN PYTHON PARA LA EXTRACCIN

Presentado para el curso de

HANCCO QUIONES YURY FERNANDO

ARENAS ABARCA EDWIN

Bajo la asesora de:

ING. JULIO CSAR CARBAJAL LUNA

Per, Agosto de 2016

Escuela profesional de Ingeniera Informtica y de Sistemas

Facultad de Ingeniera Elctrica, Electrnica, Informtica y Mecnica

Universidad Nacional San Antonio Abad del Cusco

FIGURA 1 FRAGMENTO DE TEXTO ANOTADO CON HECHOS SIMPLES Y COMPLEJO..............3

FIGURA 5 RBOL DE DEPENDENCIAS DE LA ORACIN LOS NIOS PEQUEOS ESTUDIAN

FIGURA 6 ARQUITECTURA GENERAL DEL MTODO PROPUESTO.....................................18

En los ltimos aos la cantidad de informacin en formatos digitales fue

1.1 User Trainable Fact Extraction (UTFE) (Joosse, 2007)

Extraccin de hechos con intervencin de usuario y entrenamiento

En el sistema UTFE se implementaron herramientas de anotacin y

Para evaluar el rendimiento del sistema UTFE, probaron con un dominio

Wouter Joosse explica que la Extraccin de Hechos (Fact Extraction

La informacin obtenida por los Sistemas de Extraccin de Informacin

En la investigacin de Joosse, un hecho simple es conocido como una

Figura 1 Fragmento de Texto anotado con hechos simples y complejo

En el sistema UTFE el usuario interacta con el sistema etiquetando

Con la anterior descripcin que se dio del sistema UTFE, se obtuvieron

En la presente investigacin a diferencia del sistema de Joosse se

Un aporte importante del sistema que se va a desarrollar es que este

El sistema va a utilizar corpus en el idioma espaol.

Otra diferencia con el sistema UTFE, es que no se va a realizar

Por ejemplo en la siguiente oracin:

The Danube at Cernavoda village, where the reactor is located, fell to a

Segn la teora explicada por Hovy, de la anterior oracin se obtienen

Para la extraccin de nuggets se emplean rboles sintcticos

Hovy lleg a determinar que de la anterior oracin ejemplo y sus

Una diferencia encontrada con el sistema que se est proponiendo en

Otra diferencia es que el esquema de Hovy trabaja con textos en el

1.3 Sistema de extraccin automtica de informacin semntica de los

Connexor es un software de pago, no tiene un buen funcionamiento

Las heursticas desarrolladas por Herrera de la Cruz son muy genricas,

Estas frases se encuentran fusionadas en la oracin para enunciar algo de

De acuerdo a (Liang Kwon & Hovy, 2007) y (Fuentes de la Corte, 2010), en la

Un hecho es la unidad mnima de texto que se puede extraer de una oracin,

Hecho = [Sujeto] + [Verbo] + [Objeto/Complemento]

Por ejemplo en la oracin: La civilizacin China nos hered el papel, la

N Sujeto Verbo Objeto/Complemento

1 La civilizacin China hered el papel

2 La civilizacin China hered la plvora

3 La civilizacin China hered una forma de imprenta

4 La civilizacin China hered la brjula

As que la presente investigacin consiste en desarrollar un mtodo para

La extraccin de informacin semntica o hechos, se hace desde un corpus

En adelante, a la informacin semntica que se extrae de las oraciones se

Llenar bases de conocimiento.

4.1 Objetivo General

Desarrollar un mtodo y una plataforma web en python para la

4.2 Objetivos Especficos

Elaborar un manual para identificar la informacin

6.1 Recuperacin de informacin (Mouliner, 2007)

Jackson & Moulinier explica que la IR se ocupa de las bases tericas y

Dentro del propsito de la IR est que un usuario de un motor de

Jackson & Moulinier indican que a menudo se habla de los

Mart Antonn & Alonso Martn, en el ao 2003, comentan que la