Professional Documents
Culture Documents
_________________________________________________________
ISBN 970-36-0264-9
Ral vila
NDICE GENERAL
P REFACIO 1
Captulo 1 Introduccin 3
B IBLIOGRAFA 221
B IBLIOGRAFA 221
INTRODUCCIN
Problemas generales
del Procesamiento
de Lenguaje Natural
Captulo 2
BSQUEDA DE DOCUMENTOS
1
En la versin actual, los conceptos se muestran en ingls para facilitar
su promocin internacional. Est disponible tambin la versin
totalmente en espaol.
Parte I. Problemas generales del Procesamiento de Lenguaje Natural 27
sistema se puede describir con una ficha que especifica los valores
exactos, tales como el tipo de documento (reporte, proyecto,
currculo, etc.), ttulo, fechas de inicio y de terminacin, presupuesto,
nombre del responsable, etc. Estos campos, aunque no son
obligatorios, se usan cuando estn disponibles.
La peticin puede contener tanto los valores de estos campos (el
campo se elige de la lista colocada en medio de la ventana, siendo
Texto uno de los campos) como las palabras y expresiones que se
deben encontrar en el texto del documento. Estos datos se conectan
en una expresin lgica, como se ve en la ilustracin 1.
El resultado de la bsqueda se puede proporcionar mostrando los
renglones relevantes del texto del documento, o a travs de los
valores especificados en sus fichas descriptivas, vase la
Ilustracin 3.
Parte I. Problemas generales del Procesamiento de Lenguaje Natural 29
2
Recordamos al lector que ah se muestran los nombres de conceptos en
ingls pero est disponible la versin en espaol.
Parte I. Problemas generales del Procesamiento de Lenguaje Natural 31
3
Esta herramienta profesional es para el usuario experto. Est bajo
desarrollo la versin para el usuario comn, donde los conjuntos se
representan en una forma ms familiar.
34 A. Gelbukh, G. Sidorov
entre las variantes He ate it, She ate it, It ate him, She ate him, entre
otras.
Con esto se demuestra que la manera correcta de traducir un texto
consiste en lo que hace un traductor humano: entenderlo lo que en
el caso de la traduccin automtica corresponde al anlisis
automtico de lenguaje y luego generar el texto con el mismo
sentido en otro idioma equivalente a la generacin automtica del
texto. Aunque hoy en da esto no es posible en su totalidad, el
desarrollo de la lingstica computacional de los mtodos de
anlisis y generacin automtica de textos lo hace cada vez ms
factible.
Histricamente, el sueo de la traduccin automtica (en aquellos
tiempos entre los idiomas ruso e ingls) motiv las primeras
investigaciones en lingstica computacional. Como ya
mencionamos, a primera vista, la traduccin parece ser un trabajo
bastante mecnico y aburrido, que puede fcilmente hacer la
mquina: sustituir las palabras en un lenguaje con sus equivalentes en
otro.
Sin embargo, con los avances en los programas de traduccin se
hizo cada vez ms obvio que la tarea no es tan simple. Esto se debe,
en parte, a las diferencias entre los lenguajes, que van desde las muy
obvias (por ejemplo, que el orden de las palabraza diferente), hasta
las ms sutiles (el uso de expresiones distintas y diferente estilo).
El esquema general de prcticamente cualquier traductor
automtico es (de acuerdo con el esquema expuesto ms arriba) el
siguiente:
- El texto en el lenguaje fuente se transforma a una representacin
intermedia
- De ser necesario, se hacen algunos cambios a esta representacin
- Finalmente, la representacin intermedia se transforma al texto en
el lenguaje final
En algunos sistemas, al texto generado con este esquema tambin
se le aplican algunos ajustes previstos por las heursticas de
traduccin.
Parte I. Problemas generales del Procesamiento de Lenguaje Natural 41
BIBLIOTECAS DIGITALES
G ENERACIN DE RESMENES
MINERA DE TEXTO
4
www.e-mexico.gob.mx
48 A. Gelbukh, G. Sidorov
APLICACIONES MULTILINGES
T ECNOLOGAS DE VOZ
CONDUCCIN DE DILOGO
PROBLEMAS
2.10 M TODOS
Como ya se ha mencionado, el procesamiento de informacin en
forma textual se conforma por dos tareas bastante independientes:
- El procesamiento de informacin propia segn la aplicacin
especfica: el razonamiento lgico, la bsqueda en la base de
datos, etc. Dentro de un sistema, se realiza como un mdulo
especializado. Este mdulo se toma como entrada, y genera como
salida la informacin en una representacin formal: predicados,
tablas, nmeros, etc.
- La traduccin entre el texto en el lenguaje humano (una secuencia
de letras o sonidos) y esta representacin formal: la
transformacin del texto en la representacin formal que sirve
como entrada al mdulo especializado y, de ser necesario, la
transformacin de su respuesta (representacin formal) en texto.
La lingstica computacional slo se ocupa de la ltima tarea:
traduccin entre el texto y la representacin formal.
El punto crtico en el desarrollo de ese mdulo consiste en
seleccionar una representacin formal lo suficientemente rica para
reflejar el contenido del texto y, al mismo tiempo, lo suficientemente
simple para no presentar problemas de comprensin. Esta
representacin, de manera particular, no debe presentar problemas de
ambigedad y, en la mayora de casos, debe ser independiente del
lenguaje humano especfico (espaol, ingls, etc.).
Entre las representaciones ms prometedoras estn las llamadas
redes semnticas (Bolshakov y Gelbukh, 2004) redes que
representan las situaciones (acciones) y sus participantes segn lo
descrito en el texto. Un nodo en tal red es una situacin o una
entidad, y un enlace es el hecho de que la entidad (a veces, incluso,
54 A. Gelbukh, G. Sidorov
5
www.colmex.mx
Parte I. Problemas generales del Procesamiento de Lenguaje Natural 55
6
www.gelbukh.com/lab.htm; algunas de las publicaciones del
Laboratorio estn en www.gelbukh.com y www.cic.ipn/ ~sidorov
7
leibniz.iimas.unam.mx/~luis
56 A. Gelbukh, G. Sidorov
8
cseg.inaoep.mx/~mmontesg
9
www.AMPLN.org
10
www.CICLing.org
Parte I. Problemas generales del Procesamiento de Lenguaje Natural 57
2.12 C ONCLUSIONES
El procesamiento de lenguaje natural es importante para muchos
aspectos de la vida de la sociedad, desde la informatizacin de los
servicios pblicos y el desarrollo de la democracia, hasta la ciencia,
educacin y cultura. El desarrollo de las herramientas
correspondientes para la lengua nacional es indispensable para la
direccin cultural del pas.
Entre las tareas principales del procesamiento de lenguaje natural
se pueden mencionar:
- Manejo eficiente de la informacin (bsqueda, clasificacin,
agrupamiento, resmenes, filtrado y alerta; bibliotecas digitales)
- Interfaces en lenguaje natural y tecnologas de voz, tanto en los
equipos especializados como en los servicios pblicos
- Traduccin automtica y aplicaciones multilinges
- Ingeniera de conocimiento: extraccin de informacin, minera
de texto
En el aspecto tcnico, como hemos visto, el procesamiento de
lenguaje natural enfrenta la gran complejidad que implica el
conocimiento involucrado. La compilacin de este conocimiento es
uno de los grandes retos para la ingeniera en sistemas lingsticos; y
una de las soluciones a este problema es el aprendizaje automtico
del conocimiento a partir de los grandes corpus de textos.
Otra solucin al problema de complejidad es la particin del
procesamiento en pasos (fases) que corresponden a los niveles
(capas) del lenguaje: anlisis morfolgico (palabras), sintctico
(oraciones) y semntico (texto completo). Esta solucin da origen a
otro problema: la ambigedad. Las ambigedades que se presentan en
un nivel (por ejemplo, aviso: sustantivo o verbo?) se resuelven en
otro nivel de anlisis. La ambigedad es probablemente el problema
ms importante en el anlisis del lenguaje natural.
En Mxico existen varios grupos que trabajan activamente en las
tecnologas de lenguaje, tanto en los aspectos prcticos como
tericos. Las instituciones en que se encuentran estos grupos ofrecen
estudios de Maestra y Doctorado, as como oportunidades de
58 A. Gelbukh, G. Sidorov
NIVELES DE LENGUAJE
Y SU REFLEJO EN PLN
1. fontica / fonologa
2. morfologa
3. sintaxis
4. semntica
5. pragmtica
6. discurso
No existen criterios exactos para la separacin de cada uno de los
niveles; de hecho, las diferencias entre los niveles se basan en el
enfoque de anlisis de cada uno. Por eso pueden existir traslapes
entre niveles sin presentar contradiccin alguna. Por ejemplo, existen
fenmenos relacionados tanto con fonologa como con morfologa,
digamos, alternaciones de races acordar acuerdo, dirigir
dirijo, entre otros casos.
A continuacin vamos a describir brevemente cada nivel del
lenguaje y sus avances computacionales.
FONTICA / FONOLOGA
MORFOLOGA
SINTAXIS
S EMNTICA
11
Si no existe el crculo vicioso, entonces algunas palabras no estn
definidas.
68 A. Gelbukh, G. Sidorov
PRAGMTICA
DISCURSO
12
En caso de Internet, la frecuencia aproximada se calcula usando de las
mquinas de bsqueda existentes, tales como Google, las cuales
determinan el nmero de los documentos donde se encuentra la
palabra.
94 A. Gelbukh, G. Sidorov
4.5 C ONCLUSIONES
Un diccionario explicativo es un sistema complejo con numerosas
relaciones entre sus elementos y con diferentes restricciones
(requerimientos) que las relaciones deben satisfacer para garantizar la
integridad y consistencia del diccionario. La verificacin de tales
requerimientos involucra el anlisis no local, es decir, la
consideracin de los elementos localizados en diferentes lugares del
texto, lo que es casi imposible de hacer manualmente, pero que se
96 A. Gelbukh, G. Sidorov
ANLISIS MORFOLGICO
AUTOMTICO BASADO EN
*
UN DICCIONARIO DE RACES
*
Con Francisco Velsquez
100 A. Gelbukh, G. Sidorov
13
Por ejemplo, nominativo es un valor de la categora gramatical caso.
Parte II. Aplicaciones del PLN con recursos lxicos grandes 101
diferentes (sin contar formas con enclticos). Para evitar este tipo de
trabajo manual se tienen que desarrollar los algoritmos de
generacin, lo que de hecho puede ser una parte significativa del
desarrollo de los algoritmos de anlisis, como se presenta en este
captulo.
Otra consideracin a favor del desarrollo de los algoritmos, en
lugar de usar una base de datos de las formas gramaticales, es el
punto de vista segn el cual los algoritmos de anlisis son un mtodo
de compresin del diccionario. El mtodo permite una compresin
por lo menos 10 veces mayor. En nuestros experimentos efectuamos
la compresin de los diccionarios del ruso y del espaol en forma de
una base de datos con una utilidad de compresin estndar (zip). El
archivo del resultado para el ruso fue cerca de 30 veces ms grande
que el del diccionario de los sistemas de anlisis; en el caso del
espaol, la diferencia entre el tamao de los archivos fue alrededor
de 10 veces a favor del diccionario para el algoritmo.
Una razn ms para el uso de los algoritmos de anlisis es que es
necesario para cualquier tarea que involucre el conocimiento
morfolgico, por ejemplo, para la tarea de dividir palabras con
guiones. Tambin, para la traduccin automtica o recuperacin de
informacin, a veces es mejor tener la informacin acerca de los
morfemas que constituyen la palabra y no nicamente la informacin
de la palabra completa.
Otro tipo de sistemas se basan en almacenamiento de morfemas (de
algn alomorfo que se considera el bsico) que representan las races
en el diccionario. Es decir, el diccionario tiene un slo alomorfo que
representa cada morfema. Los dems alomorfos se construyen en el
proceso de anlisis. El modelo ms conocido de este tipo es PC-
KIMMO.
Muchos procesadores morfolgicos estn basados en el modelo de
dos niveles de Koskenniemi (1983). Originalmente, el modelo fue
desarrollado para el lenguaje finlands, despus se le hicieron
algunas modificaciones para diferentes lenguas (ingls, rabe, etc.).
Poco despus de la publicacin de la tesis de Kimmo Koskenniemi,
donde se propuso el modelo, L. Karttunen y otras personas
Parte II. Aplicaciones del PLN con recursos lxicos grandes 105
PROCESO DE GENERACIN
PROCESO DE ANLISIS
MORFOLOGA NOMINAL
MORFOLOGA VERBAL
5.5 IMPLEMENTACIN
La base de datos (el diccionario) es una tabla en formato de
Paradox donde se almacenan las races e informacin sobre ellas. El
sistema se desarroll en C++.
El analizador est disponible en www.Gelbukh.com/agme o
bien en www.cic.ipn.mx/~sidorov/agme.
El analizador morfolgico existe en dos versiones:
1. Ejecutable que toma un archivo de entrada, lo procesa y genera
un archivo de salida en la versin actual no se incluye algn
etiquetador adicional para resolver la homonimia de partes de la
oracin, es decir, se generan todas las posibles variantes
morfolgicas; se puede usar algn etiquetador disponible para
resolver la homonimia.
2. Un mdulo DLL que se puede incorporar a los programas
directamente; el API de este mdulo permite llamar las funciones
de anlisis para una palabra y retorna valores morfolgicos y
lemas.
Actualmente el analizador tiene un diccionario de races para
26,000 lemas y procesa los textos a una velocidad promedio de 5 KB
por segundo con un procesador Pentium IV. Por el momento, para
almacenar el diccionario de races se usa una base de datos estndar,
lo que permite aspirar a hacer el proceso de anlisis ms rpido en el
futuro. Sin embargo, la velocidad existente es aceptable para todas
aplicaciones prcticas.
El diccionario fue obtenido usando la conversin automtica de un
diccionario bilinge disponible, con la conservacin de las clases
morfolgicas de ese diccionario gran ventaja de nuestro enfoque de
desarrollo de los analizadores. Ese fue el nico criterio para la
seleccin de las palabras; no existe ningn obstculo para hacer el
diccionario ms grande.
Un ejemplo de funcionamiento del sistema; para las palabras lee y
libro se generan los siguientes resultados:
lee leer (*VMRP2S0) leer (*VMIP3S0)
libro libro (*NCMS000) librar (*VMIP1S0)
Parte II. Aplicaciones del PLN con recursos lxicos grandes 115
5.7 C ONCLUSIONES
Un analizador morfolgico es una pieza indispensable en los
sistemas de procesamiento de lenguaje natural. Hasta hace poco no
exista un analizador morfolgico para el espaol disponible
libremente como un mdulo independiente.
Se present aqu un sistema para el anlisis morfolgico, que
implementa el modelo de comprobacin de hiptesis a travs de
generacin. Las ventajas de este modelo de anlisis reflejadas en su
implementacin son su simplicidad y claridad, lo que result en un
tiempo de implementacin muy reducido: el desarrollo de los
algoritmos principales slo tom unos das.
El diccionario actual tiene un tamao considerable: 26,000 lemas.
Es importante mencionar que el sistema AGME no sobregenera ni
sobreanaliza, es decir, slo procesa las formas correctas.
Parte II. Aplicaciones del PLN con recursos lxicos grandes 117
*
Con Sofa Galicia Haro e Igor A. Bolshakov.
120 A. Gelbukh, G. Sidorov
Esta regla significa que la frase verbal puede ser frase verbal con
objeto directo o indirecto.
VP_DOBJ(nmb,pers,mean)
-> @:VP_OBJS(nmb,pers,mean)
dobj_suj:SUJ_DOBJ [dobj_suj:SUJ_DOBJ]
# clavaban sus dardos
-> @:VP_DOBJ(nmb,pers,mean) obj:LIS_PP
# traslad su fbrica a la frontera
-> @:VP_DOBJ(nmb,pers,mean) &mod:VP_MODS
# orden una fila moviendo las sillas
Es decir, esta regla determina qu formas gramaticales puede tener
el objeto directo.
Parte II. Aplicaciones del PLN con recursos lxicos grandes 121
6.4 C ONCLUSIONES
El desarrollo de analizadores de lenguaje natural involucra la
construccin de grandes recursos, con estructuras complejas, pero
que no son propiamente cdigos del programa. A estos recursos
(diccionarios y gramticas) se les conoce como lingware. Su ciclo de
vida es parecido al del software. Especficamente, tambin involucra
las etapas de pruebas, formulacin, comprobacin de requerimientos
y depuracin.
Se present brevemente un ambiente que facilita el desarrollo y la
depuracin de los analizadores de textos en espaol. El sistema
contiene un analizador morfolgico de esa lengua y un parser
sintctico que incorpora la tecnologa de ponderacin de las variantes
sintcticas desarrollada en nuestro Laboratorio. El sistema se est
usando activamente para la implementacin del analizador sintctico
de alta calidad, que se apoya en los diccionarios de compatibilidad de
las palabras en espaol.
Captulo 7
RESOLUCIN DE CORREFERENCIA
CON UN DICCIONARIO
DE ESCENARIOS
RECUPERACIN DE DOCUMENTOS
CON COMPARACIN SEMNTICA
SUAVE
8.1 EL MTODO
La idea principal del mtodo es permitir la bsqueda por palabras
parecidas (relacionadas) en lo que respecta a su sentido (Gelbukh et
al., 1999; Fellbaum, 1998) y tambin tomando en cuenta todas las
formas gramaticales de las palabras (Gelbukh, 2000a; Hausser, 1999;
Koskenniemi, 1983).
Para realizar las bsquedas se realiza el enriquecimiento de la
peticin (Gelbukh, 2000a; Gusfield, 1997) usando los diccionarios
lingsticos grandes con estructura simple. Para cada palabra el
diccionario contiene la lista de palabras relacionadas, marcndose el
grado de relacin (las formas gramaticales, los sinnimos, los
antnimos, etc.). El enriquecimiento de la peticin consiste en que se
agregan a la peticin estas palabras para cada palabra originalmente
incluida por el usuario (vase la seccin 3).
8.2 DICCIONARIOS
El mtodo usado para la comparacin suave en el sistema se basa
en los diccionarios lingsticos. En esta seccin, se describen los
diccionarios incorporados en el sistema. Cada tipo de bsqueda por
palabras, con la generalizacin de sentido o por formas gramaticales,
Parte II. Aplicaciones del PLN con recursos lxicos grandes 149
DICCIONARIO MORFOLGICO
SINNIMOS MS CERCANOS
SINNIMOS MS LEJANOS
OPCIONES DE BSQUEDA
R ESULTADOS DE BSQUEDA
8.4 C ONCLUSIONES
Se describi un mtodo que permite mejorar las bsquedas en las
bases de datos documentales: la bsqueda con comparacin suave (no
exacta) entre la peticin y el texto del documento. Por ejemplo, para
156 A. Gelbukh, G. Sidorov
COMPARACIN
DE LOS COEFICIENTES
DE LAS LEYES DE ZIPF Y HEAPS
EN DIFERENTES IDIOMAS
14
La forma de la palabra es una forma flexiva de la misma, tal cual se
usa en el texto; lema es la forma normalizada de la palabra que
usualmente aparece como la palabra encabezada en los diccionarios.
Por ejemplo, para las formas de palabras: pensar, pienso,
pensndolo, el lema es pensar.
15
Ignoramos las correccines de Mandelbrot para la ley de Zipf
(Manning and Shutze, 1999), pues slo afectan los valores extremos
de la distribucin y no afectan los fenmenos que aqu discutimos.
158 A. Gelbukh, G. Sidorov
fr C / r z (1)
frecuencia
ingls
ruso
ruso
ingls rango
frecuencia
ruso
ingls
rango
xi xi y i x i2 yi yi 1
c xi
c xi
c c xi xi c xi
b c xi
b= i i i i
, a= i i , (7)
2 xi
x i
x i2
c c
1 c xi
i c xi i
xi
i
xi i
9.3 C ONCLUSIONES
Hemos demostrado que los coeficientes exponenciales de las leyes
de Zipf y Heaps dependen sustancialmente de los idiomas. Llegamos
a esta conclusin a partir de comparar los coeficientes calculados
para los 39 diferentes textos de tamao considerable y de diferentes
gneros de ficcin en ruso y en ingls. El tamao de los textos es
comparable para los diferentes idiomas. Para calcular los coeficientes
se us el mtodo de regresin lineal con una normalizacin adicional.
En el futuro planeamos seguir investigando el concepto de la
riqueza lxica, por ejemplo, haciendo comparaciones entre el
original y su traduccin. Tambin parece interesante calcular los
coeficientes tomando en cuenta las partes de la oracin. Adems, nos
gustara calcular los coeficientes para otros idiomas, sin embargo, es
difcil, debido a la ausencia de grandes conjuntos de textos
disponibles.
164 A. Gelbukh, G. Sidorov
34. . novela
35. . , ciencia ficcin
36. . ciencia ficcin
37. . aventuras
38. . "" - novela policaca
...
39. . . ciencia ficcin
* Tanto los autores como los ttulos de sus trabajos, en su mayora, no son
conocidos fuera de Rusia. La informacin tiene un carcter ilustrativo y no
afecta los resultados de la investigacin; por eso se dan sin traduccin.
Parte III
Construccin de
recursos lxicos
para el PLN
Captulo 10
COMPILACIN AUTOMTICA
DEL CORPUS LXICA Y
MORFOLGICAMENTE
REPRESENTATIVO
16
En todos los dialectos del espaol, salvo en el castellano, no hay
diferencia en la pronunciacin de [s] y [z].
Parte III. Construccin de recursos lxicos para el PLN 175
17
www.webcorp.org.uk
176 A. Gelbukh, G. Sidorov
10.4 C ONCLUSIONES
El diccionario propuesto tiene las ventajas de los corpus virtuales:
- Menor nmero de palabras redundantes
- El numero suficiente de contextos de la mayora de las palabras
para un aprendizaje estadsticamente confiable
as como las de los corpus tradicionales:
- Tamao razonablemente pequeo
- Manejo local de los recursos con respuesta rpida y sin
sobrecarga de la red
- Posibilidad de clasificacin, limpieza y marcaje manual
- Estabilidad y reproducibilidad de los resultados en el tiempo y
espacio
Tambin hereda algunas desventajas de los corpus virtuales:
- Calidad inferior de los textos debido al lenguaje cotidiano de
Internet (depende mucho de la calidad de los filtros empleados).
- Imposibilidad de elegir el gnero, tpico, autor, etc.
- Imposibilidad (sin aplicar las herramientas correspondientes) de
resolver la homonimia de algunas partes de la oracin (trabajo
es verbo o sustantivo?), lo que aumenta el ruido en el corpus
obtenido; y de distinguir los sentidos de palabras diferentes, lo
Parte III. Construccin de recursos lxicos para el PLN 183
11.4 C ONCLUSIONES
Una base de datos de combinaciones de palabras es un recurso
lingstico muy importante. Sin embargo, la compilacin y el
enriquecimiento manual de este diccionario implican una tarea que
consume demasiado tiempo y esfuerzo. Propusimos un mtodo que
brinda la posibilidad de construir bases de datos de este tipo
semiautomticamente. El mtodo se basa en el anlisis sintctico
automtico, usando el formalismo de dependencias y la extraccin de
combinaciones de palabras.
Se present brevemente un ambiente que facilita el desarrollo y la
depuracin de los analizadores de textos en espaol. El sistema
contiene un analizador morfolgico del espaol y un parser sintctico
que incorpora la tecnologa de ponderacin de las variantes
sintcticas desarrollada en nuestro Laboratorio. El sistema se est
usando activamente para el desarrollo del analizador sintctico de
alta calidad que se apoya en los diccionarios de compatibilidad de las
palabras en espaol.
Algunos tipos de relaciones y algunos tipos de nodos se filtran
debido a que no contienen la informacin lxica importante. Se
implementa un procedimiento especial para las relaciones
coordinativas y preposiciones. El mtodo requiere de un post-
procesamiento de las combinaciones de palabras obtenidas, pero
solamente para verificar que no se presenten errores del parser.
Los resultados se evaluaron sobre un texto en espaol elegido
aleatoriamente. El mtodo propuesto tiene mucha mejor precisin y
especificidad que el mtodo base que obtiene los bigramas.
Captulo 12
EVALUACIN AUTOMTICA DE LA
CALIDAD DE LOS DICCIONARIOS
EXPLICATIVOS
12.2 EL EXPERIMENTO
En el experimento medimos la semejanza entre diferentes sentidos
de la misma palabra.
Usamos la medida natural de la semejanza entre dos textos,
conocida como el coeficiente de Dice (Jiang y Conrad, 1999;
Rasmussen, 1992). La formula para este coeficiente es la que sigue:
202 A. Gelbukh, G. Sidorov
2 | W1 W2 |
D (t1 , t 2 ) =
| W1 | + | W2 |
donde W 1 y W 2 son las palabras del texto t 1 y t 2. Este coeficiente
caracteriza la interseccin literal de las palabras en el texto, lo que se
expresa a travs de W 1 W 2 donde tomamos las palabras que existen
en ambos textos o como nosotros, en ambas definiciones.
No obstante, en nuestro caso, queremos considerar tambin los
sinnimos de las palabras presentes en las definiciones de los
sentidos. Por lo que modificamos la frmula para calcular la
semejanza como sigue:
| W1 W2 | + | W1 o W2 |
S (t1 , t 2 ) =
max(| W1 |,| W2 |)
Aqu el smbolo o significa que calculamos la interseccin usando
sinnimos (vase la descripcin del algoritmo a continuacin).
Tuvimos que utilizar el valor mximo de nmero de palabras para la
normalizacin, porque todas las palabras de cualquiera de las
definiciones pueden ser sinnimas o coincidir literalmente con las
palabras de otra definicin. En esta formula no hay necesidad de
multiplicar por dos porque no sumamos el nmero de palabras en
ambos textos. Es obvio que los sinnimos pueden tomarse con cierto
peso, pero para los propsitos de nuestro experimento es importante
medir la semejanza mxima posible. Adems, en nuestra opinin, los
sinnimos, en este clculo de semejanza, deben tratarse igual que las
palabras que tienen interseccin literal, porque, por la definicin, los
sinnimos tienen significados similares y se distinguen normalmente
slo por el matiz de sus significados. As, aunque a veces no es
posible sustituir un sinnimo con el otro en un texto, los sinnimos
expresan ms o menos el mismo concepto.
Los pasos del algoritmo son los siguientes. Para cada palabra en el
diccionario medimos la semejanza entre sus sentidos; obviamente, las
palabras con un solo sentido se ignoraron encontramos que hay
alrededor de 13,000 palabras con un solo sentido de un total de
30,000. Puesto que la semejanza es una relacin simtrica, se calcula
solamente una vez para cada par de sentidos de las palabras.
Parte III. Construccin de recursos lxicos para el PLN 203
12.3 C ONCLUSIONES
Propusimos un mtodo de evaluacin automtica de la calidad de
los diccionarios explicativos usando la comparacin de sentidos de la
misma palabra los sentidos no deben ser demasiado similares.
Aunque es solamente un aspecto de la calidad de los diccionarios,
esta caracterstica es muy importante. El mtodo consiste en calcular
la interseccin de los sentidos que se normalizan previamente;
durante esta comparacin se considera la interseccin literal y la
interseccin basada en los sinnimos de las palabras en las
definiciones de los distintos sentidos.
El experimento se realiz para el diccionario Anaya de la lengua
espaola. Los resultados demuestran que alrededor del 10% de pares
de sentidos son significativamente similares con ms del 25% de
palabras afines. En nuestra opinin, ese porcentaje es demasiado alto,
por lo que el diccionario debe ser revisado. En el futuro planeamos
realizar este experimento con otros diccionarios, como, por ejemplo,
el WordNet.
Captulo 13
DETECCIN AUTOMTICA
DE LAS PRIMITIVAS SEMNTICAS
13.2 EL ALGORITMO
Esta seccin se orienta al lector interesado en los aspectos
matemticos y tcnicos del algoritmo. El lector interesado slo en las
aplicaciones y resultados, puede omitirla.
Desde el punto de vista matemtico, el problema y su solucin son
los siguientes.
D EFINICIONES
FUNCIONAMIENTO
v1
v2
v3
Ilustracin 18. Contraejemplo.
L n L n L n
1 47 7 53 13 19
2 1496 8 58 14 9
3 177 9 45 15 8
4 67 10 38 16 12
5 47 11 29 17 11
6 72 12 32 18 3
13.6 C ONCLUSIONES
Hemos presentado un mtodo para la seleccin del conjunto
mnimo de las palabras a travs de las cuales se pueden definir todas
las dems palabras en un diccionario explicativo. Este conjunto se
denomina conjunto definidor.
Se necesita la construccin de tal conjunto para la conversin del
diccionario tradicional en un diccionario semntico computacional
orientado a los sistemas de razonamiento lgico automtico, siendo
un rasgo de tales sistemas lgicos el que no se permiten crculos
viciosos en las definiciones.
Nuestro mtodo permiti la construccin de una herramienta que
detecta los problemas y defectos relacionados con la presencia de los
crculos en las definiciones del diccionario y ayuda al lexicgrafo a
corregirlos.
Queda para la investigacin futura la interpretacin lingstica del
hecho de que en el diccionario con el cual experimentamos
encontramos casi exactamente el nmero esperado de palabras
primitivas dos mil.
BIBLIOGRAFA
(Alexandrov y Gelbukh, 1999) Alexandrov, M., A. Gelbukh.
Measures for determining thematic structure of documents with
Domain Dictionaries. In: Proc. Text Mining workshop at 16th
International Joint Conference on Artificial Intelligence
(IJCAI'99), Stockholm, Sweden, 1999, pp. 1012.
(Alexandrov et al., 1999) Alexandrov, M., P. Makagonov, and K.
Sboychakov. Searching similar texts: some approaches to
solution. Borsevich (ed.), Acta Academia, Annual J. Intern.
Inform. Academy, Chisinau, Moldova, 1999, pp. 215223.
(Alexandrov et al., 2000a) Alexandrov, M., A. Gelbukh, and
P. Makagonov. Evaluation of Thematic Structure of
Multidisciplinary Documents. In: Proc. DEXA-2000, 11th
International Conference and Workshop on Database and Expert
Systems Applications, NLIS-2000, 2nd International Workshop on
Natural Language and Information Systems, England, 2000. IEEE
Computer Society Press, pp. 125129.
(Alexandrov et al., 2000b) Alexandrov, M., A. Gelbukh, P.
Makagonov. On Metrics for Keyword-Based Document Selection
and Classification. In: Proc. CICLing-2000, International
Conference on Intelligent Text Processing and Computational
Linguistics, February, Mexico City, 2000, pp. 373389.
(Alexandrov et al., 2001) Alexandrov, Mikhail, Alexander Gelbukh,
George Lozovoi. Chi-square Classifier for Document
Categorization. Lecture Notes in Computer Science, N 2004,
Springer, 2001, pp. 455457.
(lvarez, 1977) lvarez Constantino, J. Gramtica funcional de
espaol, Editorial Avante, 1977.
(Anaya, 1996) Grupo Anaya. Diccionario de la lengua espaola.
1996, www.anaya.es.
(Aone y McKee, 1993) Aone, Ch., and D. McKee. Language-
independent anaphora resolution system for understanding
multilingual texts. In: Proceedings of the 31st meeting of the
ACL. The Ohio State University, Columbus, Ohio, 1993.
222 A. Gelbukh, G. Sidorov
(Yu et al., 2003) Yu, J., Zh. Jin, and Zh. Wen. Automatic extraction
of collocations. 2003.
(Yule, 1982) Yule, G. Interpreting anaphora without identifying
reference. Journal of Semantics, 1982, 1: 315322.
(Zgusta, 1971) Zgusta, L. Manual of lexicography. Hague: Mouton,
Prague: Academia, 1971.
(Zipf, 1949) Zipf, G. K. Human behavior and the principle of least
effort. Cambridge, MA, Addison-Wesley, 1949.
NDICE ANALTICO
A C
acento fontico .................... 62 CFG ...............Vase gramtica
acento grfico...................... 61 independiente de contexto
agrupamiento ...................... 86 CICLing......... Vase Congreso
alternacin en raz ............. 103 Internacional de Lingstica
ambigedad de sentidos de Computacional y
palabras ........................... 84 Procesamiento Inteligente de
AMPLN ...... Vase Asociacin Texto
Mexicana para el clasificacin ........................ 88
Procesamiento de Lenguaje coeficiente de Dice ........... 201
Natural coherencia, verificacin de . 18
anafor ................................ 137 colocacin......................... 187
anlisis a travs de generacin combinacin de palabras ... 186
...................................... 108 idiomtica...................... 189
anlisis morfolgico ............ 99 libre ............................... 189
anlisis sintctico ...... 119, 121 combinaciones de palabras 174
antecedente ....................... 137 Congreso Internacional de
antonimia ...................... 90, 91 Lingstica Computacional y
rbol de constituyentes ...... 123 Procesamiento Inteligente de
rbol sintctico .................... 67 Texto ............................... 56
Asociacin Mexicana para el conjunto definidor............. 210
Procesamiento de Lenguaje conocimiento extralingstico
Natural............................. 56 ........................................ 52
conocimiento lxico .......... 173
B
conocimiento lingstico ..... 52
biblioteca digital ................. 43 contraposicin................... 134
buscador ................................ 4 corpus ................................... 6
bsqueda inteligente............ 25 representativo ................ 177
virtual............................ 175
corpus representativo .......... 81
correferencia ................69, 133
238 A. Gelbukh, G. Sidorov
directa............................ 133 G
indirecta......................... 134
generacin de resmenes .... 45
D generacin de texto ............. 42
gnero morfolgico ........... 111
DCG........ Vase gramticas de
grafo conceptual ................. 67
clusulas definidas
grafo dirigido .................... 210
dixis ................................ 134
gramtica .......................... 124
desambiguacin de sentidos de
de constituyentes ........... 122
palabras ............. 68, 88, 199
de dependencias ............ 122
dilogo ................................ 50
gramtica de adjuncin de
diccionario ............................ 6
rboles........................... 121
de atraccin lxica ......... 124
gramtica de clusulas
de combinaciones de
definidas........................ 106
palabras ...................... 124
gramtica independiente de
de subcategorizacin...... 124
contexto......................... 121
FACTTUM ................. 142
gramtica, verificacin de .. 18,
morfolgico ................... 124
88
sintctico ....................... 124
guiones, divisin con .......... 17
discurso ................... 64, 69, 71
H
E
habla ................................... 64
e-Gobierno .......................... 46
homonimia ...................75, 115
escenario prototpico ......... 137
HPSG...........................55, 121
estilo, verificacin de .......... 18
estructuracin de informacin I
........................................ 22
informacin tabular............. 27
extraccin de informacin .. 21,
interfaz en lenguaje natural . 36
44
Internet ........................... 4, 47
F
K
filtrado de informacin........ 44
KWIC ............................... 176
fontica ............................... 64
fonologa ............................. 64 L
formalidad ............................. 5 Lecture Notes in Computer
funci lxica...................... 190 Science ............................ 56
lengua
ndice analtico 239
eslava............................. 101 P
romnica ........................ 101
paradigma morfolgico ..... 107
lenguaje
parfrasis ............................ 76
aglutinativo.................... 100
PAROLE, estndar............ 115
flexivo ........................... 101
parser ..........................66, 119
LEXESP, corpus ............... 115
performativa, expresin ...... 68
lexicografa ......................... 67
persona gramatical ............ 101
lexicologa .......................... 67
PLN ...Vase procesamiento de
ley
lenguaje natural
de Heaps ........................ 157
pluralia tantum ..........108, 113
de Zipf ..............81, 157, 174
polisemia ............................ 75
lingstica.............................. 3
polisemia regular ................ 84
lingstica computacional...... 5
pragmtica ...............64, 68, 71
lingware ............................ 125
precisin ........................... 125
M precisin de bsqueda ......... 34
primitivas semnticas....74, 77,
malapropismo.............. 89, 174
94, 207
meronimia ........................... 90
probabilidad
mtodo de Lesk ............. 81, 87
absoluta ......................... 173
minera de texto .................. 45
condicional .................... 173
modelo ................................ 60
procesador lingstico ......... 69
modelo de conjugacin verbal
procesamiento de lenguaje
...................................... 112
natural ......................... 5, 16
modelo de dos niveles ....... 104
psicolingstica ..................... 3
morfologa....20, 64, 65, 71, 99
morfonologa..................... 100 R
motor de bsqueda .............. 23
razonamiento lgico............ 21
N recall ................................. 125
recuperacin de informacin
navegacin .......................... 24
.................................19, 145
nivel de lenguaje ................. 63
red semntica ...........67, 70, 71
normalizacin morfolgica 200
representacin de documento
nmero gramatical............. 101
........................................ 29
O riqueza lxica.................... 163
ortografa, verificacin de ... 88
ortografa, verificacin de ... 17
240 A. Gelbukh, G. Sidorov
S T
semntica ................ 64, 67, 71 TAG.......... Vase gramtica de
sentidos de palabra .............. 79 adjuncin de rboles
sinonimia .................... 90, 147 tecnologas de lenguaje natural
sinnimos ............................ 20 .......................................... 1
sintaxis .................... 64, 66, 71 traduccin automtica ......... 39
sistema
V
AGME.............102, 108, 116
Clasitex ......................... 142 verbo
CrossLexica ........... 188, 192 irregular ........................ 112
FreeLing ........................ 100 regular ........................... 112
GRAMPAL.................... 106 semiregular.................... 112
MACO+ ................. 100, 115 vocabulario definidor ....67, 74,
PC-KIMMO................... 104 94, 208
sociolingstica ..................... 3 voz .................................49, 64
Impreso en los talleres grficos
de la Direccin de Publicaciones
del Instituto Politcnico Nacional
Tresguerras, 27, Centro Histrico, Mxico, DF
Abril de 2006.
Edicin 1000 ejemplares