You are on page 1of 10

Procesamiento de lenguaje natural

Mg. Augusto Cortez Vsquez1,2, Mg. Hugo Vega Huerta1,2, Lic. Jaime Pariona Quispe1

1
Facultad de Ingeniera de Sistemas e Informtica
Universidad Nacional Mayor de San Marcos
2
Facultad de Ingeniera
Universidad Ricardo Palma

cortez_augusto@yahoo.fr, hugovegahuerta@hotmail.com

RESUMEN
El artculo presenta el procesamiento de lenguaje natural mediante el modelado de los procesos
cognoscitivos que entran en juego en la comprensin del lenguaje para disear sistemas que rea-
licen tareas lingsticas complejas como son traduccin, resmenes de textos, recuperacin de
informacin, etc.
Palabras clave: lenguaje natural, procesamiento de lenguaje natural, anlisis de lenguaje natural,
lexicones

ABSTRACT
The present article present the processing of natural language by means of the shaped one of the
cognitive processes that enter game the comprehension of the language to design systems that
realize linguistic complex tasks since to be (translation, summaries of texts, recovery of information,
etc.)
Keywords: Natural language, processing of natural language, analysis of natural language, lexi-
cons

45
Revista de Ingeniera de Sistemas e Informtica vol. 6, N. 2, Julio - Diciembre 2009

I. INTRODUCCIN II. GENERALIDADES


La mayor parte del conocimiento cientfico es el resul- Definicin de lenguaje
tado de muchos aos de investigacin, con frecuencia
sobre temas aparentemente no relacionados. Y lo es Un lenguaje se puede definir de diferentes formas:
mucho ms en las ciencias de la computacin, en don- desde el punto de vista funcional lingstico se define
de el recurso ms importante que posee la raza huma- como una funcin que expresa pensamientos y comu-
na es informacin y conocimiento. En la poca actual el nicaciones entre la gente. Esta funcin puede realizarse
uso de los recursos naturales, industriales y humanos mediante signos escritos (escritura) o mediante sea-
depende del manejo eficiente de la informacin y cono- les y vocales (voz). Desde un punto de vista formal se
cimiento. Desde los tiempos antiguos hasta la actuali- define como un conjunto de frases, que generalmente
dad, el conocimiento ha ido incrementndose a pasos es infinito y se forma con combinaciones de elementos
agigantados en la forma de documentos, libros, artcu- tomados de un conjunto (usualmente infinito) llamado
los, y guardndose en diferentes formas: impresos, en alfabeto, respetando un conjunto de reglas de forma-
forma electrnica (digital), con el advenimiento de las cin (sintcticas o gramaticales) y de sentido (semnti-
computadoras y el procesamiento del conocimiento el cas). Adems de las caractersticas fundamentales del
incremento ha sido mayor. Sin embargo, lo que es co- lenguaje debe considerarse que sea funcional, es decir,
nocimiento para nosotros los seres humanos no lo el lenguaje debe permitirnos expresar nuestras ideas.
es para las computadoras. La computadora almacena El lenguaje ser bueno en la medida en que sea fcil
datos e informacin en archivos, puede copiar tal ar- de leer, fcil de entender y fcil de modificar. Lo mismo
chivo, respaldarlo, transmitirlo, borrarlo, pero no puede
ocurre en los lenguajes formales[6].
buscar las respuestas a preguntas formuladas, hacer
inferencias lgicas sobre su contenido, generalizar y Podemos distinguir entre dos clases de lenguajes: los
resumirlo, es decir, hacer todo lo que las personas nor- lenguajes naturales (ingls, alemn, espaol, etc.) y len-
malmente hacemos con el texto. Porque no lo puede guajes formales (matemtico, lgico, programable etc.).
entender.
Definicin de lenguaje natural
Desde la perspectiva de la inteligencia artificial (IA), el
estudio del lenguaje natural tiene dos objetivos: Cuando queremos definir qu es lenguaje natural, nos
hacemos la pregunta Qu surgi primero las reglas
Objetivo 1: Facilitar la comunicacin con la computa-
gramaticales o el lenguaje? Un lenguaje natural es
dora para que accedan a ella usuarios no especializa-
aquel que ha evolucionado con el tiempo para fines de
dos.
comunicacin humana, como el espaol o alemn [2].
Objetivo 2: Modelar los procesos cognoscitivos que Estos lenguajes continan su evolucin sin considerar
entran en juego en la comprensin del lenguaje para la gramtica, cualquier regla se desarrolla despus de
disear sistemas que realicen tareas lingsticas com- sucedido el hecho. En contraste, los lenguajes formales
plejas (traduccin, resmenes de textos, recuperacin estn definidos por reglas preestablecidas, y por tanto
de informacin, etc.) se rigen con todo rigor a ellas.
Existen problemas en los que interesa fundamental- El lenguaje natural(LN) es el medio que utilizamos de
mente el primer objetivo. Esto se soluciona consiguien- manera cotidiana para establecer nuestra comunica-
do un intrprete para una clase de aplicaciones en un cin con las dems personas. El LN ha venido perfec-
dominio restringido, que haga de traductor entre el cionndose a partir de la experiencia a tal punto que
computador y el usuario. El presente artculo se centra
puede ser utilizado para analizar situaciones altamente
en el segundo objetivo, en el que se plantea el lenguaje
complejas y razonar muy sutilmente. Los lenguajes
como objeto de estudio, y la comprensin como un pro-
naturales tienen un gran poder expresivo y su funcin
ceso complejo en que intervienen grandes cantidades
y valor como una herramienta para razonamiento. Por
de conocimiento de naturaleza diferente (morfologa,
sintaxis, semntica, pragmtica) y mecanismos de tra- otro lado, la sintaxis de un LN puede ser modelada f-
tamiento variados (de comparacin, bsqueda, inferen- cilmente por un lenguaje formal, similar a los utilizados
cia aproximada, deduccin, etc.). en las matemticas y la lgica.

46
UNMSM - Universidad Nacional Mayor de San Marcos

En un primer resumen, los lenguajes naturales se ca- conjunto de componentes lxicos, reglas gramaticales
racterizan por las siguientes propiedades: y una delimitacin semntica.
1. Un lenguaje natural se define a partir de una gra-
mtica G, sin embargo, este se enriquece progre- Reglas Lenguaje
sivamente modificando as tambin la gramtica gramaticales natural
que la define. Esto dificulta la formalizacin de la
definicin de G. Figura N. 2.

2. Un LN tiene un gran poder expresivo debido a la En resumen las caractersticas de los lenguajes forma-
riqueza del componente semntico (polisemntica). les son las siguientes:
Esto dificulta aun ms la formalizacin completa de 1. Se desarrollan a partir de una gramtica G preesta-
su gramtica. blecida.
2. Componente semntico mnimo.
Reglas Lenguaje 3. Posibilidad de incrementar el componente semnti-
gramaticales natural co de acuerdo con la teora a formalizar.
4. La sintaxis produce oraciones no ambiguas.
Proceso de retroalimentacin
5. Completa formalizacin y por esto, el potencial de
Figura N. 1. la construccin computacional.
Lengua y habla Antes de continuar con nuestro estudio del PLN, es im-
La lengua no es funcin del sujeto hablante, sino el pro- portante el que estudiemos el concepto de lo que es un
ducto que el individuo registra pasivamente. Nunca su- lenguaje de programacin y las generaciones de estos
pone premeditacin y la reflexin no interviene en ella para darnos una idea de cmo ha sido su evolucin.
ms que para la actividad de clasificar. Lenguaje de programacin
El habla es el acto individual de voluntad y de inteligen- Un lenguaje de programacin es un lenguaje formal
cia, ya que supone composicin premeditada haciendo definido como un conjunto de elementos (componen-
uso de la lengua. Cuando hablamos de la lengua y el tes lxicos) organizados a travs de constructores (re-
habla, conviene distinguir: glas gramaticales) que permiten escribir un programa
A, Las combinaciones por lo que el sujeto hablante y que ste sea entendido por el computador y pueda
utiliza el cdigo de la lengua con el objetivo de ex- ser trasladado a computadores similares para su fun-
presar sus ideas. cionamiento en otros sistemas. Un programa es una
B. El mecanismo psicofsico que le permite exteriori- secuencia de instrucciones ordenadas correctamente
zar esas combinaciones. que permiten realizar una tarea o trabajo especfico. Un
lenguaje de programacin se basa en dos elementos
Al separar la lengua del habla se separa a la vez:
muy importantes:
a. Lo que es social de lo que es individual
Sintaxis: que se encarga del orden correcto de los
b. Lo que es esencial de lo que es accesorio
componentes lxicos
Definicin de lenguaje formal Semntica: se encarga de que cada oracin del
El lenguaje formal es aquel que el hombre ha desarro- lenguaje de programacin utilizado tenga un signifi-
llado para expresar las situaciones que se dan en es- cado correcto.
pecfico en cada rea del conocimiento cientfico. Los
lenguajes formales pueden ser utilizados para modelar III. PROCESAMIENTO COMPUTACIONAL DEL
una teora de la mecnica, fsica, matemtica, inge- LENGUAJE NATURAL(PLN)
niera elctrica, o de otra naturaleza, con la ventaja de
Una de las tareas fundamentales de la Inteligencia
que en estos toda ambigedad es eliminada. Revisten
Artificial (IA) es la manipulacin de lenguajes naturales
especial importancia los lenguajes de programacin
usando herramientas de computacin, en esta, los len-
de computadoras, y estas se definen considerando un

47
Revista de Ingeniera de Sistemas e Informtica vol. 6, N. 2, Julio - Diciembre 2009

guajes de programacin juegan un papel importante, Arquitectura de un sistema de PLN


ya que forman el enlace necesario entre los lenguajes
La arquitectura de un sistema de PLN se sustenta en
naturales y su manipulacin por una mquina. El PLN
una definicin del LN por niveles: estos son : fonolgi-
consiste en la utilizacin de un lenguaje natural para
co, morfolgico, sintctico, semntico, y pragmtico.
comunicarnos con la computadora, debiendo sta en-
tender las oraciones que le sean proporcionadas, el a. Nivel Fonolgico: trata de cmo las palabras se
uso de estos lenguajes naturales, facilita el desarrollo relacionan con los sonidos que representan.
de programas que realicen tareas relacionadas con b. Nivel Morfolgico: trata de cmo las palabras se
el lenguaje o bien, desarrollar modelos que ayuden a construyen a partir de unas unidades de significado
comprender los mecanismos humanos relacionados ms pequeas llamadas morfemas.
con el lenguaje. c. Nivel Sintctico: trata de cmo las palabras pue-
El uso del lenguaje natural (LN) en la comunicacin den unirse para formar oraciones, fijando el papel
hombre-mquina presenta a la vez una ventaja y un estructural que cada palabra juega en la oracin y
obstculo con respecto a otros medios de comunica- que sintagmas son parte de otros sintagmas.
cin. d. Nivel Semntico: trata del significado de las pala-
bras y de cmo los significados se unen para dar
Ventaja significado a una oracin, tambin se refiere al sig-
Por un lado es una ventaja, en la medida en que el nificado independiente del contexto, es decir de la
locutor no tiene que esforzarse para aprender el medio oracin aislada.
de comunicacin a diferencia de otros medios de inte- e. Nivel Pragmtico: trata de cmo las oraciones se
raccin como lo son los lenguajes de comando o las usan en distintas situaciones y de cmo el uso afec-
interfaces grficas. ta al significado de las oraciones. Se reconoce un
subnivel recursivo: discursivo, que trata de cmo el
Desventaja significado de una oracin se ve afectado por las
Su uso tambin tambien presenta limitaciones porque oraciones inmediatamente anteriores.
la computadora tiene una limitada comprensin del
lenguaje. Por ejemplo, el usuario no puede hablar so- Anlisis Anlisis
Anlisis
morfolgico y
brentendidos, ni introducir nuevas palabras, ni construir sintctica
semntico pragmtico
sentidos derivados, tareas que se realizan espontnea- Figura N. 3. Arquitectura de un Sistema de Procesamiento de
mente cuando se utiliza el lenguaje natural. Realmen- Lenguaje Natural
te, lo que constituye en ventaja para la comunicacin La arquitectura del sistema de procesamiento del len-
humana se convierte en problema a la hora de un tra- guaje natural muestra como la computadora interpreta
tamiento computacional, ya que implican conocimiento y analizar las oraciones que le sean proporcionadas
y procesos de razonamiento que an no sabemos ni
cmo caracterizarlos ni cmo formalizarlos. La explicacin de este sistema, es sencilla:
a. El usuario le expresa a la computadora que es lo
Aplicaciones del PLN
que desea hacer.
Las aplicaciones del PLN son muy variadas, ya que su b. La computadora analiza las oraciones proporcio-
alcance es muy grande, algunas de las aplicaciones nadas, en el sentido morfolgico y sintctico, es
son: decir, si las frases contienen palabras compuestas
Traduccin automtica por morfemas y si la estructura de las oraciones es
Recuperacin de la informacin correcta. En esta etapa juegan un papel importante
el analizador lexicogrfico y el analizador sintcti-
Extraccin de Informacin y Resmenes
co. El primero denominado scanner se encarga de
Resolucin cooperativa de problemas identificar los componentes lxicos definidos a prio-
Tutores inteligentes ri, el segundo denominado parser se encarga de
Reconocimiento de Voz verificar si se cumple un orden gramatical entre los
elementos identificados por el scaner[2]

48
UNMSM - Universidad Nacional Mayor de San Marcos

c. El siguiente paso es analizar las oraciones semn- Consideremos la siguiente gramtica G (VN, VT, S, P)
ticamente, es decir saber cual es el significado de donde
cada oracin, y asignar el significado de estas a VN = {S, NOMBRE, VERBO, ADJ, NOMB-SING, VER-
expresiones lgicas (cierto o falso). BO-SING,ADVERBIO}
d. Una vez realizado el paso anterior, ahora podemos VT= {El, La, Los, Las, Pequeo, traviesa, nio, nia, es-
hacer el anlisis pragmtico de la instruccin, es tudia, corre, juega, salta}
decir una vez analizadas las oraciones, ahora se
analizan todas juntas, tomando en cuenta la si- P = {S NOMBRE VERBO
tuacin de cada oracin, analizando las oraciones NOMBRE ADJ NOMBRE
anteriores, una vez realizado este paso, la compu- NOMBRE ADJ NOMB-SING
tadora ya sabe que es lo que va a hacer, es decir, VERBO VERB-SING ADVERBIO
ya tiene la expresin final.
ADJ El /La /Los /Las /Ellos /Ellas
e. Una vez obtenida la expresin final, el siguiente
ADJ Pequeo /traviesa/ inquieto
paso es la ejecucin de esta, para obtener as el
resultado y poder proporcionrselo al usuario. NOMB-SING nio / nia
VERB-SING estudia / corre / juega /salta
Sintaxis y Gramtica
ADVERVIO rpidamente / despacio / mucho
La sintaxis se define como la disposicin de palabras }
en una oracin para mostrar su relacin. Describe la S
secuencia de smbolos que constituyen programas
validos[3,4]. En un lenguaje de programacin conven-
cional la frase a = b + c representa una secuencia va- NOMBRE VERBO
lida de smbolos, pero c = b a + no lo es. Esto se justi-
fica, dado que en una sentencia de asignacin el lado ADJ NOMBRE VERB-SING ADVERBIO
izquierdo del operador de asignacin debe ser un iden-
tificador y el lado derecho debe haber una expresin
El ADJ NOMB-SING corre rpidamente
aritmtica valida. La sintaxis suministra informacin sig-
nificativa que se necesita para entender un programa y
proporciona informacin imprescindible para la traduc- Pequeo nio
cin del programa fuente a un programa objeto[11]. La
sintaxis muestra al hablante la forma como debe escri- luego w = El Pequeo nio corre rpidamente L(G)
bir buenos oraciones. La sintaxis es ms til al usuario Durante el anlisis sintctico, se realizan derivaciones
del lenguaje que al sistema de PLN. (de reglas gramaticales) a partir de un smbolo distin-
Una gramtica G es un modelo lingustico-matematico guido, para verificar si una frase pertenece al lenguaje
que describe el orden sintctico que den cumplir las fra- definido por la gramtica. A este proceso para determi-
ses bien formadas de un lenguaje[1,2]. Una gramtica nar si es gramaticalmente correcta o no se le conoce
se define formalmente de la siguiente forma: como anlisis sintctico (parsing). Los rboles de an-
lisis sintctico muestran la sintaxis concreta de un len-
G =( Vt , VN, P, S) donde: guaje [3,6]. Sin embargo, para aplicar esta gramtica
VT : conjunto finito de smbolos terminales del len- de forma mecnica y automatizada a una oracin, es
guaje necesario contar con un lexicn que ofrezca informa-
VN : conjunto finito de smbolos no terminales cin al analizador sintctico (parser) sobre las catego-
P : conjunto finito de reglas de produccin ras gramaticales que estn asociadas a las palabras
que aparecen en la oracin que se desea analizar. El
S : Smbolo distinguido o axioma inicial a partir
anlisis semntico es a la vez la fase medular de las ins-
del cual se reconocern las secuencias de L
trucciones. Aqu se procesan las estructuras sintcticas
aplicando sucesivamente las reglas de produc-
reconocidas por el analizador sintctico. Un analizador
cin.
semntico puede estar constituido por un conjunto de

49
Revista de Ingeniera de Sistemas e Informtica vol. 6, N. 2, Julio - Diciembre 2009

analizadores semnticos mas pequeos. Cada uno de del PLN se produce cuando una expresin en LN po-
los cuales, maneja un tipo particular de construccin. see ms de una interpretacin, es decir, cuando en el
Estos interactan entre ellos mismos a travs de infor- lenguaje de destino se le pueden asignar dos o ms
macin que se guarda en estructuras de datos. expresiones distintas. Este problema de la ambigedad
se presenta en todos los niveles del lenguaje, sin ex-
Consideremos otra gramtica G (VN, VT, S, P) donde
cepcin. Ejemplo:
VN = {A,S,P}
Hay alguien en la puerta, que te quiere hablar
VT {s, v, p, y}
Hay alguien, en la puerta que te quiere hablar
Una oracin tiene la forma S V P s: sujeto, v: verbo p:
No est claro, si el predicado te quiere hablar se adju-
predicado
dica a alguien o a la puerta, sabemos que la puertas
Definimos las producciones no hablan, por tanto deducimos que es a alguien. Pero
ASVP esto no lo puede deducir la mquina, a no ser que est
enterada de lo que hacen o no hacen las puertas. En
Ss/Sys
apariencia este problema es demasiado sencillo, pero
Vv/Vyv en realidad, es uno de los ms complicados y que ms
Pp/ PyP complicaciones ha dado para que el PLN pueda desa-
Donde rrollarse por completo, ya que al presentarse en todos
los niveles del lenguaje, se tienen que desarrollar pro-
s : corresponde a sujeto: Juan, el, ellos, aquellos, etc. gramas (lenguaje formal) para solucionarlos en cada
v : corresponde a un verbo: jugar, estudiar, saltar, etc. caso.
p : corresponde a un predicado: poco, mucho, despa-
El PLN en los Sistemas Multimedia y Expertos:
cio, etc.
Tutores Inteligentes(TI)
A SVP se remplaza por A SA1
La informtica ha evolucionado desde sus inicios, con-
A1 V P
siderando siempre aspectos del comportamiento del
S s/S y s se remplaza por S s usuario en relacin con el tratamiento de la informa-
S SA2 cin. Es por eso que ha incorporado textos, imgenes y
A2 YS sonido a las estaciones de trabajos actuales, al tiempo
que stos aumentan su capacidad.
V v/V y v se remplaza por V v
V VA3 Los sistemas multimedia incluyen:
A3 YV 1. Entornos visuales
Yy 2. Autopistas de informacin
P p/P y p se remplaza por P p 3. Ratn
P P A4 4. Programacin interactiva
A4 YP 5. Realidad Virtual
6. Hipertexto
Ejemplo: Mara Esther y Karla saltan y cantan conten-
tas y sonrientes. 7. Sonido
La multimedia combina el hipertexto con el sonido.
Problema del procesamiento de lenguaje natural Estas uniones de imgenes, texto y sonidos necesitan
La principal dificultad en los procesos de recuperacin una filosofa del conocimiento que fundamente su fun-
de informacin mediante lenguajes formales no es de cin interna dentro de la comunicacin de conocimien-
ndole tcnica sino psicolgica: entender cul es la ne- tos. Existe una comunicacin sistema-usuario que se
cesidad real del usuario, cual es la correcta formulacin da a travs de un lenguaje natural que se ve afectado
de su pregunta o necesidad. La direccin ms prome- grandemente por el conocimiento que un interlocutor
tedora de resolver este problema es el uso de lenguaje tiene del otro y por el contexto o entorno donde el di-
natural. Sin embargo, uno de los grandes problemas logo tiene lugar.

50
UNMSM - Universidad Nacional Mayor de San Marcos

IV. EL LEXICN EN EL MBITO DE LA PSICOLIN- relaciones IS-A y relaciones HAS-A, (es decir,
GSTICA: EL LEXICN MENTAL relaciones de hiperonimia y relaciones de meroni-
mia), aunque otros tipos de relaciones semnticas,
La complejidad de la memoria lxica ha fascinado a
tales como sinonimia o la antonimia se consideran
muchos psicolingistas, sobre todo la forma cmo ste
tambin necesarias para describir la estructura del
se organiza en la memoria de un hablante para su ac-
lexicn mental.
ceso y uso inmediato, a tal punto que han propuesto di-
ferentes mtodos para explorar y analizar los procesos Investigaciones realizadas acerca del aprendizaje y
cognitivos que se producen en su uso. El hecho de que crecimiento de vocabulario en nios de edades entre
un hablante pueda acceder en milsimas de segundo seis y ocho aos, han demostrado que a esa edad, la
a una cantidad ingente de vocabulario almacenado en perceptibilidad lxica est muy desarrollada y que los
su memoria, tanto en procesos de produccin como nios son especialmente perceptivos a las palabras
de comprensin, es una prueba fehaciente de que el nuevas, pudiendo deducir su significado del contexto
lexicn mental est organizado y estructurado de modo en el que las oyen, y llegando a aprender una media
que posibilita el acceso inmediato. En la dimensin de de 21 palabras nuevas cada da. En este proceso de
la psicolingstica, se define el lenguaje interioriza- aprendizaje, el nio debe primero asignar la palabra
do, como una actividad mental interna. La lingstica nueva a una categora semntica, y debe aprender a
atiende a reglas y estructuras de la gramtica de una distinguirla de las dems palabras asignadas a la mis-
lengua. La psicolingstica estudia procesos y repre- ma categora, de modo que parece imposible que los
sentaciones implicadas en la comprensin, adquisicin nios aprendan un nmero tan elevado de palabras, en
y produccin del lenguaje[11]. un periodo tan corto de tiempo, a no ser que las orga-
nicen en su mente estructurndolas de algn modo a
De entre los modelos explicativos del acceso y proce- travs de tipos, y la mayora de los experimentos sea-
samiento de la informacin lxica debemos destacar lan hacia la organizacin en campos lxicos.
los siguientes:
a. Modelos de activacin. Cada elemento lxico tie-
V. EL LEXICN EN EL PROCESAMIENTO DE
ne asociado un logogen que permanece activado
LENGUAJE NATURAL: LA LEXICOGRAFA COM-
durante todo el proceso de recuperacin de una
PUTACIONAL
determinada unidad lxica. Activa las palabras que
se corresponden con la informacin sensorial Actualmente, en el mbito computacional, los lexicones
b. Modelos autnomos. El acceso lxico se realiza se consideran la base fundamental en la construccin
solo por medio de informacin sensorial, sin que de sistemas computacionales que posibiliten la interac-
haya interaccin con otros componentes del siste- cin entre la mquina y el hombre. No se pueden cons-
ma cognitivo. truir sistemas de procesamiento de lenguaje natural
que sean lo suficientemente robustos como para ocu-
c. Modelos modulares. Sostiene la existencia de
parse de problemas del mundo real, sin antes disear
mdulos separados que contienen informacin fo-
lexicones de gran magnitud que contengan informacin
nolgica, ortogrfica, sintctica y semntica de las
lxica detallada[16,18] .
palabras. Experimentos realizados con pacientes
afsicos o con disfunciones en el habla favorecen Se distinguen dos grandes mbitos de investigacin en
la hiptesis de la modularidad en la estructura del lo referente a los lexicones computacionales: el de la
lexicn mental, ya que en casos de daos cerebra- adquisicin y el de representacin de conocimiento
les el acceso a la informacin fonolgica, ortogr- lxico.
fica, sintctica y semntica de las palabras puede
verse afectada de manera independiente. Adquisicin de conocimiento lxico
d. Los modelos de redes semnticas. Propuestos El gran problema al que se enfrentan en el diseo de
por Collins y Quillian, intentan describir y explicar sistemas de lenguaje natural a gran escala, es el gran
cmo la informacin se almacena de modo eco- nmero de unidades lxicas de las lenguas naturales,
nmico en el cerebro en forma de redes, en las as como a la constante incursin de palabras nuevas
que se incorporan dos tipos bsicos de relaciones: o nuevas acepciones de palabras existentes.

51
Revista de Ingeniera de Sistemas e Informtica vol. 6, N. 2, Julio - Diciembre 2009

La adquisicin de la informacin lxica necesaria para El lexicn se considera como un diccionario men-
lexicones computacionales plantea serios problemas, tal en el que se registran las palabras que conoce
tanto en lo que se refiere a la efectividad de los diferen- un hablante. Este diccionario especifica los rasgos
tes mtodos que se han empleado como a la inversin caractersticos de los componentes lxicos (palabras
de tiempo, dinero y recursos humanos y computaciona- y morfemas), como irregularidades morfolgicas, re-
les que estos mtodos requieren[12]. querimientos sobre alomorfos, informacin pragmtica,
etc. Un smbolo alomorfo se refiere a cada uno de las
Se puede considerar que existen tres mtodos o fuen- diferentes formas fonolgicas que puede tener un mor-
tes principales para la adquisicin de conocimiento fema abstracto. Estrictamente la realizacin fonolgica
lxico: concreta de un morfema se llama morfo, si existe ms
1. Adquisicin manual de informacin lxica de un morfo para el mismo morfema entonces usamos
2. Diccionarios en formato magntico (MRDs) el trmino alomorfo.
3. Los crpora textuales informatizados Algunos modelos gramaticales formales basan la
generacin de oraciones en el procesamiento de los
Los tres mtodos plantean ventajas y desventajas, tanto
rasgos de las unidades del lexicn. En estos modelos,
en lo que se refiere a los recursos que requieren como
el lexicn no es parte de la gramtica, sino que pro-
a la efectividad que han demostrado hasta ahora.
yecta sus rasgos a travs de mecanismos inherentes
Aunque en principio las fuentes electrnicas pueden a las gramticas. La finalidad fundamental del proce-
aportar una gran cantidad de informacin lingstica samiento de lenguaje natural es la automatizacin de
muy valiosa, que puede servir como punto de partida los procesos lingsticos, tales como la comprensin,
para la creacin de una base de datos lxica, en la produccin o adquisicin de una lengua, tareas que los
prctica es difcil aprovechar toda la informacin que usuarios de una lengua realizan fluida y naturalmente.
esas fuentes electrnicas contienen. Una de las difi- Esto hace converger intereses de varias disciplinas
cultades, y quizs la principal, es que los diccionarios como son lingistas computacionales, psicolingistas,
estn diseados por humanos (y no mquinas ) para informticos e ingenieros de sistemas. Todos ellos,
ser usados por humanos. Los usuarios (humanos) son desde diferentes perspectivas tericas y prcticas,
hablantes nativos de una lengua, que conocen el con- intentan desarrollar una teora que sea totalmente
texto de lo que se est hablando, y saben implcita- explcita (y por tanto automatizable) de los procesos
mente, cmo est estructurado el lexicn de su lengua. lingsticos.
Los MRDs, en muchas ocasiones, son elaborados por La mayora de los sistemas de procesamiento de
lexicografos, quienes explotan el conocimiento lings- lenguaje natural adoptan un enfoque denominados
tico de sus usuarios potenciales, de modo que las en- basado en el conocimiento (knowledge-based), ya
tradas de un diccionario contienen solo la informacin que para llevar a cabo la tarea para la que estn dise-
necesaria para que un hablante de una lengua sea ados, necesitan incorporar conocimiento lingstico
capaz de conectarla con su conocimiento lingstico explcito, junto con otros tipos de conocimiento de ca-
general[15]. rcter ms general. Por ejemplo, un sistema que con-
Karen Sparck-Jones demostr en un estudio realizado vierta un texto en su correspondiente cadena hablada,
que los diccionarios deben contener un componente necesita conocimiento sobre la pronunciacin de las
de circularidad, ya que cada palabra usada en las defi- letras, as como de las palabras individuales que no
siguen las reglas generales. Tambin precisa conoci-
niciones ha de ser, a su vez, definida en el diccionario.
miento sobre los patrones rtmicos de acentuacin y
Algunas de estas circularidades mantienen una distan-
de cmo la organizacin sintctica afecta la entona-
cia semntica reducida, como por ejemplo las defini-
cin y prosodia. Atendiendo estas consideraciones,
ciones mutuas de bueno y excelente, y son por tan-
con el objetivo de consensuar en la investigacin so-
to fciles de observar y asimilar por un lector humano,
bre el PLN, se ha dividido su estudio en subsistemas ,
pero son muy difciles de localizar a nivel formal lo cual
en relacin con los niveles presentados en la arquitec-
dificulta la labor de extraccin de informacin de las
tura de un sistema de PLN, identificando cinco tipos
definiciones.
de conocimiento:

52
UNMSM - Universidad Nacional Mayor de San Marcos

Conocimiento Conocimiento Conocimiento Conocimiento Conocimiento


fonolgico morfolgico sintctico: semntico: pragmtico

informacin sobre el informacin sobre informacin sobre las informacin sobre informacin central
sistema de sonidos la estructura de las reglas sintcticas y/o el significado que en muchas tareas
y la estructura palabras; por ejemplo, gramaticales. se da a las diversas especficas como
de las palabras y que los fonemas /s/ y construcciones por ejemplo, la
las expresiones, /z/ se aaden en ingls sintcticas y de cmo recuperacin de
los patrones de a los nombres para esos significados se los referentes de
acentuacin, la formar el plural. combinan para formar los pronombres,
entonacin, etc. el significado de las las intenciones
oraciones. comunicativas que
subyacen en una frase
en particular, el anlisis
de las presuposiciones
del hablante.

La nocin de sistema o estructura surge como reaccin interconexin entre las reglas generales que se incor-
al atomismo lingstico, en la que se entiende el lengua- poran a la gramtica y la informacin incluida en las
je de manera aislada, no en trminos de relaciones de entradas del lexicn, ya que el lexicn deber aportar
unos componentes con los otros. Por ejemplo, un siste- toda la informacin que no sea predecible de las reglas,
ma fonolgico no es la suma mecnica de los fonemas y deber rellenar estas reglas de modo que funcionen
aislados, sino un todo orgnico cuyos fonemas son los correctamente.
miembros y cuya estructura est sujeta a ciertas leyes.
El lexicn tambin tiene que incluir otros tipos de infor-
Lo importante no son los elementos constitutivos, ni su
macin no derivable de reglas, como por ejemplo, infor-
totalidad resultante, sino las relaciones que expresan
macin idiosincrtica, de pronunciacin, que en caso
en trminos de leyes.
del ingls por ejemplo se considera normalmente como
Cada uno de estos cinco tipos de conocimiento puede un aspecto lingstico que no se puede derivar del sig-
ser caracterizado por medio de un conjunto de reglas. nificado de las palabras o de su forma morfolgica.
Por ejemplo, es una regla de tipo sintctico en espaol
que las oraciones tengan la siguiente estructura: sujeto Agradecimientos
+ verbo+ predicado, ejemplo Juan estudia mucho. El El presente trabajo se desarrolla en el marco del pro-
lexicon debe explicitar este tipo de particularidades. yecto de investigacin, financiado parcialmente por el
El lexicn debe adaptarse a la gramtica diseada, Vicerrectorado de Investigacin de la Universidad Na-
pero ambos tendran que ser extendidos cada vez que cional Mayor de San Marcos.
se introdujeran reglas nuevas en la gramtica o se aa-
Trabajos futuros
dieran palabras al lexicn. Tradicionalmente en espa-
ol se han reconocido verbos predicativos (transitivos A partir del conocimiento generado en disciplinas como
e intransitivos) y tres verbos copulativos: ser,estar, la informatica y la lingstica computacional, se estn
y parecer y estos nunca pueden llevar complemento desarrollando sistemas para la confeccin de resme-
directo; en cambio, llevan un complemento llamado nes y la indizacin automtica. Este tipo de investiga-
atributo, que suele ser un sustantivo o adjetivo repre- ciones se lleva practicando desde hace tiempo, y se
sentando un estado o cualidad del sujeto. Si aadimos, comienza a recoger los frutos de aos de inspeccin,
por ejemplo, un verbo no copulativo, como solitaria, ne- por lo que se debe permanecer atentos a su evolucin.
cesitaramos hacer una distincin entre diferentes tipos El procesamiento del lenguaje natural es una labor
de verbos, tanto en la gramtica como en el lexicn, compleja, no exento de dificultad para los lingsticas
para evitar que se generen oraciones incorrectas. Esto que deben adquirir la instrumentacin de los informti-
demuestra la necesidad de que en cualquier sistema cos, y para los informticos, ya que deben hacer suyos
de procesamiento de lenguaje natural exista una gran conocimientos lingsticos.

53
Revista de Ingeniera de Sistemas e Informtica vol. 6, N. 2, Julio - Diciembre 2009

VI. CONCLUSIN [2] [BROOKSHEAR 1993] BROOKSHEAR J. Glean.


1. El lenguaje natural (LN) nos permite el designar las Teora de la computacin Addisson Wesley
cosas actuales y razonar acerca de ellas, fue de- iberoamericana Wilmington Delaware 1993.
sarrollado y organizado a partir de la experiencia [3] [CORTEZ 2002] Cortez Vsquez, Augusto. Len-
humana y puede ser utilizado para analizar situa- guajes y compiladores, UNMSM EAPIS 2002.
ciones altamente complejas y razonar muy sutil- [4] [HOPCROFT 1993] Hopcroft Jhon, Ullman Jeffrey.
mente. Introduccin a la teora de autmatas. Edit. CECSA
2. Los lenguajes de programacin (LP) son un tipo 1993.
muy limitado de lenguaje natural, orientados bsi- [5] [PRATT 1988] Terrence W. Pratt. Lenguajes de pro-
camente a la manipulacin de datos e informacin gramacin, Diseo e implementacin; Prentice Hall
discreta, pero no son suficientes para la comunica- Hispanoamericana 1988.
cin integral que incluya la totalidad de los aspectos [6] [SETHI 1992] SETHI, Ravi Lenguajes de programa-
semnticos y pragmticos. cin, Conceptos y Constructores; Addison-Wesley,
3. El procesamiento de lenguaje natural (PLN) con- 1992.
siste en la utilizacin de un lenguaje natural para [7] [TEUFEL 1990] Teufel-Smithd-Teufel. Compilado-
comunicarnos con la computadora, debiendo esta res, Conceptos fundamentales; Addison-Wesley,
entender las oraciones que le sean proporciona- 1990.
das. El uso de estos lenguajes naturales facilita el
desarrollo de programas que realicen tareas rela- [8] La construccin del WordNet 3.0 en espaol, ANA
cionadas con el lenguaje o bien, desarrollar mo- FERNNDEZ MONTRAVETA. Universitad Autno-
delos que ayuden a comprender los mecanismos ma de Barcelona GLORIA VZQUEZ.
humanos relacionados con el lenguaje. [9] Letch, Charley. Informacin Tsunami: Un futurista
Los lexicones son una parte importante del pro- mira en retrospectiva, Primera Edicin, Editorial.
cesamiento de lenguaje natural y debe contener Limusa, Coleccin Megabyte, Mxico D.F., 1992
informacin fonolgica, morfolgica, sintctica, se- [10] http://delta.cs.cinvestav.mx/red/logica/node3.html
mntica y pragmtica, pero adems esta informa- [11] http://cic2.iimas.unam.mx/~villasen/protocolo-proy-
cin debe ser estructurada de forma que permita su CONACYT.html
reutilizacin para diversas tareas. [12] http://www3.uniovi.es/~Psi/REMA/v1n1/a4/p1.html
4. El lexicn tambin tiene que incluir otros tipos de [13] h ttp://www.dcc.uchile.cl/~cc20a/contenidos/cla-
informacin que considere aspectos de orden idio- se05
sincrtica, de pronunciacin, y toda informacin que
[14] http://www.lawebdelprogramador.com/
no se puede derivar del significado de las palabras
o de su forma morfolgica. [15] http://es.thefreedictionary.com/lexicones [2010]
[16] http://elies.rediris.es/elies19/cap3443.html
VII. BIBLIOGRAFA [17] http://elies.rediris.es/elies9/2.htm
[1] [AHO 1990] Aho A.,Sethi,Ullman Compiladores,
principios, tcnicas y herramientas; Addison-Wes-
ley 1990, Wilmington-Delaware EUA.

54

You might also like