|
)
|
|
panaoncuas ma
dt Depress ase
{iw ae sn za 05
Procesamiento probabilistico del
Jenguaje
Probabilistic processing language
Augusto Cortez Vasquez!
Resumen
El presente articulo desribe el procesamiewto del lenguaje dese el enfogue probabiistice. Utilize las
_grantca bres de contexton la que se asocia wna probated cada una de las regs de derivacin de
la grnattce que ser utlzadas durante l fase de andlisissintéctico de wn enguaye, El procestmiento
probabilistic del lenge ha sido posible dado a os grandes wliomenes de informacion que se dspone en
los denominados corps Un modelo probabilistic dellenguaje define una dstribuctn dela probabil
solve un conjunto de cadena. Alguns eemplas de models el bigram y el trigram, son mos del
Tenge wsudosenelreconociniento del habla, Un modelo nigramasignasina probabiited P(Wha cada
palabra del Uéico. EI modelo asume que las pelabras esti elegiasindepentientement, asi que la
robbiidad de unaseeuenciesel producto de laprobabildad de sus palabra.
Palabras claves
Lenguaje, procesamiento de lengua, proesemiente probabilstce del lengua, lenguajes libre de
context, anilisissnldctico probabilistico.
Abstract
This article describes the procesing of language from the probblistic approach, Using the context fee
_grannmars inthe tha is associated mt probability teach ofthe deroation rales of grammar tha willbe
sed during the enalysis phase ofa syntactic loguage. The probiistc processing of language hasbeen
possible because ofthe large volun of data that is available the so-called corpus. Aprobtiistic adel
ofthe language defines probebty distribution on ase of strings. Some exonples of model: te bigram
‘and trigra, ane models ofthe language used in speech recognition. A design at Unigram model assigns
probubiity of P (W) to each word in the lexicon. The made assumes that the mords are chasen
{independently othe probability oft sequenceis the prosuct ofthe proubility oftheir words.
Key words
Language, language processing, probabilistic processing language, context free languages, probabilistic
parsing.
41 Ucerlas an Carpune, Magn Camplin Doce RPAves Comes VASOUEE
L.Introduccion
‘Unagente puede cominicarse con otro agente (serhumanoo software) através deun lenguaje comin.
llengune esta compuesto de expresiones, que requieren ser analizadas para extraersu significado, y
testo es posible dado que dichas expresiones contienen palabras eovtas yrestringidas en un dominio
limitado El proceso de andlsisconsta de anliss lexicogeficoandlisissinticticoyandlisisseméntco,
‘Durante todala historia de humanidad el conocimientoen su mayor partese comunica, seguarda y se
‘manejaenla formacde lenguaje natural -griego lati, inglés, espariol et. Lagpoca actual nees ninguna
‘excep: el conocimiento sigue existiende y creandose en la forma de documentos libros asticulos,
‘ungue éstos ee guandan en forma elecrénica, o sen digital BI gran avance es que en esta forma, las
‘computadoros ya pueden ser una ayuda enorme en el procesamiento de este eonocimiento. Sin
‘embergo, lo que es conoeimiento para nosotros los seres humanos- nolo es para las computadoras
Son los archivos, unas secuencias de caractores, y nada mis. Una computaclara pede copia tal
archivo, respaldaeo,transmitirle, borralo ~como wn burSerata que pasa los papeles a otro burerata
sin leerlos, Pero no puede buscar las respuesta a las preguntas en este texto, hacer las inferencias
Tegicas sobre s1 contenida, generalizar y resumirlo -es decir, hacer todo lo que las personas
rormaimente hacemos conel texto. Dado quenolaspuedventendet,17).
‘Para combuaticestasituacidn, se dedica mucho esfuerzo, sobre todo en los paises mis desarrollados el
nro, al desartollo de la cencia que se encarga de habilitar alas computadoras a entender el texto.
Esta cenio, dependiend del enfoque ques le de recibe varios nombres: procesamiento de lenguaje
‘ratural,procesamiento de toto, teenologias de lenguaje, lingistica computacional. En todo caso, se
trata de proces el texto por su sentido yno como un archive binaro, La ténica que presenlaremos.en
‘estearticuloes deunenfoque probabilistice
2.Mareo conceptual
Lenguaje
‘Un lenguaje es un conjunto de frases definidas por un conjunto de regla... Estas reglas se pueden
expresar de muchas formas, Cuando esto ocutre se dice que el lengusje esta descrite por
comprensién. Otra forma de deseribir el Ienguale es describiendo uno a uno [as frases que la
‘componen, en este caso estamos frente a una definicén del lenguaje por extensin. En el eontexto
dle definicién por comprensién, existen varias formas de describir un lenguaje: descripcién
algebraica, porexpresin cegula, en forma recursivaete[14}
Descripeién gramatical
‘Sea G una geamétics,definimos el lenguaje defindo por una gramética y la denotames L(G) dela
siguiente forma:
L(G)=tw/S ——m> *w, yademéew VE},
Lcontiene seqnencias de trminales que son generadasa partirdel xiomadeG.
L=[a" b,m30}descripeidnalgebraicaPROCESAMENTO PROBABLISICO OSL LINGUAE
Podemoshallar Gta que .*L(G)
GOK. 5,P) donde
s
SS
we={5) S$ —= —=ab
Ve=la.b) $ = a —= a8 —~ aad
PAS ——e aS/b) S$ ——= a5 —+ aa ——e aaa —» aaab
uegobab,aab,2aab € L(G)
Sintaxis de unlenguaje
Enesta seccién se define l sinfaxis como el conjunto de rglas de formacion dela oraciones de un
lenguaje. Una oracién es valida si es reconocida, es deci, cumple con ls reglas de sintaxis. En un
lenguaje natural, comoel espaol lasintaxisde una oracisn es determinadla porlasecuencia
ssjeto + verbo t predicado
‘Asi las sentencias «Juan estudia muchos, «Maria Esther estudia poco» son reconocidas Ia
_disposicin de palabras en una oacién para mostrar su telacién. Describe la secuencia de simbolos
“que conatituyen programas vétidos,
Enunlenguaje formal (de progsamacisn):
Infrase ab crepresenta unasecuencia vilidadle simbolos,
pen c=batnoloes
Esto se justfiea dado que en una sentencia de asignacién el lado inquierdo del eperador de
asignacién debe ser un identificador y en el lada derecho debe haber una expresion aritméticn
valid,
|La sintaxis suministra informaciin signifcativa que se necesita para entender un programa ¥
proporciona informacién imprescindible para la traduceién del programa fuente a un programa
‘objeto [10)
Lasintaxismuestraal programadorla forma como debe escribir Buenos programas.
Lasintaxises més itil al usuario dl enguaje de programacién que al constructor del compilador. EL
‘constructor tiene que deseribielasintaxisformalmente mediante un modelo matemsticolingistico
lamado gramética de Lenguaje. Podemos afirmar que Ia gramitica es la sintaxis descita,
formalmente, Cuando una persona quiere aprender un lengua, necesita conocer la sintaxis del
lenguaje, y la puede encontrar en cualquier manual del longuaje. Sin embargo, la gramética no le