You are on page 1of 10

Anotacin semiautomtica con papeles temticos de los corpus

CESS-ECE

M. Antnia Mart Antonn Mariona Taul Delor


Centre de Llenguatge i Computaci Centre de Llenguatge i Computaci
Universitat de Barcelona Universitat de Barcelona
amarti@ub.edu mtaule@ub.edu

Llus Mrquez Manuel Bertran


Centre de Recerca TALP Centre de Recerca TALP
Universitat Politcnica de Catalunya Universitat Politcnica de Catalunya
lluism@lsi.upc.edu mbertran@lsi.upc.edu

Resumen: En este artculo se presenta la metodologa seguida en el proceso de anotacin


semntica automtica (estructura argumental y papeles temticos de los predicados verbales) del
corpus CESS-ECE-CAT/ESP, as como la evaluacin de los resultados obtenidos. A partir de un
lxico verbal (1.482 verbos) con informacin sobre las funciones sintcticas de cada verbo y su
proyeccin temtico-argumental, se ha anotado automticamente el treebank CESS-ECE
aplicando un conjunto de reglas simples sobre los rboles sintcticos. Se ha conseguido anotar
automticamente el 60% de los argumentos y papeles temticos, con un error muy bajo (inferior
al 2%). Este ndice de calidad elevado permite usar la presente metodologa para semi-
automatizar el proceso de anotacin semntica del corpus, con el consiguiente ahorro en tiempo
de anotacin manual. Una vez completada la anotacin este corpus podr ser utilizado como
fuente de informacin para los sistemas de anotacin automtica de papeles temticos.

Abstract: In this paper we present the methodology followed in the automatic semantic
annotation (argument structure and thematic roles of the verbal predicates) of the CESS-ECE-
CAT/ESP corpus. Building from a verbal lexicon (1,482 entries) with information about the
syntactic functions and their projection to arguments and thematic roles, we present a set of
simple rules to automatically enrich syntactic trees with semantic information. This procedure
permits to automatically annotate 60% of the expected arguments and thematic roles with a
fairly low error rate (below 2%). Given the high quality of the obtained results, we claim that
this methodology provides substantial savings in manual annotation effort and allows a semi-
automatic approach to corpus annotation. Once completed, the CESS-ECE corpus will permit
researchers to develop complete systems for automatic Semantic Role Labeling of Catalan and
Spanish.

ayuda. Entendiendo que el proceso automtico


1 Introduccin no puede sustituir en ningn caso el trabajo
manual, s puede representar una herramienta
La anotacin lingstica de corpus textuales de
de ayuda que permita ahorrar una gran cantidad
gran volumen es una tarea que requiere un gran
de tiempo y dinero. Para que este ahorro sea
esfuerzo en tiempo y recursos humanos.
efectivo, es imprescindible que la anotacin
Cuando se pretende realizar el proceso de forma
automtica sea de una calidad suficiente como
rigurosa y la anotacin lingstica implica el
para que el esfuerzo de revisin manual de la
tratamiento de informacin compleja (sintaxis
anotacin automtica sea netamente inferior al
completa con funciones sintcticas, informacin
proceso de anotacin desde cero.
semntica, etc.) el esfuerzo a realizar es, si
En este artculo se presenta la metodologa
cabe, an mayor. Por este motivo, cualquier
seguida en el proceso de anotacin semntica
proceso que implique la automatizacin parcial
automtica (estructura argumental y papeles
de los procesos de anotacin va ser de una gran
temticos) de los predicados verbales del corpus

ISSN: 1135-5948 Sociedad Espaola para el Procesamiento del Lenguaje Natural


M.Antnia Mart Antonn, Mariona Taul Delor, Lluis Mrquez, Manuel Bertran

CESS-ECE-CAT/ESP 1 , en adelante simple- corpus-prueba; 4) el grado de error es


mente CESS-ECE, as como la evaluacin de realmente bajo (alrededor del 2%) en todos los
los resultados obtenidos. corpus. Cabe destacar que para que este
Para la anotacin semntica automtica se procedimiento sea factible, es necesario
ha partido de dos fuentes de conocimiento: a) disponer de una anotacin sintctica previa de
un lxico verbal para cada lengua elaborado calidad, incluyendo el etiquetado de funciones
manualmente a partir de ambos sub-corpus, sintcticas.
CESS-LEX-CAT y CESS-LEX-ESP (en Una vez finalizado el proceso automtico, se
adelante CESS-LEX), que contiene informacin ha procedido a la complecin y a la revisin
sintctico-semntica; y b) un conjunto de reglas manual de la anotacin semntica. Los corpus
desarrolladas especficamente para la anotacin resultantes de dicho proceso son los que se han
automtica, en las que se generalizan las utilizado en la tarea 9 de evaluacin de
correspondencias entre sintaxis y semntica SemEval-2007 para el cataln y el castellano 2 .
especificadas en ambos lxicos. El resto del artculo se estructura de la
Los lxicos verbales se han obtenido a partir siguiente forma. En la seccin 2 se describen
de una muestra de 100.000 palabras para cada las caractersticas bsicas del corpus CESS-
lengua de CESS-ECE (a los que llamamos ECE. A continuacin, en las secciones 3 y 4, se
corpus-origen) anotadas sintcticamente a nivel presentan las diferentes fuentes de informacin
profundo. Estos lxicos se han utilizado para implicadas en el proceso de anotacin
obtener las reglas de proyeccin sintctico- semntica automtica. En la seccin 5 se
semntica, que se han usado para la anotacin analizan los resultados obtenidos de una forma
automtica tanto del corpus-origen como de cuantitativa y cualitativa. Finalmente, en la
otro subconjunto (85.000 palabras para el seccin 6 se presentan las conclusiones
castellano y 100.000 para el cataln) a los que principales de este trabajo.
llamamos corpus-prueba. El corpus-prueba nos
permitir evaluar el grado de generalizacin del 2 El corpus CESS-ECE
conjunto de reglas. En concreto, en este trabajo
El objetivo principal del proyecto CESS-ECE
se analiza:
es la construccin de un banco de rboles
x el grado de cobertura de la anotacin
sintcticos (TreeBank) multilinge (cataln,
automtica con CESS-LEX tanto en los
castellano y euskera) con anotacin semntica 3 .
corpus-origen como en los corpus-prueba
En este artculo restringiremos nuestro
x la calidad de la anotacin automtica en
estudio a los corpus del cataln y el castellano 4 ,
los corpus-origen y en los corpus-prueba a
de 500.000 palabras cada uno, procedentes de
partir de la revisin manual efectuada
diversas fuentes, bsicamente periodsticas
x la validez del conjunto de reglas de
(Vase Tabla 1). Dichos corpus se han anotado
proyeccin sintctico-semntica
a diferentes niveles de descripcin lingstica
que incluyen informacin morfolgica,
La evaluacin de los resultados permite
sintctica y semntica. El proceso de anotacin
afirmar que en el caso de la anotacin de la
se ha llevado a cabo de manera automtica,
estructura argumental con papeles temticos, el
manual o semiautomtica dependiendo de la
procesamiento automtico planteado es factible
informacin lingstica tratada (Vase Tabla 1).
y satisfactorio, puesto que: 1) se consigue
El proceso de anotacin se ha llevado a cabo
anotar el 58,4% de las ocurrencias del corpus
de manera incremental, desde los niveles ms
origen para el espaol y el 57,5% para el
bsicos de anlisis, es decir empezando por el
cataln; 2) este porcentaje mejora en ambos
etiquetado morfosintctico y el anlisis sintc-
casos (63,4% en el espaol y 62,7% en el
tico superficial (chunking) realizados automti-
cataln) en los corpus-prueba (vase la seccin
camente, hasta llegar a los niveles ms
5.1); 3) el grado de error en la anotacin
complejos, el anlisis sintctico profundo
automtica se mantiene estable para ambas
lenguas tanto en el corpus-origen como en el
2
Multilevel Semantic Annotation of Catalan and
1
Este corpus ha sido elaborado gracias a los proyectos Spanish, http://www.lsi.upc.edu/~nlp/semeval/msacs.html.
3
CESS-ECE (HUM-2004-21127-E) y Lang2World (TIN Interfaz grfica para consultar los corpus CESS-ECE
2006-15265-C06-06). Contiene dos partes de volumen y http://www.lsi.upc.edu/~mbertran/cess-ece.
4
contenido equivalentes, una en castellano (ESP) y la otra El corpus del euskera se anota siguiendo otra meto-
en cataln (CAT). dologa y abarca 350.000 palabras.

68
Anotacin semiautomtica con papeles temticos de los corpus CESS-ECE

(proceso manual) y el anlisis semntico ha realizado sobre una muestra de 185.000


(proceso semiautomtico). Este procedimiento palabras para el castellano (6.013 oraciones) y
de anotacin secuencial implica, en cada paso, de 200.000 para el cataln (6.422 oraciones), y
la revisin manual del proceso anterior el proceso de anotacin se ha llevado a cabo de
garantizando as la calidad y la consistencia manera semiautomtica (Taul et al. 2005).
interna de los datos. Estos corpus se han dividido en dos subcorpus:
el corpus-origen (100.000 palabras) y el
Corpus Fuentes Anotacin Proceso corpus-prueba (85.000 palabras para el
morfosintctica Automtico
CESS- EFE
castellano y 100.000 para el cataln). Los
sintctica Automtico
ECE- (75.000) superficial corpus-origen se han utilizado para la obtencin
CAT ACN sintctica Manual de los lxicos verbales CESS-LEX-CAT y
(225.000) profunda
El CESS-LEX-ESP, en los cuales se ha explicitado
5 Papeles temticos Semiautomtico la relacin entre funciones sintcticas y
Peridico
(200.000) Sentidos nombres Manual estructura argumental y temtica de cada
(WordNet) predicado. Los corpus-prueba se han utilizado
morfosintctica Automtico
CESS- Lexesp
6
sintctica Automtico
para comprobar el grado de cobertura y de
ECE- (85.000) superficial calidad de la anotacin semntica automtica. A
ESP EFE sintctica Manual continuacin se presentan en ms detalle las
(225.000) profunda
El
diferentes fuentes de informacin utilizadas en
Papeles temticos Semiautomtico
Peridico dicho proceso.
Sentidos nombres Manual
(200.000)
(WordNet)
3.1 Informacin sintctica
Tabla 1: Niveles de anotacin de los sub- Se parte de la base que la estructura argumental
corpus CESS-ECE-CAT y CESS-ECE-ESP es el nivel de representacin semntica ms
prxima a la representacin sintctica de la
Hasta el momento se encuentran ya oracin, en tanto que refleja la manera en que
disponibles las 500.000 palabras del corpus los argumentos semnticos se corresponden o
CESS-ECE anotado a nivel sintctico relacionan con sus expresiones morfosintc-
superficial y profundo (constituyentes y ticas. La estructura argumental expresa la
funciones) para cada lengua y la anotacin de aridad del verbo y permite establecer la relacin
un subconjunto de 185.000 palabras para el semntica entre el predicado y sus argumentos,
castellano y 200.000 para el cataln con es decir, los papeles temticos. Es por ello que
informacin semntica (estructura argumental, el anlisis semntico parte de la informacin
papeles temticos, clases semnticas y sentidos sintctica expresada en los corpus.
de WordNet para los nombres ms frecuentes). A partir de la informacin sintctica
Estos dos ltimos subconjuntos son los que se codificada en el corpus-origen se deriva de
analizan en este artculo. Cabe destacar que la forma automtica una versin inicial de los
anotacin de la estructura argumental y los lxicos verbales CESS-LEX, donde para cada
papeles temticos se est realizando siguiendo sentido de cada verbo se explicitan todos los
un modelo inspirado en el del corpus PropBank esquemas sintcticos en los que aparece en el
para el ingls (Palmer et al., 2005). Por ltimo, corpus con sus correspondientes funciones.
la anotacin incremental de informacin En nuestra aproximacin el sujeto, el verbo,
sintctico-semntica sobre un mismo corpus los complementos del verbo y los adjuntos
toma su modelo del proyecto OntoNotes (Hovy dependen directamente del nodo oracin (S).
et al., 2006). En la figura 1 se muestra un ejemplo de
anlisis sintctico profundo del corpus CESS-
3 Fuentes de informacin ECE-ESP, representando el rbol sintctico
Como hemos dicho, la anotacin semntica con como una expresin parentizada. Las funciones
estructura argumental y papeles temticos 7 se sintcticas utilizadas en ambas lenguas son:
sujeto (SUJ), objeto directo (CD) e indirecto
5 (CI), complemento del rgimen (CREG),
El subconjunto de 200.000 palabras procedentes del
El Peridico son las mismas noticias en cataln y complemento agente (CAG), predicativo
espaol desde enero a diciembre de 2000.
6 7
Lexesp es un corpus equilibrado del espaol de seis En este artculo no se hace referencia al proceso de
millones de palabras (Sebastin et al. 2000). anotacin con synsets de WordNet.

69
M.Antnia Mart Antonn, Mariona Taul Delor, Lluis Mrquez, Manuel Bertran

(CPRED), atributo (ATR) y circunstanciales los que ocurre dicho verbo en el corpus
(CC, CCT, CCL) 8 . Estas funciones estn (construccin activa y pasiva) con la correspon-
resaltadas en negrita en el rbol de la Figura 1. diente relacin entre funciones sintcticas,
posiciones argumentales y papeles temticos.
(S
Como se puede observar, la posicin
(sn-SUJ argumental y el papel temtico se mantienen
(espec.fp mientras que su funcin sintctica puede variar.
(da0fp0 Las el)) En la construccin activa el argumento Paciente
(grup.nom.fp (PAT) tiene la funcin sintctica de objeto
(ncfp000 reservas reserva)
(sp directo (CD) mientras que en la pasiva es el
(prep sujeto (SUJ). Finalmente, se incluye las frases
(sps00 en en)) de ejemplo.
(sn
(grup.nom.ms
(ncms000 oro oro)))))) valorar01 synset: 00445269v
(morfema.verbal-PASS ELS4.2
(p0000000 se se)) SUJ Arg0##AGT
(grup.verb CD Arg1##PAT
(vmip3p0 valoran valorar)) CC ArgM##ADV
(sp-CC EJ: "CCOO valor la reduccin del paro"
(prep
(sps00 en_base_a +PASIVA
en_base_a)) SUJ Arg1##PAT
(sn CAG Arg0#por#AGT
(espec.mp CC ArgM##ADV
(Z 300 300)) EJ: "Las reservas en oro se valoran
(grup.nom.mp en_base_a 300_dlares estadounidenses"
(Zm dlares dlar)))

Figura 1: Anlisis sintctico. Fragmento de Figura 2: CESS-LEX-ESP: valorar


frase ejemplo: Las reservas en oro se valoran
en 300 dlares Los lxicos verbales CESS-LEX propor-
cionan informacin de las distintas alternancias
3.2 Los lxicos verbales CESS-LEX diatticas que acepta un verbo (activa, pasiva,
anticausativa e impersonal). Slo la alternancia
A partir de la informacin sintctica se crean activa-pasiva tiene marcas morfosintcticas que
manualmente los lxicos CESS-LEX, donde permiten la anotacin automtica de argumen-
para cada sentido verbal se especifica: a) la tos y papeles temticos de manera directa.
clase semntica (Taul et al., 2006); b) la Sobre esta informacin se han elaborado
proyeccin sintctico-semntica, es decir la algunas de las reglas de proyeccin.
correspondencia entre funciones sintcticas, Los lxicos CESS-LEX contienen todos los
argumentos semnticos y papeles temticos; c) verbos que aparecen en el corpus-origen, un
las alternancias de ditesis en las que puede total de 1.482 para el castellano y 1.052 para el
ocurrir y d) unas frases de ejemplo extradas del cataln.
propio corpus. En la figura 2 se presenta la
entrada del verbo valorar en CESS-LEX. 4 Reglas de proyeccin
En la entrada lxica de la figura 2, se indica
el lema (valorar), el nmero de sentido (01) 9 , la Para el proceso automtico de anotacin
clase semntica (ELS4.2), correspondiente a la semntica se ha elaborado un conjunto de reglas
clase de verbos transitivos agentivos, que a su simples que, individualmente, describen de
vez se corresponde con el tipo ontolgico de las forma inambigua las proyecciones seguras de
actividades, y los dos esquemas sintcticos en funciones sintcticas a argumentos y papeles
temticos. Teniendo en cuenta la dificultad de
la tarea, se ha tratado de conseguir el mximo
8 Para ms informacin y otros ejemplos se puede
consultar la pgina web del proyecto CESS-ECE: grado de cobertura minimizando el error al
http://www.lsi.upc.edu/~mbertran/cessece. mximo. Distinguimos dos tipos de reglas,
9
El nmero de sentido se asociar a uno o ms synsets generales (4.1) y especficas (4.2 y 4.3).
de una versin de WordNet 1.6.

70
Anotacin semiautomtica con papeles temticos de los corpus CESS-ECE

En la frase analizada en la figura 4, se ha


4.1 Reglas generales (S
(sn-SUJ-Arg1-PAT
Incluimos bajo esta denominacin un conjunto
(espec.ms
de reglas asociadas a una determinada funcin o (da0ms0 El el))
propiedad morfosintctica. En el caso de las (grup.nom.ms
funciones, se asignan automticamente las (ncms000 acuerdo acuerdo)))
posiciones argumentales correspondientes al (grup.verb-D2
(vsif3s0 ser ser)
complemento agente (CAG-Arg0-AGT), (vmp00sm firmado firmar))
atributo (ATR-Arg2-ATR) y complemento (sp-CAG-Arg0-AGT
predicativo (CPRED-Arg2-ATR) 10 . En cuanto a (prep
las posiciones adjuntas se etiquetan automtica- (sps00 por por))
(sn.co
mente los complementos circunstanciales 11
(snp
temporales (CCT-ArgM-TMP) y locativos (espec.fs
(CCL-ArgM-LOC). (da0fs0 la el))
La pasiva y la pasiva refleja son un ejemplo (grup.nom.fs
de reglas asociadas a una propiedad (ncfs000 presidenta
presidenta)))
morfosintctica. En este caso la regla tiene en
etiquetado directamente el sujeto como un
cuenta el tipo de verbo (es decir, si se trata del
predicado ser/sser seguido de participio), o
Figura 3: Reglas tipo I. Ejemplo de anotacin
el rasgo morfosintctico que lleva asociado
automtica directa. Fragmento de frase ejemplo
(morfema.verbal-PASS). En ambos casos, se
El acuerdo ser firmado por la presidenta
etiqueta de manera automtica el sujeto como
argumento Paciente (SUJ-Arg1-PAT) y el (S
(grup.verb-C3
complemento agente como argumento Agente (vsip3p0 Son ser))
(CAG-Arg0-AGT), como se puede observar en (sa-ATR-Arg2-ATR
la frase analizada de la figura 3. La asignacin (espec
de dichos argumentos y papeles temticos es (rg tan tanto))
(grup.a
independiente del verbo. En el caso del (aq0mp0 raros raro)))
ejemplo, la asignacin de la clase semntica D2 (sn-SUJ-Arg1-TEM
(verbos transitivos agentivos) al predicado (Fc , ,)
firmar se ha realizado tambin de manera (espec.mp
automtica pero a partir de la informacin (da0mp0 los el))
(grup.nom.mp
especificada en el lxico verbal, CESS-LEX- (ncmp000 hombres
ESP en este caso, es decir mediante la hombre)))
aplicacin de las reglas del segundo tipo.
Figura 4: Reglas tipo II. Ejemplo de anotacin
4.2 Reglas especficas dependientes de automtica directa. Frase ejemplo Son tan
los lxicos CESS-LEX raros, los hombres
Incluimos en esta seccin las reglas especficas
basadas en la informacin descrita en los Arg1-TEM (Tema), el atributo como un Arg2-
lxicos verbales CESS-LEX, es decir reglas ATR (Atributo) y la clase semntica C3, que
dependientes de cada predicado. corresponde a verbos estativos transitivos.
En el caso de verbos monosmicos la En el caso de verbos polismicos la
correspondencia entre funcin sintctica y clase equivalencia entre informacin sintctica y
semntica, argumentos y papeles temticos se semntica puede ser parcial, en el sentido de
realiza de manera directa. En la figura 4 se que slo se etiqueta automticamente aquella
ejemplifica con el verbo ser tratado informacin que es inequvoca, es decir que no
monosmicamente en el corpus del castellano. implica ambigedad. El resultado, por lo tanto,
puede ser parcial, bien porque slo se etiqueta
la posicin argumental o el papel temtico; bien
10
porque slo se etiqueta la combinatoria entre
CPRED-Arg3-ORI en caso de estar intro- clase semntica y posicin argumental o clase
ducido por la preposicin: sps00 procedente_de.
11 semntica y papel temtico. En el primer caso
Son los nicos circunstanciales anotados
manualmente. se trata de predicados que, para sentidos o

71
M.Antnia Mart Antonn, Mariona Taul Delor, Lluis Mrquez, Manuel Bertran

acepciones distintas, comparten la misma


funcin y posicin argumental pero los papeles a_base_de SPS00 ArgM##ADV
temticos asociados son diferentes y, por lo a_cambio_de SPS00 ArgM##ADV
a_causa_de SPS00 ArgM##CAU
tanto, la eleccin de uno u otro no es inmediata. a_comienzos_de SPS00 ArgM##TMP
La segunda posibilidad es el caso contrario, en all_delante RG ArgM##LOC
las distintas acepciones del predicado se all_encima RG ArgM##LOC
produce una coincidencia en la asignacin de as RG ArgM##MNR
papeles temticos pero no en la posicin atrs RG ArgM##LOC
argumental de los mismos. En la figura 5 se aun RG ArgM##ADV
muestra un ejemplo de anotacin automtica ...
parcial.
tipo concreto de adverbio o locucin. Por
(S ejemplo, si en un constituyente, con la categora
(sadv-CC-ArgM-TMP
(grup.adv
Figura 6: Lista de adverbios y locuciones
(rg Entonces entonces)))
(sn.e-SUJ *0*)
(grup.verb morfosintctica RG o SPS y con funcin
(vmii3s0 mova mover))
(sn-CD-Arg1-PAT CC, aparece el adverbio as o la locucin
(espec.fs a_causa_de se asignar de forma automtica
(da0fs0 la el)) el argumento y papel temtico ArgM-MNR
(grup.nom.fs (manera) y ArgM-CAU (causa), respectiva-
(ncfs000 cabeza cabeza)))
(sadv-CC
mente.
(grup.adv Un subtipo de estas reglas es aquel que trata
(rg lentamente expresiones temporales representadas en la
categora morfosintctica como W. As, se
Figura 5: Reglas tipo II. Ejemplo de anotacin anota como ArgM-TMP todo CC que contine
automtica parcial. Frase ejemplo Entonces
(snd-CC-ArgM-TMP
mova la cabeza lentamente. (espec.ms
(da0ms0 el el))
(grup.nom.ms
El sujeto de mover no se ha podido asignar (W 26_de_mayo [??:26/5/??:??.??])))
de forma automtica porque puede interpretarse (sn.e-SUJ-Arg1-TEM *0*)
distintamente en funcin de la acepcin que se (grup.verb-C3
considere, en este caso un Arg0-CAU, un (vmii3p0 equivalan equivaler))
(sp-CREG-Arg2-ATR
Arg0-AGT o un Arg1-TEM (Vase anexo 1 (prep
para consultar la entrada de mover). Por la (sps00 a a))
misma razn tampoco ha sido posible la (snn
asignacin de la clase semntica de manera (espec.mp
automtica ya que la regla no puede decidir si (Z 19.100 19100))
(grup.nom.mp
pertenece a la clase semntica A1, C1 o C2. (ncmp000 millones milln)
(sp
4.3 Reglas especficas basadas en el (prep
(sps00 de de))
tipo de adverbio y preposicin (grup.nom.mp
En este tercer conjunto consideramos las reglas (Zm dlares dlar)))))))
basadas en el tipo de adverbio o locucin un elemento del tipo W (vase figura 7):
adverbial o prepositiva que aparecen en un
determinado constituyente. Por ejemplo, en la Figura 7: Reglas de tipo III. Expresiones
figura 6 se da una muestra del tipo de temporales. Frase ejemplo: El 26 de mayo
informacin considerada. equivalan a 19.100 millones de dlares.
Como se puede ver, las reglas tienen en
cuenta el tipo de categora morfosintctica,
RG (adverbio) o SPS (locucin prepositiva), 4.4 Aplicacin de las reglas
la funcin de complemento circunstancial y el Todas las reglas de proyeccin se han podido
implementar de manera sencilla y eficiente,

72
Anotacin semiautomtica con papeles temticos de los corpus CESS-ECE

requiriendo un esfuerzo en tiempo de anota automticamente el corpus-prueba. El


programacin moderado. De todas maneras, lxico del castellano contiene un total de 1.482
para disponer de un procesador automtico que verbos de los cuales slo 717 aparecen en el
las aplique es necesario decidir qu hacer en los corpus-prueba, lo que constituye el 64.1% de
casos en que ms de una regla sea aplicable. los 1.119 verbos del corpus de prueba. El lxico
Heursticamente, se ha decidido aplicar las del cataln contiene un total de 1.052 verbos de
reglas en orden descendiente de generalidad, es los cuales slo 664 aparecen en el corpus-
decir primero se aplican las reglas generales de prueba, lo que representa el 58,5% de los 1.134
tipo I, en segundo lugar las de tipo III y, verbos del corpus-prueba.
finalmente las de tipo II. A pesar de que los lxicos tienen menor
cobertura en los corpus-prueba, el tanto por
ciento de anotacin recibida mantiene el mismo
5 Metodologa y anlisis de los nivel de cobertura que en los corpus-origen, lo
resultados que indica que las reglas de proyeccin
independientes del lxico (tipos I y III)
El proceso de aplicacin automtica de las expresan generalizaciones que se dan tambin
reglas de proyeccin se ha llevado a cabo en para los verbos nuevos de los corpus-prueba.
ambos corpus. Recordemos que el proceso En realidad, el porcentaje de cobertura es
automtico se realiza separadamente sobre los incluso un poco mejor en los corpus de prueba
corpus-origen y los corpus-prueba a partir de como veremos ms adelante. Comentamos a
las fuentes de conocimiento desarrolladas, continuacin los resultados de la anotacin de
reglas y lxicos, con el fin de evaluar la validez manera analtica.
de dichas fuentes independientemente del El nmero total de funciones sintcticas que
corpus a partir del cual se ha extrado la aparecen en los corpus es de 48.405 para el
informacin. En el proceso automtico se castellano y 48.600 para el cataln. De stas, en
obtienen anotaciones totales con informacin el corpus del castellano, 25.645 pertenecen al
sobre el argumento y el papel temtico o bien corpus-origen y 22.760 al corpus-prueba; en el
anotaciones parciales, es decir cuando slo se caso del cataln, 24.005 pertenecen al corpus-
ha podido asociar a la funcin el argumento o el origen y 24.665 al corpus-prueba. De todas las
papel temtico. Los resultados obtenidos en el funciones, reciben anotacin semntica el sujeto
proceso automtico de anotacin se presentan (SUJ), el complemento directo (CD), indirecto
en la seccin 5.1. Incluimos un anlisis (CI), de rgimen (CREG), el atributo (ATR), el
cuantitativo de la cobertura de los lxicos y de complemento predicativo (CPRED) y los
las reglas en los corpus origen y de prueba, es circunstanciales (CC), que corresponden a un
decir, el nmero de funciones sintcticas que total de 44.499 funciones por anotar en
han recibido informacin argumental y temtica castellano (23.587 en corpus-origen y 20.912 en
del conjunto total de funciones. corpus-prueba) y 43.531 para el cataln (21.466
Por otro lado, se ha realizado la revisin en el corpus origen y 22.065 en el de prueba).
manual para corregir los errores de la anotacin No reciben informacin semntica los
automtica y completar las funciones que no adjuntos oracionales (AO), el vocativo (VOC),
han recibido anotacin semntica tanto de los los elementos textuales (ET) y las marcas de
corpus-origen como del corpus-prueba. Para la impersonalidad, negacin, pasiva e impersonal.
anotacin manual se utiliza un editor de rboles, De todas formas, esta limitacin nos hace
TreeTrans (Cotton y Bird, 2000), adaptado para renunciar solamente a 3.906 funciones
la anotacin de argumentos y papeles temticos. sintcticas (un 8,07% del total de funciones) en
Una vez realizado el anlisis cuantitativo de la castellano y a 5.139 (un 10,5 % del total) en
calidad de la anotacin automtica, se presenta cataln.
una valoracin cualitativa de los resultados En la tabla 2 se muestra de manera
obtenidos (seccin 5.2). desglosada por funciones la anotacin semnti-
ca resultante. Tambin se incluye un desglose
5.1 Anlisis cuantitativo de los por cada uno de los corpus (origen/prueba).
resultados Cada celda contiene tres nmeros que
Los lxicos CESS_LEX se han obtenido a partir representan el nmero de funciones etiquetadas
de los verbos de los corpus-origen. Por lo tanto, con las reglas automticas, el nmero de
se plantea un problema de cobertura cuando se

73
M.Antnia Mart Antonn, Mariona Taul Delor, Lluis Mrquez, Manuel Bertran

CORPUS: CESS-ECE-CAT
Funcin C-origen C-prueba Total
SUJ 3.819/7.075/53,9% 3.996 / 7.517 / 53,1% 7.815 / 14.592 / 53,5%
CD 4.099/5.055/81,08% 3.933 / 5.302 / 74,1% 8.032 / 10.357/ 77,5%
CI 406/407/99,7% 429/ 429/ 100% 835/ 836 / 99,8%
CREG 767/1.253/61,21% 646 / 1.240 / 52,0% 1.413 / 2.493 / 56,6%
ATR 903/903/100% 1.111/ 1.111/ 100% 2.014 / 2.014 / 100%
CPRED 390/390/100% 412 / 413 / 99,7% 802 / 803 / 99,8%
CAG 297/297/100% 226/ 227/ 99.5% 523/ 524 / 99,8%
CC 1.620/6.006/26,97% 3.089 / 5.826 / 53,0% 4.709 / 11.832 / 39,7%
Total 12.301 / 21.386 / 57,5% 13.842 / 22.065 / 62,7% 26.143 / 43.451 / 60,1%

CORPUS: CESS-ECE-CAST
Funcin C-origen C-prueba Total
SUJ 5.207 / 7.746 / 67.2% 4.631 / 6.967 / 66.5% 9.838 / 14.713 / 66,8%
CD 3.438 / 4.838 / 71.1% 3.327 / 5.018 / 66.3% 6.765 / 9.856 / 68,6%
CI 502 / 612 / 82.0% 261 / 521 / 50.1% 763 / 1.133 / 67,3%
CREG 585 / 857 / 68.3% 470 / 869 / 54.1% 1.055 / 1.726 / 61.1%
ATR 1.537 / 1.550 / 99.2% 955 / 963 / 99.2% 2.492 / 2.513 / 99,2%
CPRED 361 / 361 / 100% 288 / 288 / 100% 649 / 649 / 100%
CAG 188 / 189 / 99.5% 263 / 265 / 99.2% 451 / 454 / 99,3%
CC 1.953 / 7.434 / 26.3% 3.062 / 6.021 / 50.9% 5.015 / 13.455 / 37,2%
Total 13.771 / 23.587 / 58.4% 13.257 / 20912 / 63.4% 27.028 / 44.499 / 60,7%
funciones a etiquetar y el porcentaje de cobertura, respectivamente.

Tabla 2: Resultados de la anotacin automtica desglosada por sub-corpus, funciones e idioma

Podemos ver como del total de funciones de manera casi unvoca una determinada
sintcticas que pueden recibir anotacin anotacin semntica y su grado de cobertura
semntica, 44.499 para el castellano y 43.531 alcanza casi el 100%. En el caso del CD y del
para el cataln, se han anotado automtica- CREG en ambas lenguas y del CI en el caso
mente un total de 27.028 y 26.143 del castellano, el grado de cobertura de la
respectivamente, lo que corresponde a un anotacin es inferior en el corpus-prueba
607% para la primera lengua y a un 60,1% debido a que en este corpus la cobertura del
para la segunda: el 584% del corpus-origen y lxico es inferior. La razn estriba en el hecho
el 634% del corpus-prueba para el castellano de que la asignacin de argumento y papel
y el 57,5% y el 62,73% respectivamente para temtico, en estos casos, depende
los corpus del cataln. Como se puede observar exclusivamente de las reglas de tipo II
la cobertura de anotacin es superior en el (lxicas). La funcin sujeto recibe menos
corpus de prueba debido fundamentalmente al anotaciones semnticas en cataln (7.759) que
etiquetado de los CC. Esto se explica porque, en castellano (9.690) porque el verbo ser -el
por razones de criterios de anotacin de los ms frecuente en el corpus- se ha tratado de
corpus, la anotacin sintctica del CC es ms forma monosmica en castellano, mientras que
rica en el corpus de prueba que en el corpus de en cataln es polismico.
origen 12 . Las posiciones no argumentales, que
En lo que se refiere a la cobertura, como se corresponden a los CC sintcticos, son las que
puede observar en la tabla 2, las funciones dan peores resultados debido a la amplia
sintcticas ATR, CAG, CPRED en ambas tipologa de argumentos (ArgM, Arg2, Arg3,
lenguas y el CI, en el caso del cataln, reciben Arg4) y papeles temticos que pueden recibir
(LOC, TMP, MNR, etc.).
12
Finalmente, en la tabla 3 se muestra el
En el corpus de prueba los complementos nmero total y el porcentaje de anotaciones
circunstanciales de tiempo y lugar reciben una
totales y parciales. En la fila de los Totales
etiqueta especfica, CCT y CCL respectivamente,
que facilita la asignacin semntica. se incluye el nmero total de funciones

74
Anotacin semiautomtica con papeles temticos de los corpus CESS-ECE

etiquetadas y el porcentaje que representa este revisado y validado el etiquetado obtenido


nmero con respecto al total de anotaciones automticamente para ambas lenguas. En
realizadas automticamente y al total de cuanto al corpus-prueba, se ha revisado y
funciones sintcticas por anotar. Se puede completado el 10% de las oraciones de ambos
observar como, en casi todos los casos, la corpus. En este proceso de validacin se ha
mayora de anotaciones son completas computado el nmero de errores para un
(argumento + papel temtico). El alto nmero subconjunto de 500 funciones en cada corpus
de anotaciones parciales en el caso del de ambas lenguas. El resultado obtenido es de
complemento de rgimen (CREG) se debe a un 2,1% de asignaciones incorrectas en el
que se ha decidido, de momento, no asignarle corpus del castellano y de 1,9% en el corpus
papel temtico por la problemtica que del cataln, fundamentalmente en los CC.
entraa. Este tema est en fase de estudio y se La precisin de la anotacin automtica
resolver en una fase posterior. Los depende bsicamente de dos factores: las
complementos con mayor ambigedad y, por reglas y el lxico. Las reglas generales son
lo tanto, con mayor nmero de anotaciones aplicables a cualquier corpus y el resultado
parciales, son el sujeto (SUJ) y el debera tener un nivel de calidad equivalente.
complemento directo (CD): la posicin No ocurre lo mismo con las reglas
argumental es deducible, pero no as el papel dependientes de la informacin contenida en el
temtico. lxico, ya que este est constituido sobre el
corpus de origen. Los problemas en este caso
CORPUS: CESS-ECE-CAT
se circunscriben a la cobertura de verbos y
Funcin Arg+PT Arg PT Total
sentidos.
SUJ 7.759 52 4 7.815 De los resultados obtenidos en la revisin
CD 7.854 178 --- 8.032 manual se puede concluir, por lo tanto, que las
CI 835 --- --- 835 reglas de tipo 1 y 3 dan resultados
CREG 157 1.256 --- 1.413 satisfactorios y son aplicables a cualquier otro
ATR 2.014 --- --- 2.014 corpus. Un anlisis ms profundo del
CPRED 802 --- --- 802 complemento circunstancial y la proyeccin
CAG 523 --- --- 523 del mismo en la anotacin semntica,
CC 4.608 101 --- 4.709 mejorara los resultados de las reglas de tipo
Total 24.552 1.587 4 26.143 3. 13 Los errores detectados se refieren
93,9% 6,0% 0,01% 100%
56,5% 3,6% 0,0% 60,1%
fundamentalmente a la asignacin de papeles
temticos a los CC, debido a la ambigedad y
CORPUS: CESS-ECE-CAST variedad de los mismos y por la presencia de
Funcin Arg+PT Arg PT Total sentidos en los corpus-prueba que no aparecen
9.690 144 4 9.838
en los corpus origen.
SUJ
CD 6.600 129 36 6.765 En cuanto a las reglas de tipo 2, en tanto
CI 703 --- 60 763 que dependen del lxico, seran mejorables
CREG 57 998 --- 1.055 aumentando la cobertura de los mismos y si
ATR 2.492 --- --- 2.492 trataran las preposiciones que rigen los verbos
CPRED 649 --- --- 649 en determinados complementos circunstancia-
CAG 451 --- --- 451 les.
CC 4.859 156 --- 5.015 A la vista de los resultados obtenidos tanto
Total 25.501 1.427 100 27.028 en la cobertura de anotacin (una media el
94,3% 5,3% 0,4% 100% 60,4%) como en la alta calidad de sta
57,3% 3,2% 0,2% 60,7% (alrededor de un 98% de aciertos) es innegable
que la metodologa propuesta supone un ahorro
Tabla 3: Anotacin total vs. parcial en el importante y resuelve en gran medida la tarea
corpus origen+prueba del cataln y castellano de la anotacin de corpus con argumentos y
papeles temticos. Ello se debe, entre otras
5.2 Anlisis cualitativo de los razones, a la base lingstica incorporada en las
resultados
13
Esta ampliacin se est ya aplicando para la
Actualmente se ha completado la anotacin
anotacin semntica automtica del corpus CESS-
semntica manual del corpus-origen y se ha ECE-CAT.

75
M.Antnia Mart Antonn, Mariona Taul Delor, Lluis Mrquez, Manuel Bertran

reglas y a la calidad de los procesos de Conference on Language Resources and


anotacin previos (morfosintctico y sintc- Evaluation, LREC-2000. Atenas, 2000.
tico). Para hacernos una idea, se ha Hovy, E.H., M. Marcus, M. Palmer, S. Pradhan, L.
cuantificado que el coste de anotacin manual Ramshaw, and R. Weischedel. OntoNotes:
The 90% Solution. En Proceedings of the
del 40% no cubierto por el proceso automtico
Human Language Technology / North
junto con la revisin manual del 100% del American Association of Computational
texto de los dos idiomas es de 1.655 horas Linguistics conference (HLT-NAACL 2006).
persona. El coste de haber etiquetado New York, NY, 2006.
manualmente el 60% cubierto por las reglas Palmer, M., D. Gildea, y P. Kingsbury. The
automticas se estima comparable a esta Proposition Bank: An Annotated Corpus of
cantidad, mientras que el desarrollo y la Semantic Roles, Computational Linguistics,
implementacin de las reglas no ha superado 31(1), 2005.
las 100 horas persona, dejando el ahorro neto Sebastin, N., M. A. Mart, M. F. Carreiras y F.
en una cantidad superior a 1.500 horas Cuetos. LEXESP: Lxico Informatizado del
Espaol, Ediciones de la Universidad de
persona.
Barcelona, Barcelona, 2000.
Taul, M., J. Aparicio, J. Castellv, y M. A. Mart.
6 Conclusiones Mapping syntactic functions into semantic
En este artculo se ha presentado la roles. En Proceedings of the Fourth Workshop
on Treebanks and Linguistic Theories (TLT
metodologa seguida en la anotacin
2005). Universitat de Barcelona, Barcelona,
automtica del corpus CESS-ECE con 2005.
estructura argumental y papeles temticos. Se Taul, M., M. A. Mart y J. Castellv. Semantic
trata de un proceso automtico previo a la Classes in CESS-LEX: Semantic Annotation of
anotacin manual completa. Las reglas que se CESS-ECE. En Proceedings of the Fifth
han aplicado, a la vista de los resultados Workshop on Treebanks and Linguistic
cualitativos obtenidos, tienen una precisin Theories (TLT-2006). Prague, Czech Republic,
prxima al 100%, aunque se ha sacrificado la 2006.
cobertura ya que slo se anota un 60% del
corpus. No se trata en ningn caso de un Anexo 1: Entrada verbal mover
sistema de anotacin automtica de roles Este anexo presenta la informacin de la
temticos, sino de un pre-proceso automtico entrada verbal mover en CESS-LEX, que
de ayuda en la anotacin y revisin manuales tiene tres sentidos diferenciados.
de un corpus con esta informacin. Una vez
completado, el corpus posibilitar, entre otras
mover01 synset: 01249365v
cosas, estudios lingsticos empricos y C1
tambin la aplicacin de tcnicas de SUJ Arg1##TEM
aprendizaje automtico para desarrollar CC Arg4#hacia#DES
herramientas automticas de anlisis de los CC ArgM##MNR
nuevos niveles semnticos incorporados. EJ: "que se mova lentamente"
Cabe destacar, en primer lugar, que el
grado de cobertura alcanzado tanto en el mover02 synset: 01263706v
C2
corpus-origen como en el corpus-prueba es SUJ Arg0##AGT
prcticamente el mismo (algo superior en este CD Arg1##PAT
ltimo). En segundo lugar, la alta calidad de la CC Arg2#por#LOC
anotacin automtica (98%). Finalmente, CC ArgMcon#ADV
resulta de especial inters el conjunto de reglas EJ: "las naves que mova el viento por
que se ha elaborado tanto por su alta resolucin aguas y mares con estimable
como por las generalizaciones lingsticas que eficiencia "
recogen. mover03 synset: 01133437v
A1
Bibliografa SUJ Arg0##CAU
Cotton, S. y S. Bird. An Integrated Framework for CREG Arg1#a#
Treebanks and Multilayer annotations. En EJ: "result ser de los que mueven a la
Proceedings of the 2nd International reflexin"

76

You might also like