Professional Documents
Culture Documents
Gael Vaamonde
Grupo de Investigacin Gramtica y Lxico
(GIGRALEX)
Departamento de Traducin e Lingstica
Universidade de Vigo
E-36200 Vigo, Espaa
gaelv@uvigo.es
Abstract: The labelling of semantic roles has become an important challenge both in the field
of corpus linguistics and in the natural language processing. However, it is a hard task in which
we have to deal with certain problems of annotation and in which different groups often take
different solutions, regardless of the theoretical framework which supports the analysis. This
paper outlines some of these problems and simultaneously compares the different solutions
adopted by three research projects that have dealt with the syntactic-semantic analysis of a
Spanish corpus.
Keywords: Semantic roles, corpus annotation, verbal classification, argument structure.
ISSN: 1135-5948 2008 Sociedad Espaola para el procesamiento del Lenguaje Natural
Gael Vaamonde
Para ello, se han tomado como referencia tres lgica del evento. Estas cuatro clases generales
proyectos de investigacin que han abordado son a su vez divididas en diferentes subclases
esta tarea en el mbito del espaol: AnCora en funcin de la estructura argumental, los pa-
(Annotated Corpora) 1 , SenSem (Sentence Se- peles semnticos y las alternancia de ditesis,
mantics: Creacin de una base de datos de dando lugar a un total de 13 clases semnticas.
Semntica Oracional) 2 y ADESSE (Alternan- La asignacin de papeles semnticos a cada
cias de Ditesis y Esquemas Sintctico- argumento del verbo depender de la clase se-
Semnticos del Espaol) 3 . mntica asociada a ese verbo (sentido verbal),
El trabajo se estructura del modo siguiente. ms concretamente de la estructura lxico-
El apartado 2 est dedicado a explicar breve- semntica y las alternancias de ditesis en las
mente los proyectos que sern objeto de estu- que aparece (cf. Mart et al., 2007:27 y ss.)
dio. En el apartado 3 se apuntan algunas consi-
deraciones previas que deben ser tenidas en
2.2 SenSem
cuenta a la hora de realizar un estudio compara- El proyecto SenSem, desarrollado por el Grup
tivo entre dichos proyectos. El apartado 4 se de Recerca Interuniversitari en Aplicacions
centra en tres problemas concretos que ilustran Lingstiques (GRIAL) de Catalua, ofrece
algunas dificultades en la anotacin de papeles informacin sintctico-semntica de los que
semnticos. El trabajo finalizar con algunas considera los 250 verbos ms frecuentes del
conclusiones generales en lo que concierne a la espaol. Partiendo de un corpus de aproxima-
etiquetacin de papeles en corpus. damente 13 millones de palabras, creado nte-
gramente a partir de las versiones online de El
2 Los recursos lingsticos utilizados Peridico de Catalunya, en SenSem se ha op-
tado por seleccionar 25.000 oraciones, 100 por
2.1 Ancora cada verbo, que posteriormente han sido anota-
El proyecto AnCora, llevado a cabo por el Cen- das con informacin sintctica y semntica.
tre de Llenguatge i Computaci (CLiC) de la El proceso de anotacin en SenSem respon-
Universidad de Barcelona, presenta dos corpus de bsicamente a tres niveles: la unidad lxica,
de 500.000 palabras cada uno, uno para el cata- los constituyentes y la oracin en s. Para cada
ln (AnCora-CAT) y otro para el espaol (An- participante se ha sealado su estatus argumen-
Cora-ESP), aunque en este trabajo slo se ten- tal (argumentos frente a adjuntos) y se ha aa-
drn en cuenta los datos de AnCora-ESP. Dicho dido informacin sintctica relevante (categora
corpus est compuesto por 400.000 palabras y funcin). Adems, cada argumento es asocia-
extradas de distintas fuentes periodsticas y do a un rol semntico determinado.
100.000 palabras provenientes del corpus 3LB- A nivel oracional, para cada sentido verbal
ESP (Civit y Mart, 2004). se ha incluido informacin acerca del tipo de
La anotacin semntica de AnCora parte de evento designado (evento, proceso o estado) y
una clasificacin verbal basada en la conocida cada esquema sintctico se asocia con una eti-
tipologa de Vendler (1967), posteriormente queta que resume su significado construccional
desarrollada en Dowty (1979), que diferencia (anticausativa, antiagentiva, reflexiva, habitual,
cuatro tipos de eventos en funcin de la Aktion- ), algo que, como se apunta en Castelln et
sart: estados, actividades, logros y realizacio- al. (2006), distingue a SenSem de otros proyec-
nes. Adems, AnCora adopta la descomposi- tos similares.
cin lxica como mtodo de anlisis (Levin y
Rappaport, 1995; Rappaport y Levin, 1998), de 2.3 ADESSE
tal forma que cada tipo de evento es asociado a
ADESSE (Alternancias de Ditesis y Esquemas
una Estructura Lxico-Semntica, esto es, una
Sintctico-Semnticos del Espaol) es un pro-
combinacin de variables, constantes y predica-
yecto que se est desarrollando en la Universi-
dos primitivos que representan la estructura
dad de Vigo y que, a partir de la anotacin sin-
tctico-semntica de un corpus del espaol,
1
http://clic.ub.edu/ancora/. pretende ofrecer una base de datos para el estu-
HUM2006-27378-E. TIN2006-15265-C06-06 dio emprico de la interaccin entre verbos y
2
http://grial.uab.es/fproj.php?id=1. construcciones.
BFF2003-06456 Toda la informacin sintctica de ADESSE
3
http://webs.uvigo.es/adesse. es una herencia directa de la Base de Datos
HUM2005-01573
234
Algunos problemas concretos en la anotacin de papeles semnticos.
Breve estudio comparativo a partir de los datos de AnCorA, SenSem y ADESSE
Sintcticos del Espaol Actual (BDS) 4 , que mentales prescinden de descripcin semntica,
contiene el anlisis sintctico e informacin mientras que ADESSE, (3), asume el trabajo
sobre los elementos valenciales de las casi anterior de la BDS y persigue nicamente la
160.000 clusulas que conforman la parte con- anotacin de los elementos que fueron tratados
tempornea del corpus ARTHUS 5 . Este corpus como valenciales en dicha base de datos.
de aproximadamente 1,5 millones de palabras
(1) [] asistir a la XII Cumbre de Jefes de
est compuesto por una variada naturaleza de
Estados Andinos que (Arg1-PAC) se cele-
textos (narrativos, teatrales, ensaysticos, perio-
brar en Lima (ArgM-LOC) el 9 y 10 de
dsticos y orales) procedentes de Espaa e His-
junio (ArgM-TMP)
panoamrica.
El proyecto ADESSE basa su razn de ser (2) En Juriba, ciudad del interior marroqu,
en el enriquecimiento semntico de los datos cada verano se celebra el mercado de los
aportados por la BDS y este enriquecimiento se italianos (Tema)
orienta fundamentalmente hacia tres objetivos (3) [] el tema de estos cursos que (A2 Acti-
claros: diferenciacin de acepciones, clasifica- vidad) se celebrarn la semana prxima en
cin semntica y etiquetacin de papeles. el rea de Cultura de Caixa Galicia
En ADESSE, cada sentido verbal es asocia-
do a una clase semntica determinada (o a va- Haremos notar, tambin, que ninguno de los
rias). Para cada clase semntica se ha previsto tres proyectos mencionados adopta como nico
una serie de papeles prototpicos del dominio recurso de anotacin semntica el inventario de
cognitivo descrito. A su vez, cada sentido ver- papeles. En los tres casos se aprecia una clasifi-
bal incuye un conjunto de papeles semnticos cacin semntica de los verbos, bien sea de tipo
para el total de los participantes posibles con aspectual (AnCora y SenSem) como nocional
ese verbo (potencial valencial). En general, el (ADESSE). Adems, AnCora recurre a la es-
verbo hereda por defecto los papeles de la(s) tructura lxico-semntica como mtodo previo
clase(s) en que se integra, y se aaden aquellos a la delimitacin y asignacin de papeles, mien-
que se consideran necesarios para dar cuenta de tras que en ADESSE la clase semntica a la que
todas las posibilidad construccionales con ese corresponde casa sentido verbal determina en
verbo (cf. Garca-Miguel y Albertuz, 2005) gran medida el conjunto de etiquetas utilizadas
para describir su potencial valencial.
2.4 Algunas consideraciones previas Las dos tablas siguientes resumen las carac-
tersticas principales de cada proyecto, tanto en
Antes de realizar cualquier tipo de comparacin lo que se refiere a datos del corpus como en lo
entre los proyectos citados, conviene apuntar tocante al proceso de anotacin semntica:
algunos de los aspectos que los individualizan y
que deben ser tenidos en cuenta como paso Corpus
previo al estudio comparativo que se pretende. palabras clusulas lemas
Uno de los problemas ms comunes, no slo AnCora 500.000 6 6.009 1.895
en la anotacin de corpus sino de manera gene- SenSem 700.000 25.000 250
ral en el estudio de la interfaz sintctico- ADESSE 1.450.000 160.000 3.436
semntica, es el de la delimitacin entre argu-
mentos y adjuntos. Tabla 1: Relacin del nmero de palabras, clu-
En la tarea de etiquetar los participantes ver- sulas y lemas verbales en cada corpus
bales esta delimitacin juega un papel relevan- Anotacin de papeles
te, desde el momento en que la anotacin de mtodo cobertura etiquetas
roles semnticos suele estar asociada de manera AnCora semiautomtico parcial 20
exclusiva a aquellos elementos que se conside- SenSem manual total 24
ran exigidos por el predicado. Como se aprecia ADESSE manual total 143 7
en los ejemplos siguientes, tan slo AnCora,
Tabla 2: Relacin del tipo de mtodo, grado de
(1), incluye los adjuntos entre los participantes
cobertura y nmero de etiquetas
que llevan etiqueta semntica. En SenSem, (2),
los elementos que no son considerados argu-
6
En el momento de redactar estas pginas, la anota-
cin semntica de Ancora-ESP todava no se ha
4
http://www.bds.usc.es/ finalizado (188.513 palabras de un total de 500.000).
5 7
http://www.bds.usc.es/corpus.html Esta lista est actulmente en proceso de revisin
235
Gael Vaamonde
Por ltimo, deben tenerse en cuenta tambin parecen quedar fuera del proceso de anotacin
los objetivos fundamentales de cada proyecto. semntica para este proyecto, a la luz de los
SenSem y ADESSE son recursos lingsticos ejemplos recogidos en (9e-f):
primordialmente descriptivos que proporcionan
(5) a. [] dar a los fabricantes de ordenadores
un sistema de consulta de los datos analizados
(Arg2-BEN) mayor flexibilidad
en cada corpus 8 ; AnCora, en cambio, tiene una
b. [] uno de los dos puestos que le co-
clara finalidad computacional como fuente de
rresponden a Espaa (Arg2-BEN)
aplicaciones y herramientas relacionadas con el
c. [] que abrir a este pas (Arg2-BEN)
procesamiento del lenguaje natural.
los mercados chinos
Estos aspectos, que condicionan en muchos
d. [] para arreglarle la jaima a la Caball
casos las soluciones de anlisis adoptadas, no
(Arg2-BEN)
eximen, sin embargo, de un estudio como el
e. Un solo visn se () comi 87 huevos
presente, en el que se busca contrastar algunos
f. Se () llev una bolsa de 200.000 dlares
problemas concretos en la etiquetacin de pape-
les semnticos en tres proyectos de investiga-
Quizs lo que ms llama la atencin es que
cin que comparten el uso dichos papeles como
en AnCora son tratados como argumentales
herramienta descriptiva para anotar corpus del
tanto los Beneficiarios que funcionan como
espaol.
CIND1 como los que funcionan como CIND2,
3 Algumos problemas de anotacin por lo que, a efectos de anotacin, no parece
haber ningn aspecto diferenciador, ni sintcti-
3.1 La anotacin de dativos y CINDs co ni semntico, entre uno y otro caso.
Son numerosos los trabajos que han mostra- En lo que concierne a SenSem, los CIND1
do inters por el CIND en espaol. Para el pre- son etiquetados como Destino (Dest), como se
sente estudio, tomaremos como referencia a ve en (6a-b), mientras que los CIND2 ofrecen
Gutirrez Ordoez (1999), donde se establece una solucin dispar. Generalmente, no son eti-
una distincin entre CINDs argumentales quetados semnticamente (6d), en consonancia
(CIND1), ejemplificados en (4a-b) y que apare- con la idea de reservar esta informacin tan slo
cen prototpicamente con verbos de transferen- para los elementos argumentales del verbo. En
cia, CINDs no argumentales o incorporados cualquier caso, la determinacin de la argumen-
(CIND2), ejemplificados en (4c-d), y que sue- talidad es una cuestin compleja y sujeta a dife-
len aparecen con verbos de creacin, destruc- rentes interpretaciones, por lo que encontramos
cin o preparacin, y dativos superfluos, ejem- casos clasificados por Gutirrez Ordoez como
plificados en (4e-f) y diferenciados de los CIND2 que vienen acompaados por un papel
CINDs fundamentalmente en su presentacin semntico en SenSem (6c). Los dativos super-
exclusivamente pronominal y en la posibilidad fluos, obviamente, carecen de etiquetacin se-
de coaparicin con cualquier otra funcin sin- mntica en este proyecto (6e-f)
tctica (cf. Gutirrez Ordoez, 1999:1909 y ss.). (6) a. Daremos una respuesta positiva a las
(4) a. Le envi una postal a su hermano personas que trabajan en las casas (Dest)
b. No nos corresponden esos lujos b. [] de los que 4.133 [trabajadores] co-
c. Te arregl las tijeras rresponden a Espaa (Dest)
d. Le ara la cara c. Si nos (Dest) crean una nueva barrera,
e. Nos tememos lo peor que nos quiten otra
f. No te me acalores d. [] pidiendo que le () arreglen la Casa
dels Canonges
Partiendo de dicha tipologa, veamos cmo e. [] como las ovejas no son suyas sale
trata cada proyecto las funciones citadas. corriendo, y el lobo se () las come
En Ancora, tanto los CIND1 como los f. Se () llev la mano derecha a la boca
CIND2 llevan de manera general la etiqueta de
Beneficiario (BEN), como se aprecia en los Conviene sealar que en SenSem algunas
ejemplos (7a-b) y (7c-d), respectivamente. En clusulas han sido anotadas a nivel oracional
cuanto a los dativos que cita Gutirrez Ordez, con la etiqueta Dativo de inters, donde se
incluyen tanto dativos posesivos (7a), que en
8 Gutirrez Ordoez (1999) son tratados dentro
Para una comparacin entre ambos proyectos,
vase Cuadros Muoz, 2005:126 y ss.
del grupo CIND2, como dativos claramente
236
Algunos problemas concretos en la anotacin de papeles semnticos.
Breve estudio comparativo a partir de los datos de AnCorA, SenSem y ADESSE
superfluos (7b). Sin embargo, casos como los La diferencia principal entre unos proyectos
de (7c-d), que tambin parecen claros dativos y otros estriba en cmo tratar los CINDs incor-
posesivos, no estn tratados como Dativo de porados (CIND2). En AnCora se ha optado por
inters y tan slo uno de ellos aparece acom- unificar todos los participantes que son codifi-
paado de etiqueta semntica, por lo que no cados mediante CIND y que presentan cierto
parece haber una solucin sistemtica para la grado de afectacin bajo la etiqueta general de
anotacin de este tipo de dativos en SenSem: Beneficiario.
SenSem parece dar un paso ms all en el
(7) a. [] me () he reducido el estmago
tratamiento de estos constituyentes y, aunque en
b. Se nos () va Julia de TV-3
trminos generales sigue la misma lnea de
c. Se le (Dest) ve demasiado el truco
anlisis que AnCora, en esta caso tomando co-
d. [] como ciego, en Telecupn, llega a
mo papel unificador el de Destino, reconoce
tocarle el culo a Belinda Washington ()
una solucin especfica para los conocidos dati-
vos posesivos. Sin embargo, esta solucin se
Por ltimo, en ADESSE tanto los CIND1
presenta a nivel oracional, no mediante la adop-
como los CIND2 llevan etiqueta semntica. En
cin de un papel diferente, y de forma asistem-
el primer caso esta etiqueta vendr determinada
tica, como prueban los ejemplos de (7).
por la clase semntica asociada al verbo en
Por ltimo, ADESSE entiende que los
cuestin (Poseedor-final con verbos de transfe-
CIND2, al no ser claramente argumentales, no
rencia, Entidad2 con verbos de atribucin, ) y
heredan un papel de la clase correspondiente,
en el segundo caso ser habitualmente un Bene-
como s lo hacen los CIND1, y por eso deben
ficiario o un Poseedor, etiquetas generales no
ser etiquetados con papeles generales. Adems,
asociadas a ninguna clase concreta (AG). Por su
entre esos ltimos se establece una distincin,
parte, la mayor parte de los denominados dati-
al menos en el nivel ms especfico del anlisis,
vos superfluos carecen de etiquetacin y se
entre Beneficiarios y Poseedores. Esto otorga
interpretan como marca de voz media.
mayor granularidad al anlisis que presenta
(8) a. [] ya se venci el plazo que le dimos a ADESSE, aunque como contrapartida pueden
la gerencia (A1 POS-FIN) darse aparentes incoherencias como las de (9),
b. [] las mayores subidas han correspon- fruto de la etiquetacin de casos ambiguos que
dido a Madrid (A2 ENT2) suponen un problema adicional respecto de
c. Ya de paso que nos (AG POS-A1) arre- SenSem y AnCora:
gl la cocina
(9) a. Le mira las manos (POS)
d. A la maana siguiente no quiso abrirme
b. Le inmoviliza los brazos (BEN)
(AG BEN) la puerta
c. Se les ha detectado un virus (POS)
e. Y sabe mi seora qu hara despus?
d. Se le design un abogado (BEN)
Me () comera los cocodrilos!
e. Le golpeaba en el estmago (POS)
f. Se () llevaron a mi padre, y mi madre lo
f. Le soplaba en la boca (BEN)
vea en sueos
La tabla siguiente resume las diferentes so- 3.2 Las alternancias con participantes
luciones de anotacin en cada proyecto para los adicionales
CINDs diferenciados: Otro de los problemas con lo que debe lidiar
todo proceso de anotacin semntica en corpus
CIND1 CIND2 Dat tiene que ver con las conocidas alternancias
dat. pos. otros construccionales que puede presentar un mismo
AnCora BEN BEN BEN BEN ncleo verbal. De entre ellas, nos centraremos
SenSem Dest Dest /dat Dest/ en aquellas que son consecuencia de aadir un
inters participante adicional en el evento descrito,
ADESSE Papel de la POS BEN como se ilustra en los esquemas de (10) y (11):
clase
(10) a. Alguien imita algo
Tabla 3: Papeles semnticos frecuentemente b. Alguien imita a alguien
asociados a CINDs y dativos en AnCora, Sen- c. Alguien le imita algo a alguien
Sem y ADESSE d. Alguien imita a alguien en algo
237
Gael Vaamonde
238
Algunos problemas concretos en la anotacin de papeles semnticos.
Breve estudio comparativo a partir de los datos de AnCorA, SenSem y ADESSE
239
Gael Vaamonde
240