You are on page 1of 8

Procesamiento del lenguaje Natural, n 41 (2008), pp.

233-240 recibido 7-05-2008; aceptado 16-06-2008

Algunos problemas concretos en la anotacin de papeles semnti-


cos. Breve estudio comparativo a partir de los datos de AnCorA,
SenSem y ADESSE

Gael Vaamonde
Grupo de Investigacin Gramtica y Lxico
(GIGRALEX)
Departamento de Traducin e Lingstica
Universidade de Vigo
E-36200 Vigo, Espaa
gaelv@uvigo.es

Resumen: La etiquetacin de papeles semnticos se ha convertido en un reto importante tanto


en el campo de la lingstica de corpus como en el procesamiento del lenguaje natural. Sin em-
bargo, se trata de una tarea compleja en la que debemos afrontar ciertos problemas de anotacin
y en la que diferentes grupos de trabajo a menudo adoptan soluciones dispares, independiente-
mente del marco terico que sustente el anlisis. En este artculo se describen algunos de estos
problemas a la vez que se comparan las distintas soluciones adoptadas por tres proyectos de in-
vestigacin que han abordado el anlisis sintctico-semntico de un corpus en espaol.
Palabras clave: Papeles semnticos, anotacin de corpus, clasificacin de verbos, estructura ar-
gumental.

Abstract: The labelling of semantic roles has become an important challenge both in the field
of corpus linguistics and in the natural language processing. However, it is a hard task in which
we have to deal with certain problems of annotation and in which different groups often take
different solutions, regardless of the theoretical framework which supports the analysis. This
paper outlines some of these problems and simultaneously compares the different solutions
adopted by three research projects that have dealt with the syntactic-semantic analysis of a
Spanish corpus.
Keywords: Semantic roles, corpus annotation, verbal classification, argument structure.

A esta complejidad progresiva hay que aa-


1 Introduccin dir, de forma paralela, un acuerdo decreciente a
efectos de anotacin. Frente al relativo consen-
El proceso de anotacin de un corpus suele ser
so que encontramos en el enriquecimiento mor-
modular, es decir, suele obedecer a distintos
fosintctico de corpus diferentes (siempre que
niveles de anlisis lingstico (morfologa, sin-
se haga abstraccin de teoras sintcticas con-
taxis, semntica, pragmtica). En este sentido,
cretas), la etiquetacin semntica puede variar
el trabajo en corpus no escapa a algunos de los
significativamente entre unos anotadores y
problemas que ha tenido que tratar la lingstica
otros, tanto en lo metodolgico como en lo
terica. El objeto de estudio en cada nivel de
descriptivo, y llevar a soluciones de anlisis
anlisis se va haciendo cada vez ms escurri-
diferentes para un mismo ejemplo concreto.
dizo, menos sistemtico, y cada salto de nivel
Este trabajo pretende sacar a la luz algunos
parece implicar una mayor reticencia a la des-
de los problemas con los que se encuentra el
cripcin lingstica en trminos de unidades
anotador al aadir informacin semntica a un
discretas, claramente definidas y de fcil apli-
corpus, en concreto al afrontar cuestiones rela-
cacin.
tivas a la etiquetacin de papeles semnticos.

ISSN: 1135-5948 2008 Sociedad Espaola para el procesamiento del Lenguaje Natural
Gael Vaamonde

Para ello, se han tomado como referencia tres lgica del evento. Estas cuatro clases generales
proyectos de investigacin que han abordado son a su vez divididas en diferentes subclases
esta tarea en el mbito del espaol: AnCora en funcin de la estructura argumental, los pa-
(Annotated Corpora) 1 , SenSem (Sentence Se- peles semnticos y las alternancia de ditesis,
mantics: Creacin de una base de datos de dando lugar a un total de 13 clases semnticas.
Semntica Oracional) 2 y ADESSE (Alternan- La asignacin de papeles semnticos a cada
cias de Ditesis y Esquemas Sintctico- argumento del verbo depender de la clase se-
Semnticos del Espaol) 3 . mntica asociada a ese verbo (sentido verbal),
El trabajo se estructura del modo siguiente. ms concretamente de la estructura lxico-
El apartado 2 est dedicado a explicar breve- semntica y las alternancias de ditesis en las
mente los proyectos que sern objeto de estu- que aparece (cf. Mart et al., 2007:27 y ss.)
dio. En el apartado 3 se apuntan algunas consi-
deraciones previas que deben ser tenidas en
2.2 SenSem
cuenta a la hora de realizar un estudio compara- El proyecto SenSem, desarrollado por el Grup
tivo entre dichos proyectos. El apartado 4 se de Recerca Interuniversitari en Aplicacions
centra en tres problemas concretos que ilustran Lingstiques (GRIAL) de Catalua, ofrece
algunas dificultades en la anotacin de papeles informacin sintctico-semntica de los que
semnticos. El trabajo finalizar con algunas considera los 250 verbos ms frecuentes del
conclusiones generales en lo que concierne a la espaol. Partiendo de un corpus de aproxima-
etiquetacin de papeles en corpus. damente 13 millones de palabras, creado nte-
gramente a partir de las versiones online de El
2 Los recursos lingsticos utilizados Peridico de Catalunya, en SenSem se ha op-
tado por seleccionar 25.000 oraciones, 100 por
2.1 Ancora cada verbo, que posteriormente han sido anota-
El proyecto AnCora, llevado a cabo por el Cen- das con informacin sintctica y semntica.
tre de Llenguatge i Computaci (CLiC) de la El proceso de anotacin en SenSem respon-
Universidad de Barcelona, presenta dos corpus de bsicamente a tres niveles: la unidad lxica,
de 500.000 palabras cada uno, uno para el cata- los constituyentes y la oracin en s. Para cada
ln (AnCora-CAT) y otro para el espaol (An- participante se ha sealado su estatus argumen-
Cora-ESP), aunque en este trabajo slo se ten- tal (argumentos frente a adjuntos) y se ha aa-
drn en cuenta los datos de AnCora-ESP. Dicho dido informacin sintctica relevante (categora
corpus est compuesto por 400.000 palabras y funcin). Adems, cada argumento es asocia-
extradas de distintas fuentes periodsticas y do a un rol semntico determinado.
100.000 palabras provenientes del corpus 3LB- A nivel oracional, para cada sentido verbal
ESP (Civit y Mart, 2004). se ha incluido informacin acerca del tipo de
La anotacin semntica de AnCora parte de evento designado (evento, proceso o estado) y
una clasificacin verbal basada en la conocida cada esquema sintctico se asocia con una eti-
tipologa de Vendler (1967), posteriormente queta que resume su significado construccional
desarrollada en Dowty (1979), que diferencia (anticausativa, antiagentiva, reflexiva, habitual,
cuatro tipos de eventos en funcin de la Aktion- ), algo que, como se apunta en Castelln et
sart: estados, actividades, logros y realizacio- al. (2006), distingue a SenSem de otros proyec-
nes. Adems, AnCora adopta la descomposi- tos similares.
cin lxica como mtodo de anlisis (Levin y
Rappaport, 1995; Rappaport y Levin, 1998), de 2.3 ADESSE
tal forma que cada tipo de evento es asociado a
ADESSE (Alternancias de Ditesis y Esquemas
una Estructura Lxico-Semntica, esto es, una
Sintctico-Semnticos del Espaol) es un pro-
combinacin de variables, constantes y predica-
yecto que se est desarrollando en la Universi-
dos primitivos que representan la estructura
dad de Vigo y que, a partir de la anotacin sin-
tctico-semntica de un corpus del espaol,
1
http://clic.ub.edu/ancora/. pretende ofrecer una base de datos para el estu-
HUM2006-27378-E. TIN2006-15265-C06-06 dio emprico de la interaccin entre verbos y
2
http://grial.uab.es/fproj.php?id=1. construcciones.
BFF2003-06456 Toda la informacin sintctica de ADESSE
3
http://webs.uvigo.es/adesse. es una herencia directa de la Base de Datos
HUM2005-01573

234
Algunos problemas concretos en la anotacin de papeles semnticos.
Breve estudio comparativo a partir de los datos de AnCorA, SenSem y ADESSE

Sintcticos del Espaol Actual (BDS) 4 , que mentales prescinden de descripcin semntica,
contiene el anlisis sintctico e informacin mientras que ADESSE, (3), asume el trabajo
sobre los elementos valenciales de las casi anterior de la BDS y persigue nicamente la
160.000 clusulas que conforman la parte con- anotacin de los elementos que fueron tratados
tempornea del corpus ARTHUS 5 . Este corpus como valenciales en dicha base de datos.
de aproximadamente 1,5 millones de palabras
(1) [] asistir a la XII Cumbre de Jefes de
est compuesto por una variada naturaleza de
Estados Andinos que (Arg1-PAC) se cele-
textos (narrativos, teatrales, ensaysticos, perio-
brar en Lima (ArgM-LOC) el 9 y 10 de
dsticos y orales) procedentes de Espaa e His-
junio (ArgM-TMP)
panoamrica.
El proyecto ADESSE basa su razn de ser (2) En Juriba, ciudad del interior marroqu,
en el enriquecimiento semntico de los datos cada verano se celebra el mercado de los
aportados por la BDS y este enriquecimiento se italianos (Tema)
orienta fundamentalmente hacia tres objetivos (3) [] el tema de estos cursos que (A2 Acti-
claros: diferenciacin de acepciones, clasifica- vidad) se celebrarn la semana prxima en
cin semntica y etiquetacin de papeles. el rea de Cultura de Caixa Galicia
En ADESSE, cada sentido verbal es asocia-
do a una clase semntica determinada (o a va- Haremos notar, tambin, que ninguno de los
rias). Para cada clase semntica se ha previsto tres proyectos mencionados adopta como nico
una serie de papeles prototpicos del dominio recurso de anotacin semntica el inventario de
cognitivo descrito. A su vez, cada sentido ver- papeles. En los tres casos se aprecia una clasifi-
bal incuye un conjunto de papeles semnticos cacin semntica de los verbos, bien sea de tipo
para el total de los participantes posibles con aspectual (AnCora y SenSem) como nocional
ese verbo (potencial valencial). En general, el (ADESSE). Adems, AnCora recurre a la es-
verbo hereda por defecto los papeles de la(s) tructura lxico-semntica como mtodo previo
clase(s) en que se integra, y se aaden aquellos a la delimitacin y asignacin de papeles, mien-
que se consideran necesarios para dar cuenta de tras que en ADESSE la clase semntica a la que
todas las posibilidad construccionales con ese corresponde casa sentido verbal determina en
verbo (cf. Garca-Miguel y Albertuz, 2005) gran medida el conjunto de etiquetas utilizadas
para describir su potencial valencial.
2.4 Algunas consideraciones previas Las dos tablas siguientes resumen las carac-
tersticas principales de cada proyecto, tanto en
Antes de realizar cualquier tipo de comparacin lo que se refiere a datos del corpus como en lo
entre los proyectos citados, conviene apuntar tocante al proceso de anotacin semntica:
algunos de los aspectos que los individualizan y
que deben ser tenidos en cuenta como paso Corpus
previo al estudio comparativo que se pretende. palabras clusulas lemas
Uno de los problemas ms comunes, no slo AnCora 500.000 6 6.009 1.895
en la anotacin de corpus sino de manera gene- SenSem 700.000 25.000 250
ral en el estudio de la interfaz sintctico- ADESSE 1.450.000 160.000 3.436
semntica, es el de la delimitacin entre argu-
mentos y adjuntos. Tabla 1: Relacin del nmero de palabras, clu-
En la tarea de etiquetar los participantes ver- sulas y lemas verbales en cada corpus
bales esta delimitacin juega un papel relevan- Anotacin de papeles
te, desde el momento en que la anotacin de mtodo cobertura etiquetas
roles semnticos suele estar asociada de manera AnCora semiautomtico parcial 20
exclusiva a aquellos elementos que se conside- SenSem manual total 24
ran exigidos por el predicado. Como se aprecia ADESSE manual total 143 7
en los ejemplos siguientes, tan slo AnCora,
Tabla 2: Relacin del tipo de mtodo, grado de
(1), incluye los adjuntos entre los participantes
cobertura y nmero de etiquetas
que llevan etiqueta semntica. En SenSem, (2),
los elementos que no son considerados argu-
6
En el momento de redactar estas pginas, la anota-
cin semntica de Ancora-ESP todava no se ha
4
http://www.bds.usc.es/ finalizado (188.513 palabras de un total de 500.000).
5 7
http://www.bds.usc.es/corpus.html Esta lista est actulmente en proceso de revisin

235
Gael Vaamonde

Por ltimo, deben tenerse en cuenta tambin parecen quedar fuera del proceso de anotacin
los objetivos fundamentales de cada proyecto. semntica para este proyecto, a la luz de los
SenSem y ADESSE son recursos lingsticos ejemplos recogidos en (9e-f):
primordialmente descriptivos que proporcionan
(5) a. [] dar a los fabricantes de ordenadores
un sistema de consulta de los datos analizados
(Arg2-BEN) mayor flexibilidad
en cada corpus 8 ; AnCora, en cambio, tiene una
b. [] uno de los dos puestos que le co-
clara finalidad computacional como fuente de
rresponden a Espaa (Arg2-BEN)
aplicaciones y herramientas relacionadas con el
c. [] que abrir a este pas (Arg2-BEN)
procesamiento del lenguaje natural.
los mercados chinos
Estos aspectos, que condicionan en muchos
d. [] para arreglarle la jaima a la Caball
casos las soluciones de anlisis adoptadas, no
(Arg2-BEN)
eximen, sin embargo, de un estudio como el
e. Un solo visn se () comi 87 huevos
presente, en el que se busca contrastar algunos
f. Se () llev una bolsa de 200.000 dlares
problemas concretos en la etiquetacin de pape-
les semnticos en tres proyectos de investiga-
Quizs lo que ms llama la atencin es que
cin que comparten el uso dichos papeles como
en AnCora son tratados como argumentales
herramienta descriptiva para anotar corpus del
tanto los Beneficiarios que funcionan como
espaol.
CIND1 como los que funcionan como CIND2,
3 Algumos problemas de anotacin por lo que, a efectos de anotacin, no parece
haber ningn aspecto diferenciador, ni sintcti-
3.1 La anotacin de dativos y CINDs co ni semntico, entre uno y otro caso.
Son numerosos los trabajos que han mostra- En lo que concierne a SenSem, los CIND1
do inters por el CIND en espaol. Para el pre- son etiquetados como Destino (Dest), como se
sente estudio, tomaremos como referencia a ve en (6a-b), mientras que los CIND2 ofrecen
Gutirrez Ordoez (1999), donde se establece una solucin dispar. Generalmente, no son eti-
una distincin entre CINDs argumentales quetados semnticamente (6d), en consonancia
(CIND1), ejemplificados en (4a-b) y que apare- con la idea de reservar esta informacin tan slo
cen prototpicamente con verbos de transferen- para los elementos argumentales del verbo. En
cia, CINDs no argumentales o incorporados cualquier caso, la determinacin de la argumen-
(CIND2), ejemplificados en (4c-d), y que sue- talidad es una cuestin compleja y sujeta a dife-
len aparecen con verbos de creacin, destruc- rentes interpretaciones, por lo que encontramos
cin o preparacin, y dativos superfluos, ejem- casos clasificados por Gutirrez Ordoez como
plificados en (4e-f) y diferenciados de los CIND2 que vienen acompaados por un papel
CINDs fundamentalmente en su presentacin semntico en SenSem (6c). Los dativos super-
exclusivamente pronominal y en la posibilidad fluos, obviamente, carecen de etiquetacin se-
de coaparicin con cualquier otra funcin sin- mntica en este proyecto (6e-f)
tctica (cf. Gutirrez Ordoez, 1999:1909 y ss.). (6) a. Daremos una respuesta positiva a las
(4) a. Le envi una postal a su hermano personas que trabajan en las casas (Dest)
b. No nos corresponden esos lujos b. [] de los que 4.133 [trabajadores] co-
c. Te arregl las tijeras rresponden a Espaa (Dest)
d. Le ara la cara c. Si nos (Dest) crean una nueva barrera,
e. Nos tememos lo peor que nos quiten otra
f. No te me acalores d. [] pidiendo que le () arreglen la Casa
dels Canonges
Partiendo de dicha tipologa, veamos cmo e. [] como las ovejas no son suyas sale
trata cada proyecto las funciones citadas. corriendo, y el lobo se () las come
En Ancora, tanto los CIND1 como los f. Se () llev la mano derecha a la boca
CIND2 llevan de manera general la etiqueta de
Beneficiario (BEN), como se aprecia en los Conviene sealar que en SenSem algunas
ejemplos (7a-b) y (7c-d), respectivamente. En clusulas han sido anotadas a nivel oracional
cuanto a los dativos que cita Gutirrez Ordez, con la etiqueta Dativo de inters, donde se
incluyen tanto dativos posesivos (7a), que en
8 Gutirrez Ordoez (1999) son tratados dentro
Para una comparacin entre ambos proyectos,
vase Cuadros Muoz, 2005:126 y ss.
del grupo CIND2, como dativos claramente

236
Algunos problemas concretos en la anotacin de papeles semnticos.
Breve estudio comparativo a partir de los datos de AnCorA, SenSem y ADESSE

superfluos (7b). Sin embargo, casos como los La diferencia principal entre unos proyectos
de (7c-d), que tambin parecen claros dativos y otros estriba en cmo tratar los CINDs incor-
posesivos, no estn tratados como Dativo de porados (CIND2). En AnCora se ha optado por
inters y tan slo uno de ellos aparece acom- unificar todos los participantes que son codifi-
paado de etiqueta semntica, por lo que no cados mediante CIND y que presentan cierto
parece haber una solucin sistemtica para la grado de afectacin bajo la etiqueta general de
anotacin de este tipo de dativos en SenSem: Beneficiario.
SenSem parece dar un paso ms all en el
(7) a. [] me () he reducido el estmago
tratamiento de estos constituyentes y, aunque en
b. Se nos () va Julia de TV-3
trminos generales sigue la misma lnea de
c. Se le (Dest) ve demasiado el truco
anlisis que AnCora, en esta caso tomando co-
d. [] como ciego, en Telecupn, llega a
mo papel unificador el de Destino, reconoce
tocarle el culo a Belinda Washington ()
una solucin especfica para los conocidos dati-
vos posesivos. Sin embargo, esta solucin se
Por ltimo, en ADESSE tanto los CIND1
presenta a nivel oracional, no mediante la adop-
como los CIND2 llevan etiqueta semntica. En
cin de un papel diferente, y de forma asistem-
el primer caso esta etiqueta vendr determinada
tica, como prueban los ejemplos de (7).
por la clase semntica asociada al verbo en
Por ltimo, ADESSE entiende que los
cuestin (Poseedor-final con verbos de transfe-
CIND2, al no ser claramente argumentales, no
rencia, Entidad2 con verbos de atribucin, ) y
heredan un papel de la clase correspondiente,
en el segundo caso ser habitualmente un Bene-
como s lo hacen los CIND1, y por eso deben
ficiario o un Poseedor, etiquetas generales no
ser etiquetados con papeles generales. Adems,
asociadas a ninguna clase concreta (AG). Por su
entre esos ltimos se establece una distincin,
parte, la mayor parte de los denominados dati-
al menos en el nivel ms especfico del anlisis,
vos superfluos carecen de etiquetacin y se
entre Beneficiarios y Poseedores. Esto otorga
interpretan como marca de voz media.
mayor granularidad al anlisis que presenta
(8) a. [] ya se venci el plazo que le dimos a ADESSE, aunque como contrapartida pueden
la gerencia (A1 POS-FIN) darse aparentes incoherencias como las de (9),
b. [] las mayores subidas han correspon- fruto de la etiquetacin de casos ambiguos que
dido a Madrid (A2 ENT2) suponen un problema adicional respecto de
c. Ya de paso que nos (AG POS-A1) arre- SenSem y AnCora:
gl la cocina
(9) a. Le mira las manos (POS)
d. A la maana siguiente no quiso abrirme
b. Le inmoviliza los brazos (BEN)
(AG BEN) la puerta
c. Se les ha detectado un virus (POS)
e. Y sabe mi seora qu hara despus?
d. Se le design un abogado (BEN)
Me () comera los cocodrilos!
e. Le golpeaba en el estmago (POS)
f. Se () llevaron a mi padre, y mi madre lo
f. Le soplaba en la boca (BEN)
vea en sueos

La tabla siguiente resume las diferentes so- 3.2 Las alternancias con participantes
luciones de anotacin en cada proyecto para los adicionales
CINDs diferenciados: Otro de los problemas con lo que debe lidiar
todo proceso de anotacin semntica en corpus
CIND1 CIND2 Dat tiene que ver con las conocidas alternancias
dat. pos. otros construccionales que puede presentar un mismo
AnCora BEN BEN BEN BEN ncleo verbal. De entre ellas, nos centraremos
SenSem Dest Dest /dat Dest/ en aquellas que son consecuencia de aadir un
inters participante adicional en el evento descrito,
ADESSE Papel de la POS BEN como se ilustra en los esquemas de (10) y (11):
clase
(10) a. Alguien imita algo
Tabla 3: Papeles semnticos frecuentemente b. Alguien imita a alguien
asociados a CINDs y dativos en AnCora, Sen- c. Alguien le imita algo a alguien
Sem y ADESSE d. Alguien imita a alguien en algo

237
Gael Vaamonde

(11) a. Alguien sorprende a alguien En lneas generales, nos encontramos con


b. Algo sorprende a alguien dos vas de etiquetacin para estos casos. La
c. Alguien sorprende a alguien con algo primera de ellas consiste en utilizar etiquetas
d. Algo sorprende a alguien de alguien diferentes para un mismo esquema sintctico en
funcin del carcter animado o inanimado de
En general, para casos como estos se hace sus constituyentes. Es lo que sucede en SenSem
necesario el uso de tres etiquetas semnticas, para verbos como sorprender y similares, en los
uno por cada constituyente de las clusulas que se establece una diferencia a efectos de
triactanciales correspondientes (10c-d) y (11c- anotacin entre Agentes (entidades animadas) y
d). El problema radica en cmo se recoge la Causas (entidades inanimadas). Por tanto, a un
relacin entre los diferentes esquemas que con- mismo esquema sintctico (SUJ-CDIR) le co-
forman la alternancia a travs de los papeles rresponden dos esquemas semnticos diferentes
semnticos seleccionados y en cmo aplicar (Agente/Causa -Exp) y en las construcciones
estos papeles en funcin del carcter animado o con tres participantes, el Experimentador se
inanimado del participante en cuestin. mantiene inalterable y los papeles Agente y
Las dos tablas siguientes ilustran, a partir de Causa cubren el resto de posibilidades, si es que
la observacin de diferentes ejemplos, las dis- se consideran argumentales.
tintas soluciones de anotacin adoptadas: La otra va pasa por obviar la animacin de
los participantes en estos casos y usar el mismo
(SUJ) algo a alguien en algo papel para el objeto (imitar y similares) o el
Alguien sujeto (sorprender y similares), sea o no ani-
Agt Pat mado, en los esquemas transitivos. Mediante
An Agt Pat esta va, en las construcciones con tres consti-
Agt Pat Ben tuyentes se hace necesario recurrir a papeles
Agt Pat Adv especficos para anotar el tercer participante en
Sen No registrado cuestin. Como se aprecia en las dos tablas
Act Obj
anteriores, esta opcin es la adoptada en AnCo-
Act Obj
AD ra y en ADESSE.
Act Obj Ref
Act Obj mb
Aunque las dos soluciones son vlidas, debe
tenerse en cuenta que implican una diferencia
importante. Tomando como ejemplo el caso de
Tabla 4: Soluciones de anotacin para
sorprender, en el primer caso la relacin se-
imitar y similares 9
mntica del constituyente en funcin de SUJ
(SUJ) a de con vara como consecuencia de la animicidad, pero
alguien algo alguien alguien algo se entiende que la relacin semntica que man-
Cau Pat tienen con el verbo tanto el SUJ inanimado
Cau Pat como el CPREP(con) es la misma. En el segun-
An Cau Pat Adv do caso, por el contrario, el carcter animado o
No registrado inanimado del participante no supone un cam-
Agt Exp bio de funcin semntica y, sin embargo, al
Sen CPREP(con) s se le asocia una funcin semn-
Cau Exp
tica concreta, distinta de la del SUJ inanimado.
Agt Exp Cau
Dicho de otro modo, el anlisis de SenSem
Cau Exp
refleja una asociacin directa entre referentes y
Est Exp
relaciones semnticas, independientemente de
AD Est Exp la funcin sintctica que los codifique, mientras
Est Exp Med
que el anlisis adoptado por ADESSE y AnCo-
Est Exp Ref
ra entiende que la identidad de referentes no
implica identidad de papeles semnticos, sino
Tabla 4: Soluciones de anotacin para
que es la alternancia construccional la que con-
sorprender y similares
lleva un cambio de relaciones semnticas con el
9
verbo.
Act (Actor), Adv (Adverbial), Agt (Agente), mb
(mbito), Ben (Beneficiario), Cau (Causa), Est
(Estmulo), Exp (Experimentador), Med (Medio),
Obj (Objeto), Ref (Referencia)

238
Algunos problemas concretos en la anotacin de papeles semnticos.
Breve estudio comparativo a partir de los datos de AnCorA, SenSem y ADESSE

3.3 Casos fronterizos y de difcil c. [] anunci que doblara a cinco dla-


asignacin res (Estado final) el salario mnimo
d. [] otro planteamiento que dividir a la
Ya apuntamos con anterioridad que los lmites empresa en tres compaas (Manera)
entre papeles como Beneficiario y Poseedor no
son fciles de establecer. Pero este era un pro- Para solventar este problema, en AnCora
blema especfico de ADESSE, que opta por esta muchas veces se opta por aplicar una misma
distincion de manera recurrente. Hay, sin em- etiqueta. Es lo que sucede con el papel Benefi-
bargo, otros casos fronterizos que suponen un ciario, usado de manera general para todos los
problema comn a los tres corpus anotados. casos de CINDs ya mencionados. La desventaja
Tal es el caso de ciertas etiquetas semnticas obvia que esto implica es una relativa carencia
utilizadas para anotar participantes que no estn de poder descriptivo, puesto que el anlisis se
directamente implicados en el evento descrito, detiene en un nivel a veces demasiado superfi-
sino que suelen designar significados generales cial. En este sentido, me parecen reveladores
y hasta cierto punto opcionales. Me refiero a ejemplos como los de (15), donde todos los
papeles semnticos como Manera, Instrumento, constituyentes subrayados han sido tratados
Finalidad o Estado final. como Manera en dicho proyecto:
Una prueba evidente del carcter fronterizo
y ambiguo que representan estas etiquetas es el (15) a. En la reanudacin, el marroqu Yunes el
hecho de que muchas veces stas no presentan Aynaui se impuso finalmente a Ferrero por
el mismo valor extensional en cada proyecto. 6-7, 3-7, 6-4
As, la misma construccin con un verbo b. [] forz la tercera y ltima [manga] al
como cerrar ofrece soluciones diferentes en imponerse en el segundo set
AnCora (12a), SenSem (12b) y ADESSE (12c). c. No pudo desarrollar el tenis con el que
En (13) se ilustra un caso similar con el verbo se impuso al croata Goran Ivanisevic
conducir:
(12) a. El IBEX cierra otro mal mes con una Quizs el caso opuesto en este sentido lo en-
cada acumulada del 6,8 % (Manera) contramos en ADESSE, que ofrece una alta
b. Con un 25 % de cuota de pantalla (Ins- granularidad en su anotacin. El precio que
trumento), Telecinco cierra su mejor mes debe pagar por ello es el de tener que lidiar con
c. Este ao espera cerrar el ejercicio con un mayor nmero de casos fronterizos. As
una facturacin de 15 millones () sucede con papelse semnticos como Beneficia-
rio y Poseedor, Finalidad y Rol, Manera y Esta-
(13) a. [] transformaciones que conduzcan a do final, Asunto y mbito o Causa y Referen-
disminuir las desigualdades (Estado final) cia, entre otros
b. [] dise una planificacin que con-
4 Conclusiones
duca a lograr un estado de forma ptimo
(Finalidad) Desde los conocidos trabajos de Gruber
c. [] distraer recursos en cuestiones que (1965) y Fillmore (1968), no son pocos los
no conducen de forma inminente a deste- autores que han mostrado su escepticismo sobre
rrar su endemia (Direccin) la nocin misma de papel semntico, al menos
en el sentido ms tradicional y reduccionista del
Incluso es posible que dentro de un mismo trmino. Sin embargo, en un corpus lingstico
corpus ejemplos similares reciben una anota- encontramos una variedad de ejemplos enorme,
cin diferentes como consecuencia de una apli- que responden a muestras de uso de la lengua y
cacin vacilante de algunos de los papeles me- que necesitan ser descritos de forma prctica y
cionados. Es lo que ocurre, por ejemplo, con el sencilla. De ah que el inventario de papeles
papel Manera en AnCora, que puede presentar semnticos resulta un mtodo ampliamente
vacilaciones con el Instrumento o el Estado aceptado en lingstica de corpus.
final, entre otros: Pero se debe asumir igualmente que el signi-
ficado es muchas veces reacio a una descripcin
(14) a. [] limpindose los dientes con un tro- en trminos discretos y que, como consecuencia
zo de abeto (Instrumento) de ello, el proceso de etiquetacin no est exen-
b. Un hombre que era capaz de decapitar to de problemas. En este trabajo se han querido
una rata con los dientes (Manera) mostrar algunos de esos problemas a partir de la

239
Gael Vaamonde

comparacin de tres proyectos de investigacin Bibliografa


que etiquetan corpus del espaol.
En lo que se refiere al tratamiento de los Castelln, I., A. Fernndez, G. Vzquez, L.
Alonso y J. Capilla. 2006. The SenSem Cor-
CINDs, la complejidad intrnseca de esta fun-
pus: a Corpus Annotated at the Syntactic and
cin obliga a elegir entre dos vas de anlisis.
Semantic Level. Fifth International Confer-
AnCora y SemSem aplican una etiqueta gene-
ral para la mayor parte de los casos, ya sea ence on Language Resources and Evalua-
(BEN), ya sea (Dest), aunque SenSem adicio- tion, pginas 355-359
nalmente informa de ciertos casos de dativo de Cuadros Muoz, R. 2005. La complementacin
inters a nivel oracional. ADESSE opta por un verbal. Viejos y nuevos enfoques. Language
anlisis ms especfico y, al lado de las etique- Design, 7:105-136.
tas propias de cada clase semntica, propone
Civit, M. y M. A. Mart. 2004. Building
distinguir entre Beneficiarios y Poseedores,
Cast3LB: a Spanish Treebank. En Research
aunque ello lleve a encarar casos ambiguos de
on Language & Computation 2(4):549-574
difcil asignacin.
Respecto a las alternancias de ditesis co- Dowty, D. R. 1979. Word Meaning and Monta-
mentadas, hemos visto que surgen tambin dos gue Grammar. Reidel, Dordrecht
vas de anotacin diferentes. En la primera,
Fillmore, Ch. 1968. The Case for Case. En E.
adoptada en SenSem, un mismo esquema puede
Bach y R. T. Harms (eds.). Universals in
ser anotada con papeles diferentes en funcin
Linguistic Theory. Holt, Rinehart and
del carcter animado o inanimado de los refe-
Winston, New York, pginas 1-88.
rentes, lo que refleja una asociacin directa
entre referentes y relaciones semnticas. En la Garca-Miguel, J. M. y F. Albertuz. 2005. Verb,
segunda va, adoptada en AnCora y ADESSE, semantic classes and semantic roles in the
un mismo esquema del verbo recibe una nica ADESSE project. En K. Erk, A. Melinger y
anotacin, con lo que la animacin de los parti- S. Walde (eds.). Proceedings of the Interdis-
cipantes se vuelve secundaria. Es la alternancia ciplinary Workshop on the Identification and
construccional la que conlleva un cambio de Representation of Verb Features and Verb
relaciones semnticas con el verbo, aadindose Classes. Saarbrken, pginas 50-55.
una etiqueta especfica para los esquemas triac- Gruber, J. S. 1965. Studies in Lexical Relation,
tanciales de la alternancia en cuestin. Tesis doctoral. The MIT Press, Cambridge,
Por ltimo, el problema de los casos fronte- Massachusetts.
rizos responde una vez ms a dos estrategias
diferentes. La adopcin de etiquetas generales Gutirrez Ordoez, S. 1999. Los dativos. En I.
reduce el nmero de casos ambiguos, pero pue- Bosque y V. Demonte. Gramtica descripti-
de llevar a una superficialidad en el anlisis. va de la lengua espaola. RAE/Espasa Cal-
Por el contrario, un anlisis ms exhaustivo de pe, Madrid, (vol. 2), pginas 1855-1930
los datos, multiplica el nmero de ambiguda- Levin, B. y M. Rappaport-Hovav. 1995. Unac-
des, por lo que se corre el riego de perder sis- cusativity. At the Syntax-Lexical Semantics
tematicidad en la anotacin Interface. The MIT Press, Cambridge, Mas-
El reto principal en la etiquetacin semnti- sachusetts.
ca de corpus estriba, de hecho, en conseguir ese
equilibrio entre ambas condiciones: facilidad de Mart, M. A., M. Taul, M. Bertrn y L. Mr-
aplicacin, que se traduce en una consistencia quez. 2007. AnCora: Multilingual and Mul-
interna de los datos, y calidad de la anotacin, tilevel Annotated Corpora. Draft version.
que se traduce en una mayor granularidad en el [http://clic.ub.edu/ancora/ancora-corpus.pdf]
anlisis. En la relacin inversamente proporcio- Rappaport-Hovav, M. y B. Levin. 1998. Build-
nal de ambos factores, SenSem y sobre todo ing Verb Meanings. En M. Butt y W. Geu-
AnCora (por su finalidad computacional), pare- der (eds.). The Projection of Arguments:
cen decantarse por una mayor sistematicidad y Lexical and Compositional Factors. CSLI
coherencia internas, mientras que ADESSE, Publications, Standford, pginas 97-134.
tambin por las caractersticas y objetivos del
proyecto, persigue un mayor poder descriptivo Vendler, Z. 1967. Linguistics in Philosophy.
en el tratamiento de los datos. Cornell University Press, New York

240