You are on page 1of 8

Algunos problemas concretos en la anotación de papeles semánti-

cos. Breve estudio comparativo a partir de los datos de AnCorA,


SenSem y ADESSE

Gael Vaamonde
Grupo de Investigación Gramática y Léxico
(GIGRALEX)
Departamento de Tradución e Lingüística
Universidade de Vigo
E-36200 Vigo, España
gaelv@uvigo.es

Resumen: La etiquetación de papeles semánticos se ha convertido en un reto importante tanto


en el campo de la lingüística de corpus como en el procesamiento del lenguaje natural. Sin em-
bargo, se trata de una tarea compleja en la que debemos afrontar ciertos problemas de anotación
y en la que diferentes grupos de trabajo a menudo adoptan soluciones dispares, independiente-
mente del marco teórico que sustente el análisis. En este artículo se describen algunos de estos
problemas a la vez que se comparan las distintas soluciones adoptadas por tres proyectos de in-
vestigación que han abordado el análisis sintáctico-semántico de un corpus en español.
Palabras clave: Papeles semánticos, anotación de corpus, clasificación de verbos, estructura ar-
gumental.

Abstract: The labelling of semantic roles has become an important challenge both in the field
of corpus linguistics and in the natural language processing. However, it is a hard task in which
we have to deal with certain problems of annotation and in which different groups often take
different solutions, regardless of the theoretical framework which supports the analysis. This
paper outlines some of these problems and simultaneously compares the different solutions
adopted by three research projects that have dealt with the syntactic-semantic analysis of a
Spanish corpus.
Keywords: Semantic roles, corpus annotation, verbal classification, argument structure.

A esta complejidad progresiva hay que aña-


1 Introducción dir, de forma paralela, un acuerdo decreciente a
efectos de anotación. Frente al relativo consen-
El proceso de anotación de un corpus suele ser
so que encontramos en el enriquecimiento mor-
modular, es decir, suele obedecer a distintos
fosintáctico de corpus diferentes (siempre que
niveles de análisis lingüístico (morfología, sin-
se haga abstracción de teorías sintácticas con-
taxis, semántica, pragmática). En este sentido,
cretas), la etiquetación semántica puede variar
el trabajo en corpus no escapa a algunos de los
significativamente entre unos anotadores y
problemas que ha tenido que tratar la lingüística
otros, tanto en lo metodológico como en lo
teórica. El objeto de estudio en cada nivel de
descriptivo, y llevar a soluciones de análisis
análisis se va haciendo cada vez más “escurri-
diferentes para un mismo ejemplo concreto.
dizo”, menos sistemático, y cada salto de nivel
Este trabajo pretende sacar a la luz algunos
parece implicar una mayor reticencia a la des-
de los problemas con los que se encuentra el
cripción lingüística en términos de unidades
anotador al añadir información semántica a un
discretas, claramente definidas y de fácil apli-
corpus, en concreto al afrontar cuestiones rela-
cación.
tivas a la etiquetación de papeles semánticos.
Para ello, se han tomado como referencia tres lógica del evento. Estas cuatro clases generales
proyectos de investigación que han abordado son a su vez divididas en diferentes subclases
esta tarea en el ámbito del español: AnCora en función de la estructura argumental, los pa-
(Annotated Corpora) 1 , SenSem (Sentence Se- peles semánticos y las alternancia de diátesis,
mantics: Creación de una base de datos de dando lugar a un total de 13 clases semánticas.
Semántica Oracional) 2 y ADESSE (Alternan- La asignación de papeles semánticos a cada
cias de Diátesis y Esquemas Sintáctico- argumento del verbo dependerá de la clase se-
Semánticos del Español) 3 . mántica asociada a ese verbo (sentido verbal),
El trabajo se estructura del modo siguiente. más concretamente de la estructura léxico-
El apartado 2 está dedicado a explicar breve- semántica y las alternancias de diátesis en las
mente los proyectos que serán objeto de estu- que aparece (cf. Martí et al., 2007:27 y ss.)
dio. En el apartado 3 se apuntan algunas consi-
deraciones previas que deben ser tenidas en
2.2 SenSem
cuenta a la hora de realizar un estudio compara- El proyecto SenSem, desarrollado por el Grup
tivo entre dichos proyectos. El apartado 4 se de Recerca Interuniversitari en Aplicacions
centra en tres problemas concretos que ilustran Lingüístiques (GRIAL) de Cataluña, ofrece
algunas dificultades en la anotación de papeles información sintáctico-semántica de los que
semánticos. El trabajo finalizará con algunas considera los 250 verbos más frecuentes del
conclusiones generales en lo que concierne a la español. Partiendo de un corpus de aproxima-
etiquetación de papeles en corpus. damente 13 millones de palabras, creado ínte-
gramente a partir de las versiones online de “El
2 Los recursos lingüísticos utilizados Periódico de Catalunya”, en SenSem se ha op-
tado por seleccionar 25.000 oraciones, 100 por
2.1 Ancora cada verbo, que posteriormente han sido anota-
El proyecto AnCora, llevado a cabo por el Cen- das con información sintáctica y semántica.
tre de Llenguatge i Computació (CLiC) de la El proceso de anotación en SenSem respon-
Universidad de Barcelona, presenta dos corpus de básicamente a tres niveles: la unidad léxica,
de 500.000 palabras cada uno, uno para el cata- los constituyentes y la oración en sí. Para cada
lán (AnCora-CAT) y otro para el español (An- participante se ha señalado su estatus argumen-
Cora-ESP), aunque en este trabajo sólo se ten- tal (argumentos frente a adjuntos) y se ha aña-
drán en cuenta los datos de AnCora-ESP. Dicho dido información sintáctica relevante (categoría
corpus está compuesto por 400.000 palabras y función). Además, cada argumento es asocia-
extraídas de distintas fuentes periodísticas y do a un rol semántico determinado.
100.000 palabras provenientes del corpus 3LB- A nivel oracional, para cada sentido verbal
ESP (Civit y Martí, 2004). se ha incluido información acerca del tipo de
La anotación semántica de AnCora parte de evento designado (evento, proceso o estado) y
una clasificación verbal basada en la conocida cada esquema sintáctico se asocia con una eti-
tipología de Vendler (1967), posteriormente queta que resume su significado construccional
desarrollada en Dowty (1979), que diferencia (anticausativa, antiagentiva, reflexiva, habitual,
cuatro tipos de eventos en función de la Aktion- …), algo que, como se apunta en Castellón et
sart: estados, actividades, logros y realizacio- al. (2006), distingue a SenSem de otros proyec-
nes. Además, AnCora adopta la descomposi- tos similares.
ción léxica como método de análisis (Levin y
Rappaport, 1995; Rappaport y Levin, 1998), de 2.3 ADESSE
tal forma que cada tipo de evento es asociado a
ADESSE (Alternancias de Diátesis y Esquemas
una Estructura Léxico-Semántica, esto es, una
Sintáctico-Semánticos del Español) es un pro-
combinación de variables, constantes y predica-
yecto que se está desarrollando en la Universi-
dos primitivos que representan la estructura
dad de Vigo y que, a partir de la anotación sin-
táctico-semántica de un corpus del español,
1
http://clic.ub.edu/ancora/. pretende ofrecer una base de datos para el estu-
HUM2006-27378-E. TIN2006-15265-C06-06 dio empírico de la interacción entre verbos y
2
http://grial.uab.es/fproj.php?id=1. construcciones.
BFF2003-06456 Toda la información sintáctica de ADESSE
3
http://webs.uvigo.es/adesse. es una herencia directa de la Base de Datos
HUM2005-01573
Sintácticos del Español Actual (BDS) 4 , que mentales prescinden de descripción semántica,
contiene el análisis sintáctico e información mientras que ADESSE, (3), asume el trabajo
sobre los elementos valenciales de las casi anterior de la BDS y persigue únicamente la
160.000 cláusulas que conforman la parte con- anotación de los elementos que fueron tratados
temporánea del corpus ARTHUS 5 . Este corpus como valenciales en dicha base de datos.
de aproximadamente 1,5 millones de palabras
(1) […] asistirá a la XII Cumbre de Jefes de
está compuesto por una variada naturaleza de
Estados Andinos que (Arg1-PAC) se cele-
textos (narrativos, teatrales, ensayísticos, perio-
brará en Lima (ArgM-LOC) el 9 y 10 de
dísticos y orales) procedentes de España e His-
junio (ArgM-TMP)
panoamérica.
El proyecto ADESSE basa su razón de ser (2) En Juriba, ciudad del interior marroquí,
en el enriquecimiento semántico de los datos cada verano se celebra el mercado de los
aportados por la BDS y este enriquecimiento se italianos (Tema)
orienta fundamentalmente hacia tres objetivos (3) […] el tema de estos cursos que (A2 Acti-
claros: diferenciación de acepciones, clasifica- vidad) se celebrarán la semana próxima en
ción semántica y etiquetación de papeles. el Área de Cultura de Caixa Galicia
En ADESSE, cada sentido verbal es asocia-
do a una clase semántica determinada (o a va- Haremos notar, también, que ninguno de los
rias). Para cada clase semántica se ha previsto tres proyectos mencionados adopta como único
una serie de papeles prototípicos del dominio recurso de anotación semántica el inventario de
cognitivo descrito. A su vez, cada sentido ver- papeles. En los tres casos se aprecia una clasifi-
bal incuye un conjunto de papeles semánticos cación semántica de los verbos, bien sea de tipo
para el total de los participantes posibles con aspectual (AnCora y SenSem) como nocional
ese verbo (potencial valencial). En general, el (ADESSE). Además, AnCora recurre a la es-
verbo hereda por defecto los papeles de la(s) tructura léxico-semántica como método previo
clase(s) en que se integra, y se añaden aquellos a la delimitación y asignación de papeles, mien-
que se consideran necesarios para dar cuenta de tras que en ADESSE la clase semántica a la que
todas las posibilidad construccionales con ese corresponde casa sentido verbal determina en
verbo (cf. García-Miguel y Albertuz, 2005) gran medida el conjunto de etiquetas utilizadas
para describir su potencial valencial.
2.4 Algunas consideraciones previas Las dos tablas siguientes resumen las carac-
terísticas principales de cada proyecto, tanto en
Antes de realizar cualquier tipo de comparación lo que se refiere a datos del corpus como en lo
entre los proyectos citados, conviene apuntar tocante al proceso de anotación semántica:
algunos de los aspectos que los individualizan y
que deben ser tenidos en cuenta como paso Corpus
previo al estudio comparativo que se pretende. palabras cláusulas lemas
Uno de los problemas más comunes, no sólo AnCora 500.000 6 6.009 1.895
en la anotación de corpus sino de manera gene- SenSem 700.000 25.000 250
ral en el estudio de la interfaz sintáctico- ADESSE 1.450.000 160.000 3.436
semántica, es el de la delimitación entre argu-
mentos y adjuntos. Tabla 1: Relación del número de palabras, cláu-
En la tarea de etiquetar los participantes ver- sulas y lemas verbales en cada corpus
bales esta delimitación juega un papel relevan- Anotación de papeles
te, desde el momento en que la anotación de método cobertura etiquetas
roles semánticos suele estar asociada de manera AnCora semiautomático parcial 20
exclusiva a aquellos elementos que se conside- SenSem manual total 24
ran exigidos por el predicado. Como se aprecia ADESSE manual total 143 7
en los ejemplos siguientes, tan sólo AnCora,
Tabla 2: Relación del tipo de método, grado de
(1), incluye los adjuntos entre los participantes
cobertura y número de etiquetas
que llevan etiqueta semántica. En SenSem, (2),
los elementos que no son considerados argu-
6
En el momento de redactar estas páginas, la anota-
ción semántica de Ancora-ESP todavía no se ha
4
http://www.bds.usc.es/ finalizado (188.513 palabras de un total de 500.000).
5 7
http://www.bds.usc.es/corpus.html Esta lista está actulmente en proceso de revisión
Por último, deben tenerse en cuenta también parecen quedar fuera del proceso de anotación
los objetivos fundamentales de cada proyecto. semántica para este proyecto, a la luz de los
SenSem y ADESSE son recursos lingüísticos ejemplos recogidos en (9e-f):
primordialmente descriptivos que proporcionan
(5) a. […] dar a los fabricantes de ordenadores
un sistema de consulta de los datos analizados
(Arg2-BEN) mayor flexibilidad
en cada corpus 8 ; AnCora, en cambio, tiene una
b. […] uno de los dos puestos que le co-
clara finalidad computacional como fuente de
rresponden a España (Arg2-BEN)
aplicaciones y herramientas relacionadas con el
c. […] que abrirá a este país (Arg2-BEN)
procesamiento del lenguaje natural.
los mercados chinos
Estos aspectos, que condicionan en muchos
d. […] para arreglarle la jaima a la Caballé
casos las soluciones de análisis adoptadas, no
(Arg2-BEN)
eximen, sin embargo, de un estudio como el
e. Un solo visón se (ø) comió 87 huevos
presente, en el que se busca contrastar algunos
f. Se (ø) llevó una bolsa de 200.000 dólares
problemas concretos en la etiquetación de pape-
les semánticos en tres proyectos de investiga-
Quizás lo que más llama la atención es que
ción que comparten el uso dichos papeles como
en AnCora son tratados como argumentales
herramienta descriptiva para anotar corpus del
tanto los Beneficiarios que funcionan como
español.
CIND1 como los que funcionan como CIND2,
3 Algumos problemas de anotación por lo que, a efectos de anotación, no parece
haber ningún aspecto diferenciador, ni sintácti-
3.1 La anotación de dativos y CINDs co ni semántico, entre uno y otro caso.
Son numerosos los trabajos que han mostra- En lo que concierne a SenSem, los CIND1
do interés por el CIND en español. Para el pre- son etiquetados como Destino (Dest), como se
sente estudio, tomaremos como referencia a ve en (6a-b), mientras que los CIND2 ofrecen
Gutiérrez Ordoñez (1999), donde se establece una solución dispar. Generalmente, no son eti-
una distinción entre CINDs argumentales quetados semánticamente (6d), en consonancia
(CIND1), ejemplificados en (4a-b) y que apare- con la idea de reservar esta información tan sólo
cen prototípicamente con verbos de transferen- para los elementos argumentales del verbo. En
cia, CINDs no argumentales o incorporados cualquier caso, la determinación de la argumen-
(CIND2), ejemplificados en (4c-d), y que sue- talidad es una cuestión compleja y sujeta a dife-
len aparecen con verbos de creación, destruc- rentes interpretaciones, por lo que encontramos
ción o preparación, y dativos superfluos, ejem- casos clasificados por Gutiérrez Ordoñez como
plificados en (4e-f) y diferenciados de los CIND2 que vienen acompañados por un papel
CINDs fundamentalmente en su presentación semántico en SenSem (6c). Los dativos super-
exclusivamente pronominal y en la posibilidad fluos, obviamente, carecen de etiquetación se-
de coaparición con cualquier otra función sin- mántica en este proyecto (6e-f)
táctica (cf. Gutiérrez Ordoñez, 1999:1909 y ss.). (6) a. Daremos una respuesta positiva a las
(4) a. Le envió una postal a su hermano personas que trabajan en las casas (Dest)
b. No nos corresponden esos lujos b. […] de los que 4.133 [trabajadores] co-
c. Te arreglé las tijeras rresponden a España (Dest)
d. Le arañó la cara c. Si nos (Dest) crean una nueva barrera,
e. Nos tememos lo peor que nos quiten otra
f. No te me acalores d. […] pidiendo que le (ø) arreglen la Casa
dels Canonges
Partiendo de dicha tipología, veamos cómo e. […] como las ovejas no son suyas sale
trata cada proyecto las funciones citadas. corriendo, y el lobo se (ø) las come
En Ancora, tanto los CIND1 como los f. Se (ø) llevó la mano derecha a la boca
CIND2 llevan de manera general la etiqueta de
Beneficiario (BEN), como se aprecia en los Conviene señalar que en SenSem algunas
ejemplos (7a-b) y (7c-d), respectivamente. En cláusulas han sido anotadas a nivel oracional
cuanto a los dativos que cita Gutiérrez Ordóñez, con la etiqueta “Dativo de interés”, donde se
incluyen tanto dativos posesivos (7a), que en
8 Gutiérrez Ordoñez (1999) son tratados dentro
Para una comparación entre ambos proyectos,
véase Cuadros Muñoz, 2005:126 y ss.
del grupo CIND2, como dativos claramente
superfluos (7b). Sin embargo, casos como los La diferencia principal entre unos proyectos
de (7c-d), que también parecen claros dativos y otros estriba en cómo tratar los CINDs incor-
posesivos, no están tratados como “Dativo de porados (CIND2). En AnCora se ha optado por
interés” y tan sólo uno de ellos aparece acom- unificar todos los participantes que son codifi-
pañado de etiqueta semántica, por lo que no cados mediante CIND y que presentan cierto
parece haber una solución sistemática para la grado de afectación bajo la etiqueta general de
anotación de este tipo de dativos en SenSem: Beneficiario.
SenSem parece dar un paso más allá en el
(7) a. […] me (ø) he reducido el estómago
tratamiento de estos constituyentes y, aunque en
b. Se nos (ø) va Julia de TV-3
términos generales sigue la misma línea de
c. Se le (Dest) ve demasiado el truco
análisis que AnCora, en esta caso tomando co-
d. […] como ciego, en Telecupón, llega a
mo papel unificador el de Destino, reconoce
tocarle el culo a Belinda Washington (ø)
una solución específica para los conocidos dati-
vos posesivos. Sin embargo, esta solución se
Por último, en ADESSE tanto los CIND1
presenta a nivel oracional, no mediante la adop-
como los CIND2 llevan etiqueta semántica. En
ción de un papel diferente, y de forma asistemá-
el primer caso esta etiqueta vendrá determinada
tica, como prueban los ejemplos de (7).
por la clase semántica asociada al verbo en
Por último, ADESSE entiende que los
cuestión (Poseedor-final con verbos de transfe-
CIND2, al no ser claramente argumentales, no
rencia, Entidad2 con verbos de atribución, …) y
heredan un papel de la clase correspondiente,
en el segundo caso será habitualmente un Bene-
como sí lo hacen los CIND1, y por eso deben
ficiario o un Poseedor, etiquetas generales no
ser etiquetados con papeles generales. Además,
asociadas a ninguna clase concreta (AG). Por su
entre esos últimos se establece una distinción,
parte, la mayor parte de los denominados dati-
al menos en el nivel más específico del análisis,
vos superfluos carecen de etiquetación y se
entre Beneficiarios y Poseedores. Esto otorga
interpretan como marca de voz media.
mayor granularidad al análisis que presenta
(8) a. […] ya se venció el plazo que le dimos a ADESSE, aunque como contrapartida pueden
la gerencia (A1 POS-FIN) darse aparentes incoherencias como las de (9),
b. […] las mayores subidas han correspon- fruto de la etiquetación de casos ambiguos que
dido a Madrid (A2 ENT2) suponen un problema adicional respecto de
c. Ya de paso que nos (AG POS-A1) arre- SenSem y AnCora:
glé la cocina
(9) a. Le mira las manos (POS)
d. A la mañana siguiente no quiso abrirme
b. Le inmoviliza los brazos (BEN)
(AG BEN) la puerta
c. Se les ha detectado un virus (POS)
e. ¿Y sabe mi señora qué haría después?
d. Se le designó un abogado (BEN)
¡Me (ø) comería los cocodrilos!
e. Le golpeaba en el estómago (POS)
f. Se (ø) llevaron a mi padre, y mi madre lo
f. Le soplaba en la boca (BEN)
veía en sueños

La tabla siguiente resume las diferentes so- 3.2 Las alternancias con participantes
luciones de anotación en cada proyecto para los adicionales
CINDs diferenciados: Otro de los problemas con lo que debe lidiar
todo proceso de anotación semántica en corpus
CIND1 CIND2 Dat tiene que ver con las conocidas alternancias
dat. pos. otros construccionales que puede presentar un mismo
AnCora BEN BEN BEN BEN ø núcleo verbal. De entre ellas, nos centraremos
SenSem Dest Dest ø/dat Dest/ø ø en aquellas que son consecuencia de añadir un
interés participante adicional en el evento descrito,
ADESSE Papel de la POS BEN ø como se ilustra en los esquemas de (10) y (11):
clase
(10) a. Alguien imita algo
Tabla 3: Papeles semánticos frecuentemente b. Alguien imita a alguien
asociados a CINDs y dativos en AnCora, Sen- c. Alguien le imita algo a alguien
Sem y ADESSE d. Alguien imita a alguien en algo
(11) a. Alguien sorprende a alguien En líneas generales, nos encontramos con
b. Algo sorprende a alguien dos vías de etiquetación para estos casos. La
c. Alguien sorprende a alguien con algo primera de ellas consiste en utilizar etiquetas
d. Algo sorprende a alguien de alguien diferentes para un mismo esquema sintáctico en
función del carácter animado o inanimado de
En general, para casos como estos se hace sus constituyentes. Es lo que sucede en SenSem
necesario el uso de tres etiquetas semánticas, para verbos como sorprender y similares, en los
uno por cada constituyente de las cláusulas que se establece una diferencia a efectos de
triactanciales correspondientes (10c-d) y (11c- anotación entre Agentes (entidades animadas) y
d). El problema radica en cómo se recoge la Causas (entidades inanimadas). Por tanto, a un
relación entre los diferentes esquemas que con- mismo esquema sintáctico (SUJ-CDIR) le co-
forman la alternancia a través de los papeles rresponden dos esquemas semánticos diferentes
semánticos seleccionados y en cómo aplicar (Agente/Causa -Exp) y en las construcciones
estos papeles en función del carácter animado o con tres participantes, el Experimentador se
inanimado del participante en cuestión. mantiene inalterable y los papeles Agente y
Las dos tablas siguientes ilustran, a partir de Causa cubren el resto de posibilidades, si es que
la observación de diferentes ejemplos, las dis- se consideran argumentales.
tintas soluciones de anotación adoptadas: La otra vía pasa por obviar la animación de
los participantes en estos casos y usar el mismo
(SUJ) algo a alguien en algo papel para el objeto (imitar y similares) o el
Alguien sujeto (sorprender y similares), sea o no ani-
Agt Pat mado, en los esquemas transitivos. Mediante
An Agt Pat esta vía, en las construcciones con tres consti-
Agt Pat Ben tuyentes se hace necesario recurrir a papeles
Agt Pat Adv específicos para anotar el tercer participante en
Sen No registrado cuestión. Como se aprecia en las dos tablas
Act Obj
anteriores, esta opción es la adoptada en AnCo-
Act Obj
AD ra y en ADESSE.
Act Obj Ref
Act Obj Ámb
Aunque las dos soluciones son válidas, debe
tenerse en cuenta que implican una diferencia
importante. Tomando como ejemplo el caso de
Tabla 4: Soluciones de anotación para
sorprender, en el primer caso la relación se-
imitar y similares 9
mántica del constituyente en función de SUJ
(SUJ) a de con varía como consecuencia de la animicidad, pero
alguien algo alguien alguien algo se entiende que la relación semántica que man-
Cau Pat tienen con el verbo tanto el SUJ inanimado
Cau Pat como el CPREP(con) es la misma. En el segun-
An Cau Pat Adv do caso, por el contrario, el carácter animado o
No registrado inanimado del participante no supone un cam-
Agt Exp bio de función semántica y, sin embargo, al
Sen CPREP(con) sí se le asocia una función semán-
Cau Exp
tica concreta, distinta de la del SUJ inanimado.
Agt Exp Cau
Dicho de otro modo, el análisis de SenSem
Cau Exp ø
refleja una asociación directa entre referentes y
Est Exp
relaciones semánticas, independientemente de
AD Est Exp la función sintáctica que los codifique, mientras
Est Exp Med
que el análisis adoptado por ADESSE y AnCo-
Est Exp Ref
ra entiende que la identidad de referentes no
implica identidad de papeles semánticos, sino
Tabla 4: Soluciones de anotación para
que es la alternancia construccional la que con-
sorprender y similares
lleva un cambio de relaciones semánticas con el
9
verbo.
Act (Actor), Adv (Adverbial), Agt (Agente), Ámb
(Ámbito), Ben (Beneficiario), Cau (Causa), Est
(Estímulo), Exp (Experimentador), Med (Medio),
Obj (Objeto), Ref (Referencia)
3.3 Casos fronterizos y de difícil c. […] anunció que doblaría a cinco dóla-
asignación res (Estado final) el salario mínimo
d. […] otro planteamiento que dividirá a la
Ya apuntamos con anterioridad que los límites empresa en tres compañías (Manera)
entre papeles como Beneficiario y Poseedor no
son fáciles de establecer. Pero este era un pro- Para solventar este problema, en AnCora
blema específico de ADESSE, que opta por esta muchas veces se opta por aplicar una misma
distincion de manera recurrente. Hay, sin em- etiqueta. Es lo que sucede con el papel Benefi-
bargo, otros casos fronterizos que suponen un ciario, usado de manera general para todos los
problema común a los tres corpus anotados. casos de CINDs ya mencionados. La desventaja
Tal es el caso de ciertas etiquetas semánticas obvia que esto implica es una relativa carencia
utilizadas para anotar participantes que no están de poder descriptivo, puesto que el análisis se
directamente implicados en el evento descrito, detiene en un nivel a veces demasiado superfi-
sino que suelen designar significados generales cial. En este sentido, me parecen reveladores
y hasta cierto punto opcionales. Me refiero a ejemplos como los de (15), donde todos los
papeles semánticos como Manera, Instrumento, constituyentes subrayados han sido tratados
Finalidad o Estado final. como Manera en dicho proyecto:
Una prueba evidente del carácter fronterizo
y ambiguo que representan estas etiquetas es el (15) a. En la reanudación, el marroquí Yunes el
hecho de que muchas veces éstas no presentan Aynaui se impuso finalmente a Ferrero por
el mismo valor extensional en cada proyecto. 6-7, 3-7, 6-4…
Así, la misma construcción con un verbo b. […] forzó la tercera y última [manga] al
como cerrar ofrece soluciones diferentes en imponerse en el segundo set
AnCora (12a), SenSem (12b) y ADESSE (12c). c. No pudo desarrollar el tenis con el que
En (13) se ilustra un caso similar con el verbo se impuso al croata Goran Ivanisevic
conducir:
(12) a. El IBEX cierra otro mal mes con una Quizás el caso opuesto en este sentido lo en-
caída acumulada del 6,8 % (Manera) contramos en ADESSE, que ofrece una alta
b. Con un 25 % de cuota de pantalla (Ins- granularidad en su anotación. El precio que
trumento), Telecinco cierra su mejor mes debe pagar por ello es el de tener que lidiar con
c. Este año espera cerrar el ejercicio con un mayor número de casos fronterizos. Así
una facturación de 15 millones (ø) sucede con papelse semánticos como Beneficia-
rio y Poseedor, Finalidad y Rol, Manera y Esta-
(13) a. […] transformaciones que conduzcan a do final, Asunto y Ámbito o Causa y Referen-
disminuir las desigualdades (Estado final) cia, entre otros
b. […] diseñó una planificación que con-
4 Conclusiones
ducía a lograr un estado de forma óptimo
(Finalidad) Desde los conocidos trabajos de Gruber
c. […] distraer recursos en cuestiones que (1965) y Fillmore (1968), no son pocos los
no conducen de forma inminente a deste- autores que han mostrado su escepticismo sobre
rrar su endemia (Dirección) la noción misma de papel semántico, al menos
en el sentido más tradicional y reduccionista del
Incluso es posible que dentro de un mismo término. Sin embargo, en un corpus lingüístico
corpus ejemplos similares reciben una anota- encontramos una variedad de ejemplos enorme,
ción diferentes como consecuencia de una apli- que responden a muestras de uso de la lengua y
cación vacilante de algunos de los papeles me- que necesitan ser descritos de forma práctica y
cionados. Es lo que ocurre, por ejemplo, con el sencilla. De ahí que el inventario de papeles
papel Manera en AnCora, que puede presentar semánticos resulta un método ampliamente
vacilaciones con el Instrumento o el Estado aceptado en lingüística de corpus.
final, entre otros: Pero se debe asumir igualmente que el signi-
ficado es muchas veces reacio a una descripción
(14) a. […] limpiándose los dientes con un tro- en términos discretos y que, como consecuencia
zo de abeto (Instrumento) de ello, el proceso de etiquetación no está exen-
b. Un hombre que era capaz de decapitar to de problemas. En este trabajo se han querido
una rata con los dientes (Manera) mostrar algunos de esos problemas a partir de la
comparación de tres proyectos de investigación Bibliografía
que etiquetan corpus del español.
En lo que se refiere al tratamiento de los Castellón, I., A. Fernández, G. Vázquez, L.
Alonso y J. Capilla. 2006. The SenSem Cor-
CINDs, la complejidad intrínseca de esta fun-
pus: a Corpus Annotated at the Syntactic and
ción obliga a elegir entre dos vías de análisis.
Semantic Level. Fifth International Confer-
AnCora y SemSem aplican una etiqueta gene-
ral para la mayor parte de los casos, ya sea ence on Language Resources and Evalua-
(BEN), ya sea (Dest), aunque SenSem adicio- tion, páginas 355-359
nalmente informa de ciertos casos de dativo de Cuadros Muñoz, R. 2005. La complementación
interés a nivel oracional. ADESSE opta por un verbal. Viejos y nuevos enfoques. Language
análisis más específico y, al lado de las etique- Design, 7:105-136.
tas propias de cada clase semántica, propone
Civit, M. y M. A. Martí. 2004. Building
distinguir entre Beneficiarios y Poseedores,
Cast3LB: a Spanish Treebank. En Research
aunque ello lleve a encarar casos ambiguos de
on Language & Computation 2(4):549-574
difícil asignación.
Respecto a las alternancias de diátesis co- Dowty, D. R. 1979. Word Meaning and Monta-
mentadas, hemos visto que surgen también dos gue Grammar. Reidel, Dordrecht
vías de anotación diferentes. En la primera,
Fillmore, Ch. 1968. The Case for Case. En E.
adoptada en SenSem, un mismo esquema puede
Bach y R. T. Harms (eds.). Universals in
ser anotada con papeles diferentes en función
Linguistic Theory. Holt, Rinehart and
del carácter animado o inanimado de los refe-
Winston, New York, páginas 1-88.
rentes, lo que refleja una asociación directa
entre referentes y relaciones semánticas. En la García-Miguel, J. M. y F. Albertuz. 2005. Verb,
segunda vía, adoptada en AnCora y ADESSE, semantic classes and semantic roles in the
un mismo esquema del verbo recibe una única ADESSE project. En K. Erk, A. Melinger y
anotación, con lo que la animación de los parti- S. Walde (eds.). Proceedings of the Interdis-
cipantes se vuelve secundaria. Es la alternancia ciplinary Workshop on the Identification and
construccional la que conlleva un cambio de Representation of Verb Features and Verb
relaciones semánticas con el verbo, añadiéndose Classes. Saarbrüken, páginas 50-55.
una etiqueta específica para los esquemas triac- Gruber, J. S. 1965. Studies in Lexical Relation,
tanciales de la alternancia en cuestión. Tesis doctoral. The MIT Press, Cambridge,
Por último, el problema de los casos fronte- Massachusetts.
rizos responde una vez más a dos estrategias
diferentes. La adopción de etiquetas generales Gutiérrez Ordoñez, S. 1999. Los dativos. En I.
reduce el número de casos ambiguos, pero pue- Bosque y V. Demonte. Gramática descripti-
de llevar a una superficialidad en el análisis. va de la lengua española. RAE/Espasa Cal-
Por el contrario, un análisis más exhaustivo de pe, Madrid, (vol. 2), páginas 1855-1930
los datos, multiplica el número de ambiguëda- Levin, B. y M. Rappaport-Hovav. 1995. Unac-
des, por lo que se corre el riego de perder sis- cusativity. At the Syntax-Lexical Semantics
tematicidad en la anotación Interface. The MIT Press, Cambridge, Mas-
El reto principal en la etiquetación semánti- sachusetts.
ca de corpus estriba, de hecho, en conseguir ese
equilibrio entre ambas condiciones: facilidad de Martí, M. A., M. Taulé, M. Bertrán y L. Már-
aplicación, que se traduce en una consistencia quez. 2007. AnCora: Multilingual and Mul-
interna de los datos, y calidad de la anotación, tilevel Annotated Corpora. Draft version.
que se traduce en una mayor granularidad en el [http://clic.ub.edu/ancora/ancora-corpus.pdf]
análisis. En la relación inversamente proporcio- Rappaport-Hovav, M. y B. Levin. 1998. Build-
nal de ambos factores, SenSem y sobre todo ing Verb Meanings. En M. Butt y W. Geu-
AnCora (por su finalidad computacional), pare- der (eds.). The Projection of Arguments:
cen decantarse por una mayor sistematicidad y Lexical and Compositional Factors. CSLI
coherencia internas, mientras que ADESSE, Publications, Standford, páginas 97-134.
también por las características y objetivos del
proyecto, persigue un mayor poder descriptivo Vendler, Z. 1967. Linguistics in Philosophy.
en el tratamiento de los datos. Cornell University Press, New York

You might also like