Professional Documents
Culture Documents
Gael Vaamonde
Grupo de Investigación Gramática y Léxico
(GIGRALEX)
Departamento de Tradución e Lingüística
Universidade de Vigo
E-36200 Vigo, España
gaelv@uvigo.es
Abstract: The labelling of semantic roles has become an important challenge both in the field
of corpus linguistics and in the natural language processing. However, it is a hard task in which
we have to deal with certain problems of annotation and in which different groups often take
different solutions, regardless of the theoretical framework which supports the analysis. This
paper outlines some of these problems and simultaneously compares the different solutions
adopted by three research projects that have dealt with the syntactic-semantic analysis of a
Spanish corpus.
Keywords: Semantic roles, corpus annotation, verbal classification, argument structure.
La tabla siguiente resume las diferentes so- 3.2 Las alternancias con participantes
luciones de anotación en cada proyecto para los adicionales
CINDs diferenciados: Otro de los problemas con lo que debe lidiar
todo proceso de anotación semántica en corpus
CIND1 CIND2 Dat tiene que ver con las conocidas alternancias
dat. pos. otros construccionales que puede presentar un mismo
AnCora BEN BEN BEN BEN ø núcleo verbal. De entre ellas, nos centraremos
SenSem Dest Dest ø/dat Dest/ø ø en aquellas que son consecuencia de añadir un
interés participante adicional en el evento descrito,
ADESSE Papel de la POS BEN ø como se ilustra en los esquemas de (10) y (11):
clase
(10) a. Alguien imita algo
Tabla 3: Papeles semánticos frecuentemente b. Alguien imita a alguien
asociados a CINDs y dativos en AnCora, Sen- c. Alguien le imita algo a alguien
Sem y ADESSE d. Alguien imita a alguien en algo
(11) a. Alguien sorprende a alguien En líneas generales, nos encontramos con
b. Algo sorprende a alguien dos vías de etiquetación para estos casos. La
c. Alguien sorprende a alguien con algo primera de ellas consiste en utilizar etiquetas
d. Algo sorprende a alguien de alguien diferentes para un mismo esquema sintáctico en
función del carácter animado o inanimado de
En general, para casos como estos se hace sus constituyentes. Es lo que sucede en SenSem
necesario el uso de tres etiquetas semánticas, para verbos como sorprender y similares, en los
uno por cada constituyente de las cláusulas que se establece una diferencia a efectos de
triactanciales correspondientes (10c-d) y (11c- anotación entre Agentes (entidades animadas) y
d). El problema radica en cómo se recoge la Causas (entidades inanimadas). Por tanto, a un
relación entre los diferentes esquemas que con- mismo esquema sintáctico (SUJ-CDIR) le co-
forman la alternancia a través de los papeles rresponden dos esquemas semánticos diferentes
semánticos seleccionados y en cómo aplicar (Agente/Causa -Exp) y en las construcciones
estos papeles en función del carácter animado o con tres participantes, el Experimentador se
inanimado del participante en cuestión. mantiene inalterable y los papeles Agente y
Las dos tablas siguientes ilustran, a partir de Causa cubren el resto de posibilidades, si es que
la observación de diferentes ejemplos, las dis- se consideran argumentales.
tintas soluciones de anotación adoptadas: La otra vía pasa por obviar la animación de
los participantes en estos casos y usar el mismo
(SUJ) algo a alguien en algo papel para el objeto (imitar y similares) o el
Alguien sujeto (sorprender y similares), sea o no ani-
Agt Pat mado, en los esquemas transitivos. Mediante
An Agt Pat esta vía, en las construcciones con tres consti-
Agt Pat Ben tuyentes se hace necesario recurrir a papeles
Agt Pat Adv específicos para anotar el tercer participante en
Sen No registrado cuestión. Como se aprecia en las dos tablas
Act Obj
anteriores, esta opción es la adoptada en AnCo-
Act Obj
AD ra y en ADESSE.
Act Obj Ref
Act Obj Ámb
Aunque las dos soluciones son válidas, debe
tenerse en cuenta que implican una diferencia
importante. Tomando como ejemplo el caso de
Tabla 4: Soluciones de anotación para
sorprender, en el primer caso la relación se-
imitar y similares 9
mántica del constituyente en función de SUJ
(SUJ) a de con varía como consecuencia de la animicidad, pero
alguien algo alguien alguien algo se entiende que la relación semántica que man-
Cau Pat tienen con el verbo tanto el SUJ inanimado
Cau Pat como el CPREP(con) es la misma. En el segun-
An Cau Pat Adv do caso, por el contrario, el carácter animado o
No registrado inanimado del participante no supone un cam-
Agt Exp bio de función semántica y, sin embargo, al
Sen CPREP(con) sí se le asocia una función semán-
Cau Exp
tica concreta, distinta de la del SUJ inanimado.
Agt Exp Cau
Dicho de otro modo, el análisis de SenSem
Cau Exp ø
refleja una asociación directa entre referentes y
Est Exp
relaciones semánticas, independientemente de
AD Est Exp la función sintáctica que los codifique, mientras
Est Exp Med
que el análisis adoptado por ADESSE y AnCo-
Est Exp Ref
ra entiende que la identidad de referentes no
implica identidad de papeles semánticos, sino
Tabla 4: Soluciones de anotación para
que es la alternancia construccional la que con-
sorprender y similares
lleva un cambio de relaciones semánticas con el
9
verbo.
Act (Actor), Adv (Adverbial), Agt (Agente), Ámb
(Ámbito), Ben (Beneficiario), Cau (Causa), Est
(Estímulo), Exp (Experimentador), Med (Medio),
Obj (Objeto), Ref (Referencia)
3.3 Casos fronterizos y de difícil c. […] anunció que doblaría a cinco dóla-
asignación res (Estado final) el salario mínimo
d. […] otro planteamiento que dividirá a la
Ya apuntamos con anterioridad que los límites empresa en tres compañías (Manera)
entre papeles como Beneficiario y Poseedor no
son fáciles de establecer. Pero este era un pro- Para solventar este problema, en AnCora
blema específico de ADESSE, que opta por esta muchas veces se opta por aplicar una misma
distincion de manera recurrente. Hay, sin em- etiqueta. Es lo que sucede con el papel Benefi-
bargo, otros casos fronterizos que suponen un ciario, usado de manera general para todos los
problema común a los tres corpus anotados. casos de CINDs ya mencionados. La desventaja
Tal es el caso de ciertas etiquetas semánticas obvia que esto implica es una relativa carencia
utilizadas para anotar participantes que no están de poder descriptivo, puesto que el análisis se
directamente implicados en el evento descrito, detiene en un nivel a veces demasiado superfi-
sino que suelen designar significados generales cial. En este sentido, me parecen reveladores
y hasta cierto punto opcionales. Me refiero a ejemplos como los de (15), donde todos los
papeles semánticos como Manera, Instrumento, constituyentes subrayados han sido tratados
Finalidad o Estado final. como Manera en dicho proyecto:
Una prueba evidente del carácter fronterizo
y ambiguo que representan estas etiquetas es el (15) a. En la reanudación, el marroquí Yunes el
hecho de que muchas veces éstas no presentan Aynaui se impuso finalmente a Ferrero por
el mismo valor extensional en cada proyecto. 6-7, 3-7, 6-4…
Así, la misma construcción con un verbo b. […] forzó la tercera y última [manga] al
como cerrar ofrece soluciones diferentes en imponerse en el segundo set
AnCora (12a), SenSem (12b) y ADESSE (12c). c. No pudo desarrollar el tenis con el que
En (13) se ilustra un caso similar con el verbo se impuso al croata Goran Ivanisevic
conducir:
(12) a. El IBEX cierra otro mal mes con una Quizás el caso opuesto en este sentido lo en-
caída acumulada del 6,8 % (Manera) contramos en ADESSE, que ofrece una alta
b. Con un 25 % de cuota de pantalla (Ins- granularidad en su anotación. El precio que
trumento), Telecinco cierra su mejor mes debe pagar por ello es el de tener que lidiar con
c. Este año espera cerrar el ejercicio con un mayor número de casos fronterizos. Así
una facturación de 15 millones (ø) sucede con papelse semánticos como Beneficia-
rio y Poseedor, Finalidad y Rol, Manera y Esta-
(13) a. […] transformaciones que conduzcan a do final, Asunto y Ámbito o Causa y Referen-
disminuir las desigualdades (Estado final) cia, entre otros
b. […] diseñó una planificación que con-
4 Conclusiones
ducía a lograr un estado de forma óptimo
(Finalidad) Desde los conocidos trabajos de Gruber
c. […] distraer recursos en cuestiones que (1965) y Fillmore (1968), no son pocos los
no conducen de forma inminente a deste- autores que han mostrado su escepticismo sobre
rrar su endemia (Dirección) la noción misma de papel semántico, al menos
en el sentido más tradicional y reduccionista del
Incluso es posible que dentro de un mismo término. Sin embargo, en un corpus lingüístico
corpus ejemplos similares reciben una anota- encontramos una variedad de ejemplos enorme,
ción diferentes como consecuencia de una apli- que responden a muestras de uso de la lengua y
cación vacilante de algunos de los papeles me- que necesitan ser descritos de forma práctica y
cionados. Es lo que ocurre, por ejemplo, con el sencilla. De ahí que el inventario de papeles
papel Manera en AnCora, que puede presentar semánticos resulta un método ampliamente
vacilaciones con el Instrumento o el Estado aceptado en lingüística de corpus.
final, entre otros: Pero se debe asumir igualmente que el signi-
ficado es muchas veces reacio a una descripción
(14) a. […] limpiándose los dientes con un tro- en términos discretos y que, como consecuencia
zo de abeto (Instrumento) de ello, el proceso de etiquetación no está exen-
b. Un hombre que era capaz de decapitar to de problemas. En este trabajo se han querido
una rata con los dientes (Manera) mostrar algunos de esos problemas a partir de la
comparación de tres proyectos de investigación Bibliografía
que etiquetan corpus del español.
En lo que se refiere al tratamiento de los Castellón, I., A. Fernández, G. Vázquez, L.
Alonso y J. Capilla. 2006. The SenSem Cor-
CINDs, la complejidad intrínseca de esta fun-
pus: a Corpus Annotated at the Syntactic and
ción obliga a elegir entre dos vías de análisis.
Semantic Level. Fifth International Confer-
AnCora y SemSem aplican una etiqueta gene-
ral para la mayor parte de los casos, ya sea ence on Language Resources and Evalua-
(BEN), ya sea (Dest), aunque SenSem adicio- tion, páginas 355-359
nalmente informa de ciertos casos de dativo de Cuadros Muñoz, R. 2005. La complementación
interés a nivel oracional. ADESSE opta por un verbal. Viejos y nuevos enfoques. Language
análisis más específico y, al lado de las etique- Design, 7:105-136.
tas propias de cada clase semántica, propone
Civit, M. y M. A. Martí. 2004. Building
distinguir entre Beneficiarios y Poseedores,
Cast3LB: a Spanish Treebank. En Research
aunque ello lleve a encarar casos ambiguos de
on Language & Computation 2(4):549-574
difícil asignación.
Respecto a las alternancias de diátesis co- Dowty, D. R. 1979. Word Meaning and Monta-
mentadas, hemos visto que surgen también dos gue Grammar. Reidel, Dordrecht
vías de anotación diferentes. En la primera,
Fillmore, Ch. 1968. The Case for Case. En E.
adoptada en SenSem, un mismo esquema puede
Bach y R. T. Harms (eds.). Universals in
ser anotada con papeles diferentes en función
Linguistic Theory. Holt, Rinehart and
del carácter animado o inanimado de los refe-
Winston, New York, páginas 1-88.
rentes, lo que refleja una asociación directa
entre referentes y relaciones semánticas. En la García-Miguel, J. M. y F. Albertuz. 2005. Verb,
segunda vía, adoptada en AnCora y ADESSE, semantic classes and semantic roles in the
un mismo esquema del verbo recibe una única ADESSE project. En K. Erk, A. Melinger y
anotación, con lo que la animación de los parti- S. Walde (eds.). Proceedings of the Interdis-
cipantes se vuelve secundaria. Es la alternancia ciplinary Workshop on the Identification and
construccional la que conlleva un cambio de Representation of Verb Features and Verb
relaciones semánticas con el verbo, añadiéndose Classes. Saarbrüken, páginas 50-55.
una etiqueta específica para los esquemas triac- Gruber, J. S. 1965. Studies in Lexical Relation,
tanciales de la alternancia en cuestión. Tesis doctoral. The MIT Press, Cambridge,
Por último, el problema de los casos fronte- Massachusetts.
rizos responde una vez más a dos estrategias
diferentes. La adopción de etiquetas generales Gutiérrez Ordoñez, S. 1999. Los dativos. En I.
reduce el número de casos ambiguos, pero pue- Bosque y V. Demonte. Gramática descripti-
de llevar a una superficialidad en el análisis. va de la lengua española. RAE/Espasa Cal-
Por el contrario, un análisis más exhaustivo de pe, Madrid, (vol. 2), páginas 1855-1930
los datos, multiplica el número de ambiguëda- Levin, B. y M. Rappaport-Hovav. 1995. Unac-
des, por lo que se corre el riego de perder sis- cusativity. At the Syntax-Lexical Semantics
tematicidad en la anotación Interface. The MIT Press, Cambridge, Mas-
El reto principal en la etiquetación semánti- sachusetts.
ca de corpus estriba, de hecho, en conseguir ese
equilibrio entre ambas condiciones: facilidad de Martí, M. A., M. Taulé, M. Bertrán y L. Már-
aplicación, que se traduce en una consistencia quez. 2007. AnCora: Multilingual and Mul-
interna de los datos, y calidad de la anotación, tilevel Annotated Corpora. Draft version.
que se traduce en una mayor granularidad en el [http://clic.ub.edu/ancora/ancora-corpus.pdf]
análisis. En la relación inversamente proporcio- Rappaport-Hovav, M. y B. Levin. 1998. Build-
nal de ambos factores, SenSem y sobre todo ing Verb Meanings. En M. Butt y W. Geu-
AnCora (por su finalidad computacional), pare- der (eds.). The Projection of Arguments:
cen decantarse por una mayor sistematicidad y Lexical and Compositional Factors. CSLI
coherencia internas, mientras que ADESSE, Publications, Standford, páginas 97-134.
también por las características y objetivos del
proyecto, persigue un mayor poder descriptivo Vendler, Z. 1967. Linguistics in Philosophy.
en el tratamiento de los datos. Cornell University Press, New York