IARG-AnCora

IARG-AnCora tiene como objetivo enriquecer los corpus AnCora-ES del español y AnCora-CA del catalán con la anotación de los argumentos implícitos de los predicados nominales derivados de verbos, es decir de las nominalizaciones deverbales (Taulé et al., 2012).

Se entiende por argumento implícito aquel argumento que no se realiza sintácticamente en el contexto local de los predicados (verbos, nombres o adjetivos) pero que su interpretación semántica depende del contexto lingüístico o extralingüístico. Este proyecto se ha centrado en la anotación de los argumentos implícitos nucleares (arg0, arg1, arg2, arg3, arg4) cuya interpretación semántica depende del contexto lingüístico y puede relacionarse a una entidad discursiva (Recasens y Martí, 2010).

Latarea a desarrollar ha consistido básicamente en identificar los argumentos implícitos de las nominalizaciones y asignarles una posición argumental –iarg0, iarg1, iarg2, etc.– con el correspondiente papel temático (agente, paciente, causa, etc.).

Se ha utilizado el mismo esquema de anotación adoptado en la anotación de los argumentos explícitos de las nominalizaciones deverbales (Peris y Taulé, 2012), que, a su vez, es el mismo que se ha usado para la anotación de la estructura argumental de los verbos (Taulé et al., 2008).

La anotación del corpus con argumentos implícitos se ha realizado en dos etapas:

En la primera etapa se ha desarrollado un modelo de etiquetado de roles semánticos basado en técnicas de aprendizaje automático ─LIAR_C (Peris et al., 2013)─, con el cual se ha etiquetado automáticamente todo el corpus (tanto la parte del español como del catalán). Este modelo se ha inferido a partir de un corpus de entrenamiento anotado previamente de manera manual consistente en una muestra seleccionada de 469 ocurrencias nominales del corpus del español.
En la segunda etapa se ha procedido a la revisión manual de la anotación obtenida en el proceso automático anterior con el fin de garantizar la calidad final del recurso.

El número de nombres anotados es de 18.962 en AnCora-ES y de 8.043 en AnCora-CA.

Han participado en la anotación de los corpus AnCora:

Esther Arias, Oriol Borrega, Montserrat Nofre, Aina Peris y Rita Zaragoza

El corpus IARG-AnCora (AnCora 3.0.0) está disponible aquí

FFI2011-13737-E

TIN2009-13391