Vés al contingut

IARG-AnCora

L’objectiu del projecte IARG-AnCora  és el d’enriquir els corpus AnCora-ES de l’espanyol i AnCora-CA del català amb l’anotació dels arguments implícits dels predicats nominals derivats de verbs, és a dir de les nominalitzacions deverbals (Taulé et al., 2012).

Entenem per argument implícit aquell argument que no es realitza sintàcticament en el context local dels predicats (verbs, noms o adjectius) però que la seva interpretació semàntica depèn del context lingüístic o extralingüístic. Aquest projecte s’ha centrat en l’anotació dels arguments implícits nuclears (arg0, arg1, arg2, arg3, arg4) la interpretació semàntica dels quals depèn del context lingüístic i pot relacionar-se a una entitat discursiva (Recasens y Martí, 2010).

La tasca a desenvolupar consisteix bàsicament en identificar els arguments implícits de les nominalitzacions i assignar-los una posició argumental  –iarg0, iarg1, iarg2, etc.– amb el corresponent paper temàtic (agent, pacient, causa, etc.).

S’ha utilitzat el mateix esquema d’anotació adoptat en l’anotació dels arguments explícits de les nominalitzacions deverbals (Peris i Taulé, 2012), que, a més, és el mateix que s’ha utilitzat per a l’anotació de l’estructura argumental dels verbs (Taulé et al., 2008).

L’anotació del corpus amb arguments implícits s’ha realitzat en dues etapes:

  1. Primer s’ha desenvolupat un model per a l’etiquetatge de rols semàntics basat en tècniques d’aprenentatge  automàtic ─LIARC (Peris et al., 2013)─, amb el qual s’ha anotat automàticament tot el corpus (tant la part de l’espanyol com la catalana). Aquest model s’ha inferit a partir d’un corpus d’entrenament anotat prèviament de manera manual consistent en una mostra seleccionada de 469 ocurrències nominals del corpus de l’espanyol.
  2. Després s’ha procedit a la revisió manual de l’anotació obtinguda en el procés automàtic anterior amb el fi de garantir la qualitat final del recurs.

El nombre de nominalitzacions anotades és de 18.962 a AnCora-ES i de 8.043 a AnCora-CA.

Han participat en l’anotació dels corpus AnCora:

Esther Arias, Oriol Borrega, Montserrat Nofre, Aina Peris y Rita Zaragoza

Podeu descarregar-vos el corpus IARG-AnCora (AnCora 3.0.0) aquí

logo_ministerio_ciencia_innovacion

FFI2011-13737-E

logotextmess

TIN2009-13391

pastilla_plan_nacional_idi