L’objectiu del projecte IARG-AnCora és el d’enriquir els corpus AnCora-ES de l’espanyol i AnCora-CA del català amb l’anotació dels arguments implícits dels predicats nominals derivats de verbs, és a dir de les nominalitzacions deverbals (Taulé et al., 2012).
Entenem per argument implícit aquell argument que no es realitza sintàcticament en el context local dels predicats (verbs, noms o adjectius) però que la seva interpretació semàntica depèn del context lingüístic o extralingüístic. Aquest projecte s’ha centrat en l’anotació dels arguments implícits nuclears (arg0, arg1, arg2, arg3, arg4) la interpretació semàntica dels quals depèn del context lingüístic i pot relacionar-se a una entitat discursiva (Recasens y Martí, 2010).
La tasca a desenvolupar consisteix bàsicament en identificar els arguments implícits de les nominalitzacions i assignar-los una posició argumental –iarg0, iarg1, iarg2, etc.– amb el corresponent paper temàtic (agent, pacient, causa, etc.).
S’ha utilitzat el mateix esquema d’anotació adoptat en l’anotació dels arguments explícits de les nominalitzacions deverbals (Peris i Taulé, 2012), que, a més, és el mateix que s’ha utilitzat per a l’anotació de l’estructura argumental dels verbs (Taulé et al., 2008).
L’anotació del corpus amb arguments implícits s’ha realitzat en dues etapes:
- Primer s’ha desenvolupat un model per a l’etiquetatge de rols semàntics basat en tècniques d’aprenentatge automàtic ─LIARC (Peris et al., 2013)─, amb el qual s’ha anotat automàticament tot el corpus (tant la part de l’espanyol com la catalana). Aquest model s’ha inferit a partir d’un corpus d’entrenament anotat prèviament de manera manual consistent en una mostra seleccionada de 469 ocurrències nominals del corpus de l’espanyol.
- Després s’ha procedit a la revisió manual de l’anotació obtinguda en el procés automàtic anterior amb el fi de garantir la qualitat final del recurs.
El nombre de nominalitzacions anotades és de 18.962 a AnCora-ES i de 8.043 a AnCora-CA.
Han participat en l’anotació dels corpus AnCora:
Esther Arias, Oriol Borrega, Montserrat Nofre, Aina Peris y Rita Zaragoza
Podeu descarregar-vos el corpus IARG-AnCora (AnCora 3.0.0) aquí