NIdent

NIdent-EN i NIdent-CA són dos corpus, de l'anglès i del català respectivament, anotats amb etiquetes de quasi-identitat. NIdent-EN consta de 49.279 paraules i té el seu origen en el corpus NP4E (Hasler et al., 2006) de l’agència de notícies Reuters. Les mencions de quasi-coreferència representen el 12% del total de mencions coreferents. NIdent-CA s’ha obtingut a partir del corpus AnCora-CA (Recasens i Martí, 2010) i consta de 51.622 paraules. AnCora-CA conté articles procedents de l’edició en paper i l’edició digital del diari El Periódico, i de l’agència de notícies ACN. Les mencions de quasi-coreferència representen el 16% del total de mencions coreferencials.

L’anotació de la quasi-coreferència s’ha obtingut de manera implícita, basant-nos en la idea que diferents anotadors no coincidirien a l’hora d’etiquetar una relació de quasi-identitat si les úniques dues opcions que se’ls donava eren “coreferència” i “no coreferència”. Es va demanar a cinc lingüistes que anotessin en paral·lel els mateixos corpus, NIdent-EN i NIdent-CA, amb relacions de coreferència i no coreferència. Posteriorment, es van reeetiquetar com a “quasi-coreferència” les relacions que havien estat anotades com a coreferents per algun (no tots) dels anotadors. Per a una descripció més detallada de l’algorisme de fusió de les diferents anotacions i del corpus NIdent, remetem el lector a la comunicació que hem presentat a LREC-2012 (Recasens et al., 2012). Si us plau, citeu aquesta comunicació en el cas que utilitzeu les nostres dades.

Laura Hasler, Constantin Orasan, i Karin Naumann. 2006. "NPs for Events: Experiments in coreference annotation". A Proceedings of LREC 2006, pàgs. 1167–1172.

Marta Recasens i M. Antònia Martí. 2010. "AnCora-CO: Coreferentially annotated corpora for Spanish and Catalan". A Language Resources and Evaluation, 44(4):315–345.

Marta Recasens, M. Antònia Martí i Constantin Orasan. 2012. "Annotating Near-Identity from Coreference Disagreements". A Proceedings of LREC 2012, pàgs..