Pasar al contenido principal

NIdent

 

NIdent-EN y NIdent-CA son dos corpus, del inglés y catalán respectivamente, anotados con etiquetas de casi-identidad. NIdent-EN consta de 49.279 palabras y tiene su origen en el corpus NP4E (Hasler et al., 2006) de la agencia de noticias Reuters. Las menciones de casi-correferencia representan el 12% del total de menciones correferenciales. NIdent-CA se ha obtenido a partir del corpus AnCora-CA (Recasens y Martí, 2010) y consta de 51.622 palabras. AnCora-CA contiene artículos procedentes de la edición en papel y la edición digital del diario El Periódico, y de la agencia de noticias ACN. Las menciones de casi-correferencia representan el  16% del total de menciones correferenciales.

La anotación de casi-correferencia se ha obtenido de manera implícita, basándonos en la idea de que diferentes anotadores no coincidirían al etiquetar una relación de casi-identidad si se les daban únicamente las opciones “correferencia” y “no correferencia”. Se pidió a cinco lingüistas que anotaran en paralelo los mismos corpus, NIdent-EN i NIdent-CA,  con relaciones de correferencia y no correferencia. Posteriormente, se reetiquetaron como “casi-identidad” las relaciones que habían sido anotadas como correferentes por alguno de los anotadores, pero no por todos ellos. Para una descripción más detallada del algoritmo de fusión de las diferentes anotaciones y del corpus NIdent, remitimos al lector a la comunicación que presentamos en LREC-2012 (Recasens et al., 2012). Por favor, citen dicha comunicación si utilizan nuestros datos.

 

Laura Hasler, Constantin Orasan, y Karin Naumann. 2006. "NPs for Events: Experiments in coreference annotation". En Proceedings of LREC 2006, págs. 1167–1172.

Marta Recasens y M. Antònia Martí. 2010. "AnCora-CO: Coreferentially annotated corpora for Spanish and Catalan". En Language Resources and Evaluation, 44(4):315–345.

Marta Recasens, M. Antònia Martí y Constantin Orasan. 2012. "Annotating Near-Identity from Coreference Disagreements". En Proceedings of LREC 2012, pa´gs. 165-172.

logotextmess