AnCora es un corpus del catalán (AnCora-CA) y del español (AnCora-ES) con diferentes niveles de anotación:
- lema y categoría morfológica
- constituyentes y funciones sintácticas
- estructura argumental y papeles temáticos
- clase semántica verbal
- tipo denotativo de los nombres deverbales
- sentidos de WordNet nominales
- entidades nombradas
- relaciones de correferencia
El corpus de cada lengua contiene 500.000 paraules y están constituidos fundamentalmente por textos periodísticos. Para más información, AnCora-corpus.
Como resultado del proceso de anotación se dispone también de dos léxicos verbales, AnCora-Verb, de 2.647 entradas para el español y 2.143 entradas para el catalán, y de un léxico de nominalizaciones deverbales, AnCora-Nom, de 1.600 entradas para el español. La información contenida en estos léxicos es la siguiente:
Ancora-Verb | Ancora-Nom |
Clase semántica Subcategorización Estructura Argumental y Papeles temáticos |
Tipo denotativo Synset de WordNet Estructura Argumental y Papeles temáticos Verbo del que deriva |
Han participado en la anotación de los corpus AnCora:
Joan Aparicio Mena, Oriol Borrega Cepa, Isabel Briz Hernández, Núria Bufí Cabrol, Montserrat Civit Torruella, María Jesús Díaz Cabrera, Silvia Garcia Casaseca, Raquel Hernández Bitinas, Marina Lloberes Salvatella, Raquel Marcos, Difda Monterde, Borja Navarro, Aina Peris Morant, Lourdes Puiggròs Casals, Marta Recasens Potau, Alba Rodríguez, Bàrbara Soriano Bautista, Rita Zaragoza Jové.
Han participado en la creación de los léxicos AnCora-Verb y AnCora-Nom:
Joan Aparicio Mera, Ester Arias Valor, Oriol Borrega Cepa, Patricia fernández, Difda Monterde, Aina Peris Morant, Lourdes Puiggrós Casals, Marta Recasens Potau, Bàrbara Soriano Bautista, Rita Zaragza Jové.