AnCora és un corpus del català (AnCora-CA) i de l'espanyol (AnCora-ES) amb diferents nivells d'anotació:
- lema i categoria morfològica
- constituents i funcions sintàctiques
- estructura argumental i papers temàtics
- classe semàntica verbal
- tipus denotatiu dels noms deverbals
- sentits de WordNet nominals
- entitats nombrades
- relacions de correferència
El corpus de cada llengua conté 500.000 paraules i estan constituïts majoritàriament per textos periodístics. Per a més informació vegeu el document AnCora-corpus.
Com a resultat del procés d'anotació es disposa també de dos lèxics verbals, AnCora-Verb, de 2.647 entrades per a l'espanyol i 2.143 entrades per al català, i d'un lèxic de nominalitzacions deverbals, AnCora-Nom, de 1.600 entrades per a l'espanyol. La informació que contenen aquests lèxics és la següent:
Ancora-Verb | Ancora-Nom |
Classe semàntica Subcategorització Estructura Argumental i Papers temàtics |
Tipus denotatiu Synset de WordNet Estructura Argumental i Papers temàtics Verb del qual deriva |
Han participat en l'anotació dels corpus AnCora:
Joan Aparicio Mena, Oriol Borrega Cepa, Isabel Briz Hernández, Núria Bufí Cabrol, Montserrat Civit Torruella, María Jesús Díaz Cabrera, Silvia Garcia Casaseca, Raquel Hernández Bitinas, Marina Lloberes Salvatella, Raquel Marcos, Difda Monterde, Borja Navarro, Aina Peris Morant, Lourdes Puiggròs Casals, Marta Recasens Potau, Alba Rodríguez, Bàrbara Soriano Bautista, Rita Zaragoza Jové.
Han participat en la creació dels lèxics AnCora-Verb i AnCora-Nom:
Joan Aparicio Mera, Ester Arias Valor, Oriol Borrega Cepa, Patricia fernández, Difda Monterde, Aina Peris Morant, Lourdes Puiggrós Casals, Marta Recasens Potau, Bàrbara Soriano Bautista, Rita Zaragza Jové.