AnCora

AnCora és un corpus del català (AnCora-CA) i de l'espanyol (AnCora-ES) amb diferents nivells d'anotació:

lema i categoria morfològica
constituents i funcions sintàctiques
estructura argumental i papers temàtics
classe semàntica verbal
tipus denotatiu dels noms deverbals
sentits de WordNet nominals
entitats nombrades
relacions de correferència

El corpus de cada llengua conté 500.000 paraules i estan constituïts majoritàriament per textos periodístics. Per a més informació vegeu el document AnCora-corpus.

Com a resultat del procés d'anotació es disposa també de dos lèxics verbals, AnCora-Verb, de 2.647 entrades per a l'espanyol i 2.143 entrades per al català, i d'un lèxic de nominalitzacions deverbals, AnCora-Nom, de 1.600 entrades per a l'espanyol. La informació que contenen aquests lèxics és la següent:

Ancora-Verb

Ancora-Nom

Classe semàntica

Subcategorització

Estructura Argumental i Papers temàtics

Tipus denotatiu

Synset de WordNet

Estructura Argumental i Papers temàtics

Verb del qual deriva

Han participat en l'anotació dels corpus AnCora:

Joan Aparicio Mena, Oriol Borrega Cepa, Isabel Briz Hernández, Núria Bufí Cabrol, Montserrat Civit Torruella, María Jesús Díaz Cabrera, Silvia Garcia Casaseca, Raquel Hernández Bitinas, Marina Lloberes Salvatella, Raquel Marcos, Difda Monterde, Borja Navarro, Montserrat Nofre Maiz, Aina Peris Morant, Lourdes Puiggròs Casals, Marta Recasens Potau, Alba Rodríguez, Bàrbara Soriano Bautista, Rita Zaragoza Jové.

Han participat en la creació dels lèxics AnCora-Verb i AnCora-Nom:

Joan Aparicio Mera, Ester Arias Valor, Oriol Borrega Cepa, Patricia Fernández Carrelo, Difda Monterde, Aina Peris Morant, Lourdes Puiggrós Casals, Marta Recasens Potau, Bàrbara Soriano Bautista, Rita Zaragza Jové.