AnCora

AnCora es un corpus del catalán (AnCora-CA) y del español (AnCora-ES) con diferentes niveles de anotación:

lema y categoría morfológica
constituyentes y funciones sintácticas
estructura argumental y papeles temáticos
clase semántica verbal
tipo denotativo de los nombres deverbales
sentidos de WordNet nominales
entidades nombradas
relaciones de correferencia

El corpus de cada lengua contiene 500.000 paraules y están constituidos fundamentalmente por textos periodísticos. Para más información, AnCora-corpus.

Como resultado del proceso de anotación se dispone también de dos léxicos verbales, AnCora-Verb, de 2.647 entradas para el español y 2.143 entradas para el catalán, y de un léxico de nominalizaciones deverbales, AnCora-Nom, de 1.600 entradas para el español. La información contenida en estos léxicos es la siguiente:

Ancora-Verb

Ancora-Nom

Clase semántica

Subcategorización

Estructura Argumental y Papeles temáticos

Tipo denotativo

Synset de WordNet

Estructura Argumental y Papeles temáticos

Verbo del que deriva

Han participado en la anotación de los corpus AnCora:

Joan Aparicio Mena, Oriol Borrega Cepa, Isabel Briz Hernández, Núria Bufí Cabrol, Montserrat Civit Torruella, María Jesús Díaz Cabrera, Silvia Garcia Casaseca, Raquel Hernández Bitinas, Marina Lloberes Salvatella, Raquel Marcos, Difda Monterde, Borja Navarro, Montserrat Nofre Maiz, Aina Peris Morant, Lourdes Puiggròs Casals, Marta Recasens Potau, Alba Rodríguez, Bàrbara Soriano Bautista, Rita Zaragoza Jové.

Han participado en la creación de los léxicos AnCora-Verb y AnCora-Nom:

Joan Aparicio Mera, Ester Arias Valor, Oriol Borrega Cepa, Patricia Fernández Carrelo, Difda Monterde, Aina Peris Morant, Lourdes Puiggrós Casals, Marta Recasens Potau, Bàrbara Soriano Bautista, Rita Zaragza Jové.