Vés al contingut

AnCora

AnCora és un corpus del català (AnCora-CA) i de l'espanyol (AnCora-ES) amb diferents nivells d'anotació:

  • lema i categoria morfològica
  • constituents i funcions sintàctiques
  • estructura argumental i papers temàtics
  • classe semàntica verbal
  • tipus denotatiu dels noms deverbals
  • sentits de WordNet nominals
  • entitats nombrades
  • relacions de correferència

El corpus de cada llengua conté 500.000 paraules i estan constituïts majoritàriament per textos periodístics. Per a més informació vegeu el document AnCora-corpus.

Com a resultat del procés d'anotació es disposa també de dos lèxics verbals, AnCora-Verb, de 2.647 entrades per a l'espanyol i 2.143 entrades per al català, i d'un lèxic de nominalitzacions deverbals, AnCora-Nom, de 1.600 entrades per a l'espanyol. La informació que contenen aquests lèxics és la següent:

Ancora-Verb Ancora-Nom

Classe semàntica

Subcategorització

Estructura Argumental i Papers temàtics

    Tipus denotatiu

    Synset de WordNet

    Estructura Argumental i Papers temàtics

    Verb del qual deriva

      Han participat en l'anotació dels corpus AnCora:

      Joan Aparicio Mena, Oriol Borrega Cepa, Isabel Briz Hernández, Núria Bufí Cabrol, Montserrat Civit Torruella, María Jesús Díaz Cabrera, Silvia Garcia Casaseca, Raquel Hernández Bitinas, Marina Lloberes Salvatella, Raquel Marcos, Difda Monterde, Borja Navarro, Aina Peris Morant, Lourdes Puiggròs Casals, Marta Recasens Potau, Alba Rodríguez, Bàrbara Soriano Bautista, Rita Zaragoza Jové.

      Han participat en la creació dels lèxics AnCora-Verb i AnCora-Nom:

      Joan Aparicio Mera, Ester Arias Valor, Oriol Borrega Cepa, Patricia fernández, Difda Monterde, Aina Peris Morant, Lourdes Puiggrós Casals, Marta Recasens Potau, Bàrbara Soriano Bautista, Rita Zaragza Jové.

      logo_ministerio_ciencia_innovacionpastilla_plan_nacional_idilogotextmessagaur