Parc Científic de Barcelona  
Edifici Florensa c/ d'Adolf Florensa s/n  
08028 Barcelona  

AnCora

AnCora es un corpus del catalán y del español con diferentes niveles de anotación:

  • categoría morfológica
  • constituyentes y funciones sintácticas
  • estructura argumental y papeles temáticos
  • clase semántica verbal
  • sentidos de WordNet nominales
  • entitades nombradas
  • correferencia

Como resultado del proceso de anotación se dispone también de dos léxicos verbales
de 2.580 entradas para el español y 2.142 entradas para el catalán con
información sobre la clase semántica del verbo y la subcategorización
sintáctica, la estructura argumental y los roles temáticos para  cada
uno de los sentidos.

El corpus de cada lengua contiene 500.000 palabras.

El corpus AnCora está constituido fundamentalmente por textos periodísticos.

Acceso al corpus AnCora.