Vés al contingut

Linguistic Data Consortium presenta Catalan TimeBank 1.0

Catalan TimeBank 1.0 ha estat desenvolupat per investigadors de Barcelona Media, i consta de textos catalans procedents del corpus AnCora anotats amb informació temporal, segons les especificacions del llenguatge TimeML.

Catalan TimeBank 1.0 conté anotacions de 210 documents . Els textos procedeixen de l'agència de notícies EFE, de l'agència catalana de notícies ACN i de la versió en català del diari El Periódico, i comprén el període gener-desembre de 2000.

El corpus AnCora és el corpus més gran en espanyol i català amb anotacions múltiples. Conté 400.000 paraules en espanyol i 275.000 in català. Els textos d'AnCora estan anotats a diferents nivells lingüístics, incloent estructura, sintaxi, dependències, semàntica i pragmàtica.és un corpus d'accés gratuït.