Parc Científic de Barcelona  
Edifici Florensa c/ d'Adolf Florensa s/n  
08028 Barcelona  

Projectes

Projectes vigents

Text-Knowledge 2.0: El modelado de conocimiento ante los nuevos retos de la comunicación digital. Subprojecte del projecte TEXT-MESS 2.0 coordinat per Patricio Masrtínez, de la Universitat d’Alacant. Finançament: Ministerio de Educación y Ciencia, programa de I+D (TIN2009-13391-C04-04). Participants: Universitat d’Alacant, Universitat Politècnica de València, Universitat de Barcelona i Universidad de Jaén. Descripció: desenvolupament i adaptació de recursos, eines  i mètodes de TLH per a la modelització, anàlisi i tractament d'informació tant explícita como no explícita necessària per afrontar el processament del llenguatge natural en els seus diferents registres i modalitats  en el marc de la web 2.0. Coordinador del subprojecte: M. Antònia Martí. Durada: 2009-2012.

ANCORA-NET: Integración multilingüe de recursos lingüísticos semánticos. Finançament: Ministerio de Ciencia y Innovación, Acción Complementaria (FFI2009-06497-E/FILO). Participants: Universitat de Barcelona (CLiC-Centre de llenguatge i Computació). Descripció: Integració dels lèxics verbals AnCora-Verb, del català i de l'espanyol, i EPEC-ADI de l'euskera, en l'Unified Verb Index de l'anglès, per donar lloc a un lèxic multilingüe. Aquesta integració permetrà enriquir els lèxics esmentats amb informació semàntica de VerbNet, WordNet, OntoNotes i FrameNet. Coordinador del projecte: Mariona Taulé Delor. Durada: 2010.  

ClINT: Codificación y transcripción ortográfica y fonética de un corpus oral de entrevistas médico-paciente Finançament: Ministerio de Ciencia y Innovación, Acción Complementaria (FFI2009-06252-E/FILO). Participants: Universitat de Barcelona (CLiC-Centre de llenguatge i Computació) i Universitat Autònoma de Barcelona Descripció:  Codificar i transcriure ortogràficament i fonètica el corpus ClINT (Clinical Interviews) , obtingut a partir de la gravació digital de 40 entrevistes metge-pacient. Cordinador del projecte: M. Antònia Martí Antonín. Durada: 2010. 

Lang2World: Descubriendo el conocimiento del mundo codificado en la lengua. Subprojecte del projecte TEXT-MESS coordinat per Patricio Martínez, de la Universitat d’Alacant. Finançament: Ministerio de Educación y Ciencia, programa de I+D (TIN2006-15265-C06-06). Participants: Universitat d’Alacant, Universitat Politècnica de València, Universitat de Barcelona, Universitat Politècnica de Catalunya, Universidad de Jaén, Universidad Nacinal de Educación a Distancia. Descripció: Combinació de tècniques estadístiques i coneixement lingüístic per al tractament sintàctic i semàntic del llenguatge. Coordinador del subprojecte: M. Antònia Martí.Durada: 2006-2009.

ESPAL: Una macro-base de 300 millones de palabras en español con índices semánticos, ortográficos, y fonológicos. Finançament:  Ministerio de Educación y Ciencia, programa nacional: Ciencias sociales, Económicas y Jurídicas (HUM2007-30271-E/FILO).  Participants: Universitat de Barcelona y Fundación IBERBASKE. Descripció: Creació de una macro base de paraules en espanyol amb una interfície via web que inclourà índexs ortogràfics, fonològics i semàntics. El corpus sobre el qual es realitzarà serà de 300 millons de paraules. Coordinador del projecte: Manuel Carreiras Valiña. Duración: 2008-2010.

ANCORA-NOM: Anotación semántica del SN en los corpus AnCora. Finançament: Ministerio de Ciencia y Innovación, Acción Complementaria(FFI2008-02691-E/FILO). Participants: Universitat de Barcelona (CLiC-Centre de llenguatge i Computació). Descripció: Extensió dels corpus AnCora amb l'anotació de l'estructura argumental dels noms. Coordinador del projecte: Mariona Taulé Delor. Durada: 2009.

CEsCa-III: El coneixement ortogràfic al llarg de l'escolaritat obligatòria: tipologia d'errors i relacions amb altres nivells lingüístics. Finançament: Generalitat de Catalunya, AGAUR, programa ARIE-DGR (2008ARIE-00053). Participants: Universitat de Barcelona, Universitat Autònoma de Barcelona, Professors d'Ensenyament primari i secundari. Descripció: Processament lingüístic del corpus del català escolar escrit, CEsCA. Coordinador del projecte: Liliana Tolchinsky Brenmann. Durada: 2009.

DigitalCor-UB. Finançament: Universitat de Barcelona, Convocatòria d'ajuts per a iniciatives de recerca en els àmbits de les humanitats i les ciències socials. Participants: CLiC, GRERLI, Unitat d'Estudis Biogràfics i Graecia Capta (grups de recerca consolidats de la Universitat de Barcelona).  Descripció: Creació d'un espai web dins de la Universitat de Barcelona on s'aplegaran els corpus desenvolupats pels equips de recerca que així ho desitgin. Coordinador del projecte: M. Antònia Martí Antonín. Durada: 2009. 

TiMM: Red Temática: Tratamiento de Información Multimodal y Multilingüe. Finançament: Ministerio de Ciencia e Innovación, programa de Acciones Complementarias (TSI2007-30967-E). Participants: Xarxa temàtica en la qual hi participen 29 grups de recerca d'Universitats diferents. Descripció: Fomentar la recerca en Tecnologies del Tractament d'Informació Multilingüe i Multimodal i la coordinació de les seves activitats amb la finalitat d'establir una infrasestructura comú de recerca. Coordinador del projecte: Alfonso Ureña. Durada: 2009.

 

Projectes finalitzats

CEsCa-II: Corpus Escrit del Català escolar. Finançament: Generalitat de Catalunya, AGAUR, programa ARIE (2007ARIE-00005). Participants: Universitat de Barcelona, Universitat Autònoma de Barcelona, Professors d'Ensenyament primari i secundari. Descripció: Processament lingüístic del corpus del català escolar escrit, CEsCA. Coordinador del projecte: Liliana Tolchinsky Brenmann. Durada: 2008. 

TIMMRed Temática en Tratamiento de la Información Multilingüe y Multimodal. Finançament: Ministerio de Educación y Ciencia, programa de Tecnologías Informáticas (TIN2006-28218-E). Participants: 29 grups de recerca d'arreu d'Espanya. Descripció: Fomentar la recerca en Tecnologies del Tractament d'Informació Multilingüe i Multimodal i la coordinació de les seves activitats per tal d'establir una infrasestructura comú de recerca. Coordinador del projecte: Alfonso Ureña. Durada: 2008.

Praxem, etiquetado semántico y pragmático del corpus CESS-ECE. Finançament: Ministerio de Educación y Ciencia, programa nacional de humanidades (HUM2006-27378-E). Participants: Universitat de Barcelona (CLiC-Centre de llenguatge i Computació), Universitat Politècnica de Catalunya, Universitat del País Basc, Universitat d'Alacant. Descripció: Anotació de corpora amb informació semàntica i pragmàtica. Coordinador del projecte: Mariona Taulé Delor. Durada: 2007-2008. 

CEsCa: Corpus Escrit del Català escolar. Finançament: Generalitat de Catalunya, AGAUR, programa ARIE (2006ARIE-10058). Participants: Universitat de Barcelona, Universitat Autònoma de Barcelona, Professors d'Ensenyament primari i secundari. Descripció: Recopilacií i digitalització d'un corpus del català escrit per escolars de 5 a 17 anys de Catalunya. Coordinador del projecte: Liliana Tolchinsky Brenmann. Durada: 2007.

Arabic WordNet. Finançament: Govern dels Estats Units. Participants: Universitat de Princeton (USA), Universitat de Manchester (UK), Universitat Politècnica de Catalunya. La Universitat de Barcelona col·labora amb la UPC. Descripció: Desenvolupament del WordNet de la llengua àrab, seguint el procé de desenvolupament de  WordNet i de EuroWordNet. Coordinador del projecte: Chriatiane Fellbaum (USA). Durada: 2006-2007.

Dialcat: Analizador morfosintáctico de corpus dialectales del catalán. Finançament: Ministerio de Educación y Ciencia, programa nacional de humanidades (HUM2005-24445-E) Participants: Universitat de Barcelona (Departament de Lingüística i Departament de Filologia Catalana). Descripció: Desenvolupament d’un analitzador morfològic de textos dialectals del català. Coordinador del projecte: M. Antònia Martí. Durada: 2006-2007.

Histocat: Analizador morfosintáctico de textos históricos del catalán. Finançament: Ministerio de Educación y Ciencia, programa nacional de humanidades (HUM2005-24438-E). Participants: Universitat de Barcelona (Departament de Lingüística i Departament de Filologia Catalana). Descripció: Desenvolupament d’un analitzador morfològic de textos històrics del català. Coordinador del projecte: Pilar Perea. Durada: 2006-2007.

TIMMRed Temática en Tratamiento de la Información Multilingüe y Multimodal. Finançament: Ministerio de Educación y Ciencia, programa de Tecnologías Informáticas (TIN2005-25825-E). Participants: 29 grups de recerca d'arreu d'Espanya. Descripció: Fomentar la recerca en Tecnologies del Tractament d'Informació Multilingüe i Multimodal i la coordinació de les seves activitats per tal d'establir una infrasestructura comú de recerca. Coordinador del projecte: Alfonso Ureña. Durada: 2007.

CESS-ECE: Corpus Etiquetado Sintáctica y Semánticamente del Euskera, Catalán y Español. Finançament: Ministerio de Educación y Ciencia, programa nacional de humanidades (HUM2004-21127-E). Participants: Universitat de Barcelona, Universitat Politècnica de Catalunya, Universitat del País Basc, Universitat d’Alacant. Descripció: Banc de dades sintàctic anotat amb constituents i funcions de 500.000 paraules per al català, castellà i euskara. Coordinador del projecte: M. Antònia Martí. Durada: 2005-2007.

Ceres: Cerca de respostes. Finançament: Projecte subvencionat per la Generalitat de Catalunya. Participants: Universitat de Barcelona (CLiC i Serveis Lingüístics), Thera SL i VilaWEB. Descripció: Desenvolupament d’un sistema de cerca de respostes en un portal WEB de notícies. Coordinador del projecte: M. Antònia Martí. Durada: 2005-2006.

SisCoTTerm: un sistema de correcció de textos i tractament de terminologia.  Finançament: Ajuts a la Recerca. Direcció General d'Universitats. Departament d'Ensenyament de la Generalitat de Catalunya. Participants: Universitat de Barcelona (CLiC i Serveis Lingüístics). Descripció: Coordinador del projecte: M. Antònia Martí. Durada: 2005-2006.

Trujiman: Identificación, Traducción y Clasificación de contenidos en Árabe. Finançament: Ministerio de Industria, Turismo y Comercio, Programa Profit (FIT-330100-2006-198); Generalitat de Catalunya (RDISTCON06-1-0020). Participants: THERA-Centre de Llenguatge i Computació SL, Translendium SL, Verbia SL, Universitat de Barcelona (CLiC). Descripció: Tractament semàntic de la informació. Coordinador del projecte: THERA SL. Durada: 2006.

Gamilen: Generació automàtica de documentació mèdica. Finançament: Ministerio de Industria, Turismo y Comercio, Programa Profit (FIT-350300-2006-93). Participants: THERA-Centre de Llenguatge i Computació SL, UDIAT (Parc Taulí), Vico SL, Universitat de Barcelona (CLiC). Descripció: Generació automàtica multilingüe d’informes en llenguatge natural. Coordinador del projecte: THERA SL. Durada: 2006.

CODEX SEARCH: Aplicació de models lingüístics per a la implementació d'un cercador local especialitzat en el domini de la immigració i l'estrangeria. Finançament: Generalitat de Catalunya, programa AMIC (2005 AMIC 10006). Participants: Universitat de Barcelona. Descripció: Desenvolupament d’un cercador local en el domini d’immigració i d'estrangeria. Coordinador del projecte: M. Antònia Martí . Durada: 2005.

Ingeniería lingüística para el idioma gallego y problemas de traducción automática de lenguas próximas. Finançament: Ministerio de Ciencia y Tecnología (FIT-150500-2003-161). Coordinador del projecte: Nieves Brisaboa Rodríguez (U. de Coruña). Participants: CLiC (UB) i Real Academia Galega. Durada: 2003.

3LB:Creación de una base de datos de árboles sintáctico-semánticos. Finançament: Ministerio de Ciencia y Tecnología, programa PROFIT (FIT-150500-2003-411)i (FIT-150500-2002-24).   Participants: Universitat d'Alacant, Universitat de Barcelona, Universitat del País Basc, Universitat de València i Universitat Politècnica de Catalunya. Descripcíó: Creació d'un banc de dades d'arbres analitzats sintàcticamente amb constituents i funcions sintàctiques de 100.000 paraules per a cada llengua (català, castellà i euskera). Coordinador del projecte: Manuel Palomar (coordinador). Subprojecte UB: M.Antònia Martí. Durada: 2002-2003.

X-TRACT2: Plataforma de recursos de Ingeniería Lingüística Finançament: Ministerio de Educación y Cultura. Programa Promoción General del Conocimiento (BFF2002-04226-C03-03). Participants: Universitat de Barcelona i Universitat A Coruña. Coordinador del projecte: M.Antònia Martí, CLiC (UB).  Durada: 2002-2005.

Adquisición de conocimiento léxico-gramatical a partir de corpora para el enriquecimiento de EuroWordNet con información colocacional. Finançament: Ministerio de Ciencia y Tecnología (HA2002-0089). Participants: Universitat de Barcelona i Universitat de Stuttgart. Descripció: Identificació de les relacions de coocurrència restringida (col·locacions) a partir de corpus i la seva inclusió i representació a EuroWordNet. Coordinador del projecte: M.Antònia Martí.  Durada: 2002.

PETRA: Interfaces orales para aplicaciones avanzadas de mensajería unificada. Finançament: Comisión Interministerial de Ciencia y Tecnología (CICYT), programa Nacional de Promoción General del Conocimiento (TIC2000-1735-CO2). Participants: Universitat Politècnica de Catalunya, Universitat de Barcelona. Coordinador del projecte: Francisco Javier Hernan Pericas. Durada: 2001-2003.

Locutor Virtual. Finançament: Ministerio de Ciencia y Tecnología, programa PROFIT (FIT-150500-2002-410) Coordinador: Escola Superior de Telecomunicacions de La Salle (Universitat Ramon Llull). Coordinador del projecte: Ignasi Iriondo. CLiC va participar-hi com a subcontractat. Durada: 2002.

IURISERVICE. Red Telemática de soporte a los jueces en su primer destino dependiente al consejo general de poder judicial Finançament: Ministerio de Ciencia y Tecnología (FIT-150500-02-562) Coordinador del projecte: Universitat Autònoma de Barcelona. CLiC va participar-hi com a subcontractat. Durada. 2002.

Tematización, reorganización y actualización de la Base de datos léxico-semántica del español EuroWordNet. Finançament: Ministerio de Ciencia y Tecnología (PGC 2000-2658-E). Coordinador del projecte: M.Antònia  Martí (UB). Durada: 2000-2002.

X-TRACT. Integración de recursos lingüísticos para la extracción de información de corpus textuales y diccionarios. Finançament: Ministerio de Educación y Cultura. Programa sectorial de promoción general del conocimiento (PB98-1226)Coordinador del projecte: M.Antònia Martí (UB). Durada: 1999-2002.

ACIMET: Accés a la Informació Meteorològica per Telèfon. Finançament: DURSI (Departament d'Universitats, Recerca i Societat de la Informació) i Departament de Medi Ambient.  Participants:TALP (Universitat Politècnica de Catalunya), Universitat Autònoma de Barcelona, Servei Meteorològic de Catalunya. CLiC va participar-hi com a subcontractada de la UPC. Durada: 2001.

VOLEM: Verbos: Organización Léxica Multilingüe. Finançament: Ministerio de Educación y Cultura (ABM7acs/XTI-CTP 2000-1). Coordinador del projecte: M.Antònia Martí (UB). Durada: 2000-2001.

PROEBI: Estudi dels sistemes d´ensenyament de les llengües indígenes a Perú i dels seus recursos didàctics. Finançament: Fundació Bosch i Gimpera.  Expert: M.Antònia Martí (UB). Durada: 1999-2002.

Lexesp-III: Base de datos informatizada de la lengua española. Finançament: DGICYT, Secretaría de Estado de Universidades e Investigación (APC 99-0105). Coordinador del projecte: Dra. Núria Sebastián (UB), Participants: Universitat de Barcelona. Durada: 1999-2000.

RILE: Servidor de recursos para el desarrollo de la ingeniería lingüística en Español. Finançament: MINER, Ministerio de Industria y Energía. Programa: Iniciativa ATYCA. Coordinador del projecte: SEMA GROUP, S.A. Participants: Universitat de Barcelona, Universidad Nacional de Educación a Distancia, Universitat Politècnica de Catalunya, OEIL.  Durada: 1999-2000.

WordNet del Català. Finançament: CREL (Centre de Referència d'Enginyeria Lingüística), Generalitat de Catalunya. Coordinadors del projecte: Horacio Rodríguez (UPC) i M.A. Martí (UB). Durada: 1998-2000.

SCRIPTUM. Desenvolupament d´un processador del llenguatge clínic. Finançament: CIDEM, Centre d'Informació i Desenvolupament Empresarial de la Generalitat de Catalunya. Coordinador del projecte: Dr. Eduard Spagnolo. Col•laboradors: M.A. Martí (UB). Durada. 1998-1999.

ITEM. Recuperació de la informació textual multilingüe. Finançament: CICYT (TIC-96 1243-C03-02). Participants: Universitat de Barcelona, Universitat Politècnica de Catalunya, Universidad Nacional de Educación a Distancia, Universitat del País Basc. Coordinador del projecte: H. Rodríguez. Durada: 1996.

Lexesp-II: Base de datos informatizada de la lengua española. Finançament: DGICYT (96-0125). Participants: Universitat de Barcelona. Coordinador del projecte: N. Sebastián (UB). Durada: 1996.

Lexesp-I: Base de datos informatizada de la lengua española. Finançament: DGICYT (APC 93-0122) Participants: Universitat de Barcelona. Coordinador del projecte: N. Sebastián (UB). Durada: 1993.

Recuperación de información textual multilingüe. Finançament: Secretaría de Estado de Universidades e Investigación Coordinador del projecte:F. Verdejo (UNED). Col•laboradors: M.Antònia Martí (UB). Durada: 1996-1999.

Traducción automática asistida por ordenador. Finançament: Agencia Española de Cooperación Internacional del Ministerio de Asuntos Exteriores (946 Fundació Bosch i Gimpera). Coordinador del projecte: M.Antònia Martí (UB). Durada. 1990-1995.

Un corrector ortogràfic per a la llengua espanyola. Finançament:  Comunitat Econòmica Europea (ESPRIT-TWB 2315), Siemens S.A. Participants: Siemens S.A. i Universitat de Barcelona. Coordinador del projecte: M.Antònia Martí (UB). Durada: 1990-1991.

NAMIC. News Agencies Multilingue Information Categorization. Finançament: Unió Europea, Vº Programa Marc. (IST-1999-12392) Coordinador a Espanya: UPC, Departament de Llenguatges i Sistemes Informàtics. CLiC va participar-hi com a subcontractat. Durada: 2000-2002.

EuroWordNet. Finançament: Unió Europea, Programa: Linguistic Research Engineering, LRE. Participants: Universitat d'Amsterdam, Universitat de Barcelona, Universitat Politècnica de Catalunya, Universidad Nacional de Educación a Distancia, Istituto Computazionale di Pisa, University of Sheffield, Coordinador del projecte: Piek Vossen (Universitat d'Amsterdam). A Espanya coordinat per: Felisa Verdejo (UNED).  Durada: 1996-1999.

Interacción comunicativa y computación: Modelos para un análisis global del diálogo. Finançament: Secretaría de Estado de Universidades e Investigación. Programa Nacional de Promoción General del Conocimiento (PB91-0854). Coordinador del projecte: Sebastià Serrano Farrera. Durada: 1992-1995.

Acquilex-II (Lexical Acquisition). Finançament: Comunitat Econòmica Europea, Programa: ESPRIT-7315. Coordinador del projecte: Edward Briscoe (Cambridge Computer Laboratory, UK). A Espanya: F. Verdejo (UNED). Participant: M.A. Martí (UB). Durada: 1992-1995.

Acquilex (Lexical Acquisition). Finançament: Comunitat Econòmica Europea, Programa: ESPRIT-3030. Coordinador del projecte: Antonio Zampolli (Istituto di Lingüistica Computazionale, Pisa) A Espanya coordinat per: F. Verdejo (UPC). Col•laboració: M.A. Martí (UB). Durada: 1989-1992.