Projectes

Projectes vigents

DIANA-Construcciones: Buscando el conocimiento oculto en los textos. Subprojecte del projecte DIANA: DIscourse ANAlysis for knowledge understanding (TIN2012-38603) coordinat per Paolo Rosso, de la Universitat Politècnica de València. Finançament: Ministerio de Economía y Competitividad, programa de I+D (TIN2012-38603-C02-02). Participants: Universitat Politècnica de València i Universitat de Barcelona. Descripció: L'objectiu general és desenvolupar eines de processament del llenguatge i recursos lingüístics d'acord amb el model teòric i adequades per tractar aspectes complexes del PLN com la coreferència d'entitats i events, els arguments implícits i la paràfrasi i el tractament del llenguatge subjectiu tal com es produeix en els mitjans de comunicació social.

IP: M. Antònia Martí Antonín. Durada: 2013-2016.

Mòdul Pedagògic en un Sistema Tutor Intel·ligent per a predir l’evolució de l’alumnat. Finançament:Vicerectorat de Política Docent, Universitat de Barcelona (2014PID‐UB/030). Participants: Universitat de Barcelona.

IP: Maria Salamo Llorente. Durada: 2014.

La redacció acadèmica com a eina d’aprenentatge: escriure per aprendre EPA. Finançament: Institutat de Ciències de l'Educació, Universitat de Barcelona (REDICE-1306). Participants: Universitat de Barcelona.

IP: Liliana Tolchinsky. Durada: 2014.

 

Projectes finalitzats

El treball col·laboratiu i les TIC en la redacció del treball de grau. Finançament:Vicerectorat de Política Docent i Científica, Universitat de Barcelona (2012PID‐UB/112). Participants: Universitat de Barcelona.

IP: Mariona Taulé Delor. Durada: 2013

Iarg-AnCora: Anotación de los corpus AnCora con argumentos implícitos. Finançament: Ministerio de Ciencia e Innovación, Acción Complementaria (FFI2011-13737-E. Subprograma FILO). Participants: Universitat de Barcelona, Universitat Politècnica de Catalunya, Universitat Politècnica de València. Descripció: IARG-AnCora tiene como objetivo enriquecer los corpus AnCora del español y catalán con la anotación de los argumentos implícitos de las nominalizaciones deverbales con papeles temáticos. Actualmente sólo se han anotado los argumentos explícitos de estos nombres.

IP: Mariona Taulé Delor. Durada: 2012.

Text-Knowledge 2.0: El modelado de conocimiento ante los nuevos retos de la comunicación digital. Subprojecte del projecte TEXT-MESS 2.0 coordinat per Patricio Martínez, de la Universitat d’Alacant. Finançament: Ministerio de Ciencia e Innovación, programa de I+D (TIN2009-13391-C04-04). Participants: Universitat d’Alacant, Universitat Politècnica de València, Universitat de Barcelona i Universidad de Jaén. Descripció: desenvolupament i adaptació de recursos, eines  i mètodes de TLH per a la modelització, anàlisi i tractament d'informació tant explícita como no explícita necessària per afrontar el processament del llenguatge natural en els seus diferents registres i modalitats  en el marc de la web 2.0.

IP: M. Antònia Martí Antonín. Durada: 2010-2012.

Araknion: Inducción de modelos lingüísticos Finançament: Ministerio de Ciencia e Innovación, Acción Complementaria (FFI2010-114774-E. Subprograma FILO). Participants: Universitat de Barcelona, Universidad de Alicante, Universitat Politècnica de Catalunya. Descripció: Araknion té com a objectiu general dotar a l'español i català d'una infraestructura bàsica de recursos lingüístics per al processament semàntic de corpus en el marc de la Web 2.0. Són dos els objetius concrets: (1) Creació d'Araknion-Lex, una xarxa de relacions lèxiques obtingudes a partir de corpus aplicant la hipòtesi de similitud contextual. (2) La construcció d'Araknion-Arg, una infraestructura tecnològica per a l'anotació automàtica de corpus de llengua espontània amb papers temàtics i la creació d'Araknion-ES, un corpus anotat parcialment amb aquesta informació.

IP: M. Antònia Martí Antonín. Durada: 2011.

La coreferència entesa com un contínuum: Validació interlingüística i marc computacional Finançament: Generalitat de Catalunya, Projecte Batista i Roca (2010 PBR 00039). Participants: Universitat de Barcelona, University of Wolverhampton. Descripció: L’objectiu del projecte és avançar en el coneixement sobre la coreferència, en concret, validar el model lingüístico-cognitiu de ‘quasi-identitat’ basat en els espais mentals de Fauconnier proposat en treballs anteriors (Recasens, 2010) mitjançant: (i) verificació experimental de l’adequació cognitiva del marc teòric de la quasi-identitat; (ii) comprovació de la seva validesa en diferents llengües (català i anglès); (iii) difusió de la proposta teòrica; i (iv) reorientar l’enfocament computacional del problema.

IP: M. Antònia Martí Antonín. Durada: 2011.

TiMM: Red Temática: Tratamiento de Información Multimodal y multilingüe. Finançament: Ministerio de Ciencia e Innovación, programa de Acciones Complementarias (TIN2005-25825-E, TIN2006-28218-, TSI2007-30967-E, TSI2007-30977-E, TIN2009-06135-E). Participants: Xarxa temàtica en la qual hi participen 29 grups de recerca d'Universitats diferents. Descripció: Fomentar la recerca en Tecnologies del Tractament d'Informació Multilingüe i Multimodal i la coordinació de les seves activitats amb la finalitat d'establir una infrasestructura comú de recerca.

IP: Alfonso Ureña López. Durada: 2009-2011.

ANCORA-NET: Integración multilingüe de recursos lingüísticos semánticos. Finançament: Ministerio de Ciencia e Innovación, Acción Complementaria (FFI2009-06497-E/FILO). Participants: Universitat de Barcelona (CLiC-Centre de llenguatge i Computació). Descripció: Integració dels lèxics verbals AnCora-Verb, del català i de l'espanyol, i EPEC-ADI de l'euskera, en l'Unified Verb Index de l'anglès, per donar lloc a un lèxic multilingüe. Aquesta integració permetrà enriquir els lèxics esmentats amb informació semàntica de VerbNet, WordNet, OntoNotes i FrameNet.

IP: Mariona Taulé Delor. Durada: 2010.  

ClINT: Codificación y transcripción ortográfica y fonética de un corpus oral de entrevistas médico-paciente Finançament: Ministerio de Ciencia e Innovación, Acción Complementaria (FFI2009-06252-E/FILO). Participants: Universitat de Barcelona (CLiC-Centre de llenguatge i Computació) i Universitat Autònoma de Barcelona. Descripció: Codificar i transcriure ortogràficament i fonètica el corpus ClINT (Clinical Interviews), obtingut a partir de la gravació digital de 40 entrevistes metge-pacient.

IP: M. Antònia Martí Antonín. Durada: 2010. 

ESPAL: Una macro-base de 300 millones de palabras en español con índices semánticos, ortográficos, y fonológicos. Finançament: Ministerio de Educación y Ciencia, programa nacional: Ciencias sociales, Económicas y Jurídicas (HUM2007-30271-E/FILO). Participants: Universitat de Barcelona i Fundación IBERBASKE. Descripció: Creació d'una macro base de dades de paraules en espanyol amb una interfaície via web que inclou índexos ortogràfics, fonològics i semàntics. El corpus és de 300 millons deparaules.

PI: Manuel Carreiras Valiña. Durada: 2008-2010.

Lang2World:Descubriendo el conocimiento del mundo codificado en la lengua. Subprojecte del projecte TEXT-MESS coordinat per Patricio Martínez, de la Universitat d'Alacant. Finançament: Ministerio de Educación y Ciencia, programa de I+D (TIN2006-15265-C06-06). Participants: Universitat d'Alacant, Universidad Politécnica de Valencia, Universitat de Barcelona, Universitat Politècnica de Catalunya, Universidad de Jaén, Universidad Nacinal de Educación a Distancia. Descripció: Combinació de tècniques estadístiques i coneixement lngüístic per al tractament sintàctic i semàntic del llenguatge.

IP: M. Antònia Martí Antonín. Durada: 2006-2009.

ANCORA-NOM: Anotación semántica del SN en los corpus AnCora. Finançament: Ministerio de Ciencia e Innovación, Acción Complementaria (FFI2008-02691-E/FILO). Participants: Universitat de Barcelona (CLiC-Centre de llenguatge i Computació). Descripció: Extensió dels corpus AnCora amb l'anotació de l'estructura argumental dels noms.

IP: Mariona Taulé Delor. Durada: 2009.

CEsCa-III: El coneixement ortogràfic al llarg de l'escolaritat obligatòria: tipologia d'errors i relacions amb altres nivells lingüístics. Finançament: Generalitat de Catalunya, AGAUR, programa ARIE-DGR (2008ARIE-00053). Participants: Universitat de Barcelona, Universitat Autònoma de Barcelona, Professors d'Ensenyament primari i secundari. Descripció: Processament lingüístic del corpus del català escolar escrit, CEsCA

IP: Liliana Tolchinsky Brenmann. Durada: 2009.

DigitalCor-UB. Finançament: Universitat de Barcelona, Convocatòria d'ajuts per a iniciatives de recerca en els àmbits de les humanitats i les ciències socials. Participants: CLiC, GRERLI, Unitat d'Estudis Biogràfics i Graecia Capta (grups de recerca consolidats de la Universitat de Barcelona). Descripció: Creació d'un espai web dins de la Universitat de Barcelona on s'aplegaran els corpus desenvolupats pels equips de recerca que així ho desitgin.

IP: M. Antònia Martí Antonín. Durada: 2009.

REDAL-2: Recursos didàctics per a l'aprenentage de llengües estrangeresFinançament: AGAUR(Agència de Gestió d'Ajuts Universitaris i de Recerca), Generalitat de Catalunya, 2009PID-UB88. Participants: Universitat de Barcelona.

IP: Marc Ruiz-Zorrilla Cruzate. Durada: 2009-2010.

CesCa-II: Corpus Escrit del Català escolar. Finançament: Generalitat de Catalunya, AGAUR, programa ARIE (2007ARIE-00005). Participants: Universitat de Barcelona, Universitat Autònoma de Barcelona, Professors d'Ensenyament primari i secundari. Descripció: Processament lingüístic del corpus del català escolar escrit, CEsCA.

IP: Liliana Tolchinsky Brenmann. Durada: 2008. 

Plataforma de suport a l'ensenyament i banc de recursos per l'aprenentatge de les llengües eslavesFinançament: AGAUR (Agència de Gestió d'Ajuts Universitaris i de Recerca), Generalitat de Catalunya, 2008MQD 00075. Participants: Universitat de Barcelona.

IP: Joan Castellví Vives. Durada: 2008-2010.

Praxem, etiquetado semántico y pragmático del corpus CESS-ECE. Finançament: Ministerio de Educación y Ciencia, programa nacional de humanidades (HUM2006-27378-E). Participants: Universitat de Barcelona (CLiC-Centre de llenguatge i Computació), Universitat Politècnica de Catalunya, Universitat del País Basc, Universitat d'Alacant. Descripció: Anotació de corpora amb informació semàntica i pragmàtica.

IP: Mariona Taulé Delor. Durada: 2007-2008. 

CesCa: Corpus Escrit del Català escolar. Finançament: Generalitat de Catalunya, AGAUR, programa ARIE (2006ARIE-10058). Participants: Universitat de Barcelona, Universitat Autònoma de Barcelona, Professors d'Ensenyament primari i secundari. Descripció: Recopilaciió i digitalització d'un corpus del català escrit per escolars de 5 a 17 anys de Catalunya. I

P: Liliana Tolchinsky Brenmann. Durada: 2007.

Arabic WordNet. Finançament: Govern dels Estats Units. Participants: Universitat de Princeton (USA), Universitat de Manchester (UK), Universitat Politècnica de Catalunya. La Universitat de Barcelona col·labora amb la UPC. Descripció: Desenvolupament del WordNet de la llengua àrab, seguint el procés de desenvolupament de  WordNet i de EuroWordNet.

IP: Chriatiane Fellbaum (USA). Durada: 2006-2007.

Dialcat: Analizador morfosintáctico de corpus dialectales del catalán. Finançament: Ministerio de Educación y Ciencia, programa nacional de humanidades (HUM2005-24445-E) Participants: Universitat de Barcelona (Departament de Lingüística i Departament de Filologia Catalana). Descripció: Desenvolupament d’un analitzador morfològic de textos dialectals del català.

IP: M. Antònia Martí Antonín. Durada: 2006-2007.

Histocat: Analizador morfosintáctico de textos históricos del catalán. Finançament: Ministerio de Educación y Ciencia, programa nacional de humanidades (HUM2005-24438-E). Participants: Universitat de Barcelona (Departament de Lingüística i Departament de Filologia Catalana). Descripció: Desenvolupament d’un analitzador morfològic de textos històrics del català.

IP: Pilar Perea. Durada: 2006-2007.

CESS-ECE: Corpus Etiquetado Sintáctica y Semánticamente del Euskera, Catalán y Español. Finançament: Ministerio de Educación y Ciencia, programa nacional de humanidades (HUM2004-21127-E). Participants: Universitat de Barcelona, Universitat Politècnica de Catalunya, Universitat del País Basc, Universitat d’Alacant. Descripció: Banc de dades sintàctic anotat amb constituents i funcions de 500.000 paraules per al català, castellà i euskara.

IP: M. Antònia Martí Antonín. Durada: 2005-2007.

Ceres: Cerca de respostes. Finançament: Projecte subvencionat per la Generalitat de Catalunya. Participants: Universitat de Barcelona (CLiC i Serveis Lingüístics), Thera SL i VilaWEB. Descripció: Desenvolupament d’un sistema de cerca de respostes en un portal WEB de notícies.

IP: M. Antònia Martí Antonín. Durada: 2005-2006.

SisCoTTerm: un sistema de correcció de textos i tractament de terminologia.  Finançament: Ajuts a la Recerca. Direcció General d'Universitats. Departament d'Ensenyament de la Generalitat de Catalunya. Participants: Universitat de Barcelona (CLiC i Serveis Lingüístics). Descripció:

IP: M. Antònia Martí Antonín. Durada: 2005-2006.

Trujiman: Identificación, Traducción y Clasificación de contenidos en Árabe. Finançament: Ministerio de Industria, Turismo y Comercio, Programa Profit (FIT-330100-2006-198); Generalitat de Catalunya (RDISTCON06-1-0020). Participants: THERA-Centre de Llenguatge i Computació SL, Translendium SL, Verbia SL, Universitat de Barcelona (CLiC). Descripció: Tractament semàntic de la informació.

IP: THERA SL. Durada: 2006.

Gamilen: Generació automàtica de documentació mèdica. Finançament: Ministerio de Industria, Turismo y Comercio, Programa Profit (FIT-350300-2006-93). Participants: THERA-Centre de Llenguatge i Computació SL, UDIAT (Parc Taulí), Vico SL, Universitat de Barcelona (CLiC). Descripció: Generació automàtica multilingüe d’informes en llenguatge natural.

IP: THERA SL. Durada: 2006.

CODEX SEARCH: Aplicació de models lingüístics per a la implementació d'un cercador local especialitzat en el domini de la immigració i l'estrangeria. Finançament: Generalitat de Catalunya, programa AMIC (2005 AMIC 10006). Participants: Universitat de Barcelona. Descripció: Desenvolupament d’un cercador local en el domini d’immigració i d'estrangeria.

IP: M. Antònia Martí Antonín. Durada: 2005.

Ingeniería lingüística para el idioma gallego y problemas de traducción automática de lenguas próximas. Finançament: Ministerio de Ciencia y Tecnología (FIT-150500-2003-161). Participants: CLiC (UB) i Real Academia Galega

IP: Nieves Brisaboa Rodríguez (U. de Coruña). Durada: 2003.

3LB:Creación de una base de datos de árboles sintáctico-semánticos. Finançament: Ministerio de Ciencia y Tecnología, programa PROFIT (FIT-150500-2003-411) i (FIT-150500-2002-24).   Participants: Universitat d'Alacant, Universitat de Barcelona, Universitat del País Basc, Universitat de València i Universitat Politècnica de Catalunya. Descripció: Creació d'un banc de dades d'arbres analitzats sintàcticamente amb constituents i funcions sintàctiques de 100.000 paraules per a cada llengua (català, castellà i euskera). Coordinador del projecte: Manuel Palomar (coordinador). Subprojecte UB (IP): M.Antònia Martí Antonín. Durada: 2002-2003.

X-TRACT2: Plataforma de recursos de Ingeniería Lingüística Finançament: Ministerio de Educación y Cultura. Programa Promoción General del Conocimiento (BFF2002-04226-C03-03). Participants: Universitat de Barcelona i Universitat A Coruña.

IP: M.Antònia Martí Antonín.  Durada: 2002-2005.

Adquisición de conocimiento léxico-gramatical a partir de corpora para el enriquecimiento de EuroWordNet con información colocacional. Finançament: Ministerio de Ciencia y Tecnología (HA2002-0089). Participants: Universitat de Barcelona i Universitat de Stuttgart. Descripció: Identificació de les relacions de coocurrència restringida (col·locacions) a partir de corpus i la seva inclusió i representació a EuroWordNet. I

P: M.Antònia Martí Antonín.  Durada: 2002.

PETRA: Interfaces orales para aplicaciones avanzadas de mensajería unificada. Finançament: Comisión Interministerial de Ciencia y Tecnología (CICYT), programa Nacional de Promoción General del Conocimiento (TIC2000-1735-CO2). Participants: Universitat Politècnica de Catalunya, Universitat de Barcelona.

IP: Francisco Javier Hernan Pericas. Durada: 2001-2003.

Locutor Virtual. Finançament: Ministerio de Ciencia y Tecnología, programa PROFIT (FIT-150500-2002-410). Coordinador: Escola Superior de Telecomunicacions de La Salle (Universitat Ramon Llull). Coordinador del projecte: Ignasi Iriondo. CLiC va participar-hi com a subcontractat. Durada: 2002.

IURISERVICE. Red Telemática de soporte a los jueces en su primer destino dependiente al consejo general de poder judicial. Finançament: Ministerio de Ciencia y Tecnología (FIT-150500-02-562). Coordinador del projecte: Universitat Autònoma de Barcelona. CLiC va participar-hi com a subcontractat. Durada. 2002.

Tematización, reorganización y actualización de la Base de datos léxico-semántica del español EuroWordNet. Finançament: Ministerio de Ciencia y Tecnología (PGC 2000-2658-E). Participants: Universitat de Barcelona.

IP: M.Antònia  Martí Antonín. Durada: 2000-2002.

X-TRACT. Integración de recursos lingüísticos para la extracción de información de corpus textuales y diccionarios. Finançament: Ministerio de Educación y Cultura. Programa sectorial de promoción general del conocimiento (PB98-1226). Participants: Universitat de Barcelona.

IP: M.Antònia Martí Antonín. Durada: 1999-2002.

ACIMET: Accés a la Informació Meteorològica per Telèfon. Finançament: DURSI (Departament d'Universitats, Recerca i Societat de la Informació) i Departament de Medi Ambient.  Participants:TALP (Universitat Politècnica de Catalunya), Universitat Autònoma de Barcelona, Servei Meteorològic de Catalunya. CLiC va participar-hi com a subcontractada de la UPC. Durada: 2001.

VOLEM: Verbos: Organización Léxica Multilingüe. Finançament: Ministerio de Educación y Cultura (ABM7acs/XTI-CTP 2000-1). Participants: Universitat de Barcelona.

IP: M.Antònia Martí Antonín. Durada: 2000-2001.

PROEBI: Estudi dels sistemes d´ensenyament de les llengües indígenes a Perú i dels seus recursos didàctics. Finançament: Fundació Bosch i Gimpera.  Expert: M.Antònia Martí Antonín. Durada: 1999-2002.

Lexesp-III: Base de datos informatizada de la lengua española. Finançament: DGICYT, Secretaría de Estado de Universidades e Investigación (APC 99-0105).  Participants: Universitat de Barcelona (Facultat de Filologia i Psicologia).

IP: Núria Sebastián. Durada: 1999-2000.

RILE: Servidor de recursos para el desarrollo de la ingeniería lingüística en Español. Finançament: MINER, Ministerio de Industria y Energía. Programa: Iniciativa ATYCA. Coordinador del projecte: SEMA GROUP, S.A. Participants: Universitat de Barcelona, Universidad Nacional de Educación a Distancia, Universitat Politècnica de Catalunya, OEIL.  Durada: 1999-2000.

WordNet del Català. Finançament: CREL (Centre de Referència d'Enginyeria Lingüística), Generalitat de Catalunya.

IP: Horacio Rodríguez (UPC) i M.A. Martí (UB). Durada: 1998-2000.

SCRIPTUM. Desenvolupament d´un processador del llenguatge clínic. Finançament: CIDEM, Centre d'Informació i Desenvolupament Empresarial de la Generalitat de Catalunya. Col•laboradors: M.A. Martí (UB).

IP: Eduard Spagnolo.  Durada: 1998-1999.

ITEM. Recuperació de la informació textual multilingüe. Finançament: CICYT (TIC-96 1243-C03-02). Participants: Universitat de Barcelona, Universitat Politècnica de Catalunya, Universidad Nacional de Educación a Distancia, Universitat del País Basc.

IP: Horacio Rodríguez Hontoria. Durada: 1996.

Lexesp-II: Base de datos informatizada de la lengua española. Finançament: DGICYT (96-0125). Participants: Universitat de Barcelona (Facultat de Filologia i Psicologia).

IP: Núria Sebastián. Durada: 1996.

Lexesp-I: Base de datos informatizada de la lengua española. Finançament: DGICYT (APC 93-0122). Participants: Universitat de Barcelona (Facultat de Filologia i Psicologia).

IP: N. Sebastián (UB). Durada: 1993.

Recuperación de información textual multilingüe. Finançament: Secretaría de Estado de Universidades e Investigación. Col•laboradors: M.Antònia Martí (UB).

IP: Felisa Verdejo Maíllo (UNED). Durada: 1996-1999.

Traducción automática asistida por ordenador. Finançament: Agencia Española de Cooperación Internacional del Ministerio de Asuntos Exteriores (946 Fundació Bosch i Gimpera).Participants: Universitat de Barcelona.

IP: M.Antònia Martí Antonín. Durada. 1990-1995.

Un corrector ortogràfic per a la llengua espanyola. Finançament:  Comunitat Econòmica Europea (ESPRIT-TWB 2315), Siemens S.A. Participants: Siemens S.A. i Universitat de Barcelona.

IP: M.Antònia Martí Antonín. Durada: 1990-1991.

NAMIC. News Agencies Multilingue Information Categorization. Finançament: Unió Europea, Vº Programa Marc. (IST-1999-12392) Coordinador a Espanya: UPC, Departament de Llenguatges i Sistemes Informàtics. CLiC va participar-hi com a subcontractat. Durada: 2000-2002.

EuroWordNet. Finançament: Unió Europea, Programa: Linguistic Research Engineering, LRE. Participants: Universitat d'Amsterdam, Universitat de Barcelona, Universitat Politècnica de Catalunya, Universidad Nacional de Educación a Distancia, Istituto Computazionale di Pisa, University of Sheffield, Coordinador del projecte: Piek Vossen (Universitat d'Amsterdam). A Espanya coordinat per: Felisa Verdejo (UNED).  Durada: 1996-1999.

Interacción comunicativa y computación: Modelos para un análisis global del diálogo. Finançament: Secretaría de Estado de Universidades e Investigación. Programa Nacional de Promoción General del Conocimiento (PB91-0854). Participants: Universitat de Barcelona.

IP: Sebastià Serrano Farrera. Durada: 1992-1995.

Acquilex-II (Lexical Acquisition). Finançament: Comunitat Econòmica Europea, Programa: ESPRIT-7315. Coordinador del projecte: Edward Briscoe (Cambridge Computer Laboratory, UK). A Espanya: Felisa Verdejo Maíllo (UNED). Col·laboració: Universitat de Barcelona. Durada: 1992-1995.

Acquilex (Lexical Acquisition). Finançament: Comunitat Econòmica Europea, Programa: ESPRIT-3030. Coordinador del projecte: Antonio Zampolli (Istituto di Lingüistica Computazionale, Pisa) A Espanya coordinat per: Felisa Verdejo Maíllo (UPC). Col·laboració: Universitat de Barcelona. Durada: 1989-1992.