Els corpus de paràfrasis són col·leccions de paràfrasis, que consisteixen en expressions lingüístiques diferents en la forma però amb (aproximadament) el mateix significat.
- P4P
P4P fa referència a “Paraphrase for Plagiarism”. El corpus P4P conté una part dels casos de plagi del corpus PAN-PC-10 [1] anotats manualment amb els fenòmens de paràfrasi que contenen. Està format per 847 parells font-plagi en anglès.
Per a més informació, es pot consultar l’arxiu README.txt del paquet de descàrrega corresponent, [2] i [3].
La guia d’anotació es pot trobar aquí.
Referències
[1] M. Potthast, B. Stein, A. Barrón-Cedeño, i P. Rosso. 2010. An evaluation framework for plagiarism detection. A Proceedings of COLING 2010: Posters, pàgines 997-1005.
[2] M. Vila, M. A. Martí, i H. Rodríguez. 2011. Paraphrase concept and typology. A linguistically based and computationally oriented approach. Procesamiento del Lenguaje Natural 46:83-90.
[3] A. Barrón-Cedeño, M. Vila, M. A. Martí, and P. Rosso. 2013. Plagiarism meets paraphrasing: Insights for the next generation in automatic plagiarism detection. Computational Linguistics, 39(4):917-947
Agraïments
Aquesta investigació s'emmarca dins dels següents projectes i beques:
- TEXT-Knowledge 2.0. TIN2009-13391-C04-04
- Text-Enterprise 2.0. TIN2009-13391-C04-03
- VLC/Campus Microcluster on Multimodal Interaction in Intelligent Systems
- EC WIQ-EI IRSES project (grant no. 269180). FP 7 Marie Curie People Framework
- FPU AP2008-02185
- CONACyT-Mexico 192021
- MSRP-A
MSRP-A fa referència al corpus “Microsoft Research Paraphrase”, “Anotat”. El corpus MSRP-A conté els exemples positius del corpus MSRP [1] anotats manualment amb els fenòmens de paràfrasi que contenen. Està format per 3,900 parells de paràfrasis en anglès.
Per a més informació sobre el corpus, es pot consultar l’arxiu README.txt del paquet de descàrrega corresponent.
La guia d’anotació es pot trobar aquí.Referències
[1] W. B. Dolan i C. Brockett. 2005. Automatically constructing a corpus of sentential paraphrases. A Proceedings of the Third International Workshop on Paraphrasing (IWP 2005), pàgines 9-16.
Agraïments
Aquesta investigació s'emmarca dins dels següents projectes i beques:
- TEXT-Knowledge 2.0. TIN2009-13391-C04-04
- KNOW2. TIN2009-14715-C04-04
- FPU AP2008-02185
- WRPA
WRPA fa referència al corpus “Relational Paraphrase Acquisition from Wikipedia”. El corpus WRPA conté paràfrasis relacionals extretes pel sistema WRPA de la Wikipedia [1]. WRPA conté diversos sub-corpus:
WRPA-person està format per un grup de 362 paràfrasis que expressen la relació persona-data_de_naixement, un grup de 449 paràfrasis que expressen la relació persona-data_de_defunció i un grup de 965 paràfrasis que expressen la relació persona-lloc_de_naixement.
WRPA-person-2 està format per un grup de 55 paràfrasis que expressen la relació persona-altre_nom, 40 de persona-càrrec, 54 de persona-fill, 238 de persona-residència, 233 de persona-treballador_de, 375 de persona-membre_de, 555 de persona-origen, 40 de persona-pare, 62 de person-religió, 94 de person-escola, 413 de persona-esposa i 532 de persona-títol.
WRPA-authorship està format per 81.101 parells de paràfrasis que expressen la relació d’autoria.
WRPA-authorship-A està format per 1,000 parell de paràfrasi provinents de WRPA-authorship anotats manualment amb els tipus de paràfrasi que contenen.
Per a més informació sobre el corpus, es pot consultar l’arxiu README.txt del paquet de descàrrega corresponent i [1].
La guia d’anotació es pot trobar aquí.
Referències
[1] M. Vila, M. Antònia Martí i Horacio Rodríguez. Relational paraphrase acquisition from Wikipedia. The WRPA method and corpus (pendent d’avaluació).
Agraïments
Aquesta investigació s'emmarca dins dels següents projectes i beques:
- TEXT-Knowledge 2.0. TIN2009-13391-C04-04
- KNOW2. TIN2009-14715-C04-04
- FPU AP2008-02185
- ETPC
ETPC stands for Extended Typology Paraphrase corpus. The Extended Paraphrase Typology (with positive and negative examples) can be found here