Los corpus de paráfrasis son colecciones de paráfrasis, que consisten en expresiones lingüísticas diferentes en la forma pero con (aproximadamente) el mismo significado.
- P4P
P4P hace referencia a “Paraphrase for Plagiarism”. El corpus P4P contiene una parte de los casos de plagio del corpus PAN-PC-10 [1] anotados manualmente con los fenómenos de paráfrasis que contienen. Está formado por 847 pares fuente-plagio en inglés.
Para más información, se puede consultar el archivo README.txt del paquete de descarga correspondiente, [2] y [3].
La guía de anotación se puede encontrar aquí.
Referencias
[1] M. Potthast, B. Stein, A. Barrón-Cedeño, y P. Rosso. 2010. An evaluation framework for plagiarism detection. En Proceedings of COLING 2010: Posters, páginas 997-1005.
[2] M. Vila, M. A. Martí, y H. Rodríguez. 2011. Paraphrase concept and typology. A linguistically based and computationally oriented approach. Procesamiento del Lenguaje Natural 46:83-90.
[3] A. Barrón-Cedeño, M. Vila, M. A. Martí, and P. Rosso. 2013. Plagiarism meets paraphrasing: Insights for the next generation in automatic plagiarism detection. Computational Linguistics, 39(4):917-947
Agradecimientos
Esta investigación se enmarca en los siguientes proyectos y becas:
- TEXT-Knowledge 2.0. TIN2009-13391-C04-04
- Text-Enterprise 2.0. TIN2009-13391-C04-03
- VLC/Campus Microcluster on Multimodal Interaction in Intelligent Systems
- EC WIQ-EI IRSES project (grant no. 269180). FP 7 Marie Curie People Framework
- FPU AP2008-02185
- CONACyT-Mexico 192021
- MSRP-A
MSRP-A hace referencia al corpus “Microsoft Research Paraphrase” en una nueva versión “Anotada”. El corpus MSRP-A contiene los ejemplos positivos del corpus MSRP [1] anotados manualmente con los fenómenos de paráfrasis que contienen. Está formado por 3,900 pares de paráfrasis en inglés.
Para más información sobre el corpus, se puede consultar el archivo README.txt del paquete de descarga correspondiente.
La guía de anotación se puede encontrar aquí.Referencias
[1] W. B. Dolan y C. Brockett. 2005. Automatically constructing a corpus of sentential paraphrases. En Proceedings of the Third International Workshop on Paraphrasing (IWP 2005), páginas 9-16.
Agradecimientos
Esta investigación se enmarca en los siguientes proyectos y becas:
- TEXT-Knowledge 2.0. TIN2009-13391-C04-04
- KNOW2. TIN2009-14715-C04-04
- FPU AP2008-02185
- WRPA
WRPA hace referencia al corpus “Relational Paraphrase Acquisition from Wikipedia”. El corpus WRPA contiene paráfrasis relacionales extraídas por el sistema WRPA de la Wikipedia [1]. WRPA contiene diversos sub-corpus:
WRPA-person está formado por un grupo de 362 paráfrasis que expresan la relación persona-fecha_de_nacimiento, un grupo de 449 paráfrasis que expresan la relación persona-fecha_de_defunción y un grupo de 965 paráfrasis que expresan la relación persona-lugar_de_nacimiento.
WRPA-person-2 está formado por un grupo de 55 paráfrasis que expresan la relación persona-otro_nombre, 40 de persona-cargo, 54 de persona-hijo, 238 de persona-residencia, 233 de persona-trabajador_de, 375 de persona-miembro_de, 555 de persona-origen, 40 de persona-padre, 62 de person-religión, 94 de persona-escuela, 413 de persona-esposa y 532 de persona-título.
WRPA-authorship está formado per 81.101 pares de paráfrasis que expresan la relación de autoría.
WRPA-authorship-A está formado por 1,000 pares de paráfrasis procedentes de WRPA-authorship anotados manualmente con los tipos de paráfrasis que contienen.
Para más información sobre el corpus, se puede consultar el archivo README.txt del paquete de descargas correspondiente y [1].
La guía de anotación se puede encontrar aquí.
Referencias
[1] M. Vila, M. Antònia Martí y Horacio Rodríguez. Relational paraphrase acquisition from Wikipedia. The WRPA method and corpus (pendiente de evaluación).
Agradecimientos
Esta investigación se enmarca en los siguientes proyectos y becas:
- TEXT-Knowledge 2.0. TIN2009-13391-C04-04
- KNOW2. TIN2009-14715-C04-04
- FPU AP2008-02185
- ETPC
ETPC stands for Extended Typology Paraphrase corpus. The Extended Paraphrase Typology (with positive and negative examples) can be found here