Pasar al contenido principal

Hopinion

 

Hopinion es un corpus de opiniones en castellano. Hopinion contiene 17934 opiniones (2.388.848 palabras), básicamente sobre hoteles, provenientes de la web de TripAdvisor.

Las opiniones van acompañadas de información lingüística y de metadatos. En cuanto a la información lingüística, 4740 textos están anotados con el lema y la categoría morfológica de las palabras. Los metadatos hacen referencia a usuarios e ítems. De los usuarios se han recuperado, entre otros, el alias, el sexo, la edad, la procedencia, el estilo y el motivo del viaje. De los ítems se han recogido el tipo de alojamiento, su categoría (número de estrellas), la puntuación dada por el usuario y por los viajeros, su localización, etc.

Adicionalmente, Hopinion incorpora los resultados (anotaciones, frecuencias, etc.) de varios experimentos realizados sobre los datos de base. En este último caso se recomienda leer la publicación asociada a cada experimento. El archivo LEEME.txt contiene mayores detalles sobre este recurso.

El corpus se puede descargar en forma de texto plano (CSV) o base de  datos. La base de datos permite realizar búsquedas complejas según el esquema que se presenta a continuación.