Módulo B

Módulo B: Sistema de resumen de textos: COMPENDIUM (Resp. E. Lloret)

Un resumen se puede definir como “un texto coherente que contiene la esencia general de un documento y que es más breve que el original” (Mani, 2001). Basado en la experiencia y la investigación previa llevada a cabo en resumenes automáticos por parte de los miembros del equipo de investigación, junto con los avances del estado del arte en esta tarea (Zamuda y Lloret, 2020; Vicente y Lloret, 2020, Barros et al., 2019), el objetivo principal de este módulo es adaptar la herramienta COMPENDIUM (Lloret, Romá-Ferri y Palomar, 2013) para resumir textos administrativos escritos en español. 

La herramienta COMPENDIUM fue el resultado del enfoque de resumen propuesto en la tesis doctoral “Texto Resumen basado en las Tecnologías del Lenguaje Humano y sus Aplicaciones” (Lloret, 2011). En breve, COMPENDIUM se basa en un enfoque de resumen modular que puede generar diferentes tipos de resúmenes automáticamente. En cuanto a la entrada, COMPENDIUM puede tomar uno o varios textos y producir resúmenes de uno o varios documentos, respectivamente. En cuanto a la finalidad de los resúmenes resultantes, pueden ser genéricos, centrados en consultas o basados en sentimientos, y su objetivo es proporcionar información sobre el(los) documento(s) fuente(s), siendo así informativo. Como resultado, los resúmenes finales pueden ser puros extractos de información o una combinación de información extractiva y abstractiva. Para mostrar su potencial y validez, COMPENDIUM se ha aplicado con éxito a varios dominios y tareas (Lloret y Palomar, 2013). La propiedad intelectual de COMPENDIUM está registrada y protegida. Actualmente, cuenta con una Technology Readiness Level (TRL) alrededor de 2-3, y se puede probar a través de una demostración en línea (http://gplsi.dlsi.ua.es/demos/compendium/). Sin embargo, es importante mencionar que COMPENDIUM fue desarrollado originalmente para el idioma inglés, por lo que hay margen de mejora para adaptarlo a otros tipos de más dominio y lenguajes, como documentos del sector público español, como se propone para este proyecto. Por lo tanto, las siguientes dos tareas están incluidas en este módulo.

Tarea B.1. Adapctación de COMPENDIUM para resumir documentos de las administraciones públicas. (Resp. E. Lloret)

El objetivo principal de esta tarea es adaptar y afinar el enfoque de COMPENDIUM para permitir el resumen de documentos de texto en español generados por organismos del sector público. El tipo de resumen que se generará será abstractivo, lo que significa que no solo se extraerá la información relevante, sino que además, dicha información relevante será parafraseada usando diferente vocabulario y estructuras, garantizando el mismo significado en el texto generado. 

Para resumir el texto, tomaremos como base las etapas centrales desarrolladas originalmente en COMPENDIUM, que constituyen la columna vertebral del proceso de resumen. Estas etapas son las siguientes: a) análisis lingüístico superficial; b) detección de redundancia; c) identificación del tema; d) detección de relevancia; y e) generación del resumen. Luego, para mejorar las capacidades del enfoque, una etapa adicional de «comprensión de la información y fusión”, encargada de generar resúmenes abstractivos, también se puede integrar.

Tarea B.2. Integrar COMPENDIUM en una plataforma accesible y fácil de usar (Resp. A. Suárez)

Una vez adaptada la herramienta COMPENDIUM a los documentos del sector público español (tarea B.1), el objetivo de esta tarea es integrar el software generado en una plataforma fácil de usar, para que pueda ser accesible y fácil de usar. Para ello, tendremos en cuenta las Pautas de Accesibilidad Web definidas por el World Wide Web Consortium (W3C) (https://www.w3.org/WAI/fundamentals/accessibility-intro/), no solo para el diseño de la interfaz web, sino también para la mejorar la manera de dar salida al contenido generado como resultado resumen, cumpliendo con los estándares definidos en: https://www.w3.org/WAI/standards-guidelines/wcag/

 

Resultados de este módulo: 

  • Sistema COMPENDIUM e interfaz accesible y fácil de usar para la documentación del sector público español.