4TIC
 
  • Aumentar el tamaño de la letra
  • Tamaño de letra predeterminado
  • Reducir el tamaño de la letra

4State: Sistema multimodal de transcripción asistida de documentos antiguos

4State es el resultado de la cooperación entre el grupo de investigación en "Percepción y Aprendizaje Computacionales" de la Universitat Jaume I y 4TIC.

En el siguiente vídeo se pueden apreciar las principales caraterísticas y avances que ofrece 4State sobre los sistemas de transcripción convencionales:

 

1. Introducción

Actualmente se está experimentando un creciente interés por la digitalización de los materiales custodiados por las bibliotecas. Para dotar de una mayor utilidad al resultado de esta digitalización, es importante no limitarse a capturar y organizar imágenes de páginas de documentos; en su lugar, conviene enriquecer las imágenes con información que, por ejemplo, permita efectuar búsquedas por contenido en los documentos digitalizados. Por lo tanto, resulta de la mayor utilidad una herramienta que facilite la transcripción de tales documentos.
Aunque las herramientas de OCR convencionales ofrecen un rendimiento adecuado cuando se trata de documentos impresos modernos, sus elevadas tasas de error en otros contextos los descartan como una opción realista a la hora de enfrentarse a tipografía antigua o documentos manuscritos. Los documentos antiguos, aparte de presentar tipografías extrañas y palabras y sintaxis obsoletas, suelen verse afectados por muchas fuentes de ruido (humedad, manchas, agujeros, etc) que los hacen más difíciles de transcribir.
El sistema propuesto tiene en cuenta las dificultades anteriormente descritas y propone superarlas del siguiente modo:
  • Frente a las posibles fuentes de ruido que dificultan la transcripción automática, el sistema integra una serie de herramientas de tratamiento y análisis de la imagen que facilitan la preparación de las páginas antes de la intervención del OCR. Esta preparación puede incluir tanto la limpieza de la imagen como la detección del diseño o estructura del texto, en particular su división en líneas.
  • Frente a las dificultades propias de la variabilidad caligráfica del texto manuscrito y de las peculiaridades tipográficas, léxicas y sintácticas de los textos antiguos, el sistema permite ofrecer una variedad de reconocedores OCR específicos y automáticamente adaptables a las características de cada tarea de transcripción a la que haya que enfrentarse.
  • Frente a la inevitable aparición de errores en el resultado del OCR, el sistema aporta un entorno gráfico pensado para facilitar al máximo la supervisión humana de las transcripciones automáticas y la eventual corrección de los errores cometidos.

Por todo ello, el sistema ha sido concebido como una aplicación multimodal, adaptable, extensible y que proporciona un conjunto de herramientas pensadas para la comodidad y productividad del usuario final.
En el funcionamiento del sistema intervienen dos aplicaciones que pueden estar ejecutándose simultáneamente en máquinas distintas:
  • Una aplicación interactiva, StateTA, controlada mediante un lápiz electrónico y una pantalla táctil para ayudar a los usuarios en la transcripción de documentos antiguos (se prevé que en un futuro próximo también integre reconocimiento de voz).
  • Un motor de OCR que ofrece transcripciones a StateTA a través de un Web Service. Obsérvese que varios usuarios podrían estar ejecutando StateTA en diferentes máquinas y compartir todos ellos un mismo motor de OCR ejecutándose remotamente. Además, el protocolo de comunicación diseñado para la comunicación entre StateTA y un motor de OCR también permite que el usuario de StateTA envíe al OCR nuevos ejemplos de transcripciones correctas para que éste adapte mejor su funcionamiento a la tarea de transcripción abordada.

Los módulos desarrollados han sido diseñados con la extensibilidad en mente, lo que se traduce en dos decisiones de diseño:
  • Posibilidad de añadir fácilmente a StateTA nuevas órdenes para la preparación de las páginas que han de transcribirse.
  • Poco acoplamiento entre la aplicación de transcripción asistida y el motor de OCR, accesible a través de un Web Service, a fin de que sea fácil conectar nuevos motores a la aplicación de transcripción.

Así pues, el sistema ayuda al proceso de transcripción entrenando un motor de OCR, accesible remotamente y utilizado por varios usuarios de forma simultánea. Cada usuario puede tratar imágenes interactivamente (cancelación de ruido, mejora de características, etc) y detectar o editar la disposición del texto antes de transcribir una o más líneas de éste.
En StateTA, las transcripciones de texto se muestran línea por línea, junto con sus respectivos mapas de bits. Cuando la transcripción de una línea contiene errores, el usuario los puede corregir con el teclado o el lápiz electrónico, a través de un interfaz amigable. Finalmente, la transcripción corregida y la imagen de la línea asociada pueden ser enviadas al motor de OCR, de forma que la tarea de corrección del usuario se aproveche para mejorar el futuro comportamiento del motor. En realidad, es un usuario privilegiado o "administrador" del OCR quien, mediante una aplicación específica, supervisa y eventualmente edita los ejemplos proporcionados por los usuarios de StateTA antes de decidir si utilizarlos para la mejora del motor de OCR. Esta aplicación de control del OCR también ofrece una interfaz gráfica, manejada con el lápiz electrónico, para gestionar diferentes parámetros del motor (por ejemplo, los conjuntos de ejemplos de cada carácter concreto).
Las mejoras en el comportamiento del motor de OCR estarán entonces inmediatamente disponibles para todos los usuarios de StateTA, ya que, como se ha explicado anteriormente, el acceso a este motor se realiza mediante un Web Service compartido.

2. Arquitectura del sistema

En definitiva, en su versión actual, el sistema consta de dos componentes:
  • La aplicación StateTA, manejada por transcriptores humanos para producir la versión en texto de cada página del documento que se desee transcribir.
  • Un motor de OCR, de acceso simultáneo por parte de múltiples instancias del StateTA y dotado de una aplicación para la gestión directa de sus parámetros por parte de un administrador.
La interfaz de usuario de ambas aplicaciones ha sido diseñada para ser cómodamente utilizada con un lápiz electrónico. El sistema se ha implementado en C# 3.0 utilizando WPF y se ejecuta en .NET 3.5.
 
 

3. Firma digital y archivo

Todas las transcripciones obtenidas como resultado de usar el 4State se firman digitalmente junto a la imagen original, para garantizar que esas transcripciones no se modifican en el tiempo. En el caso que una transcripción se modificara, la firma digital no sería válida y eso nos mostraría el error en la transcripción.

Una vez firmadas,  las transcripciones y las imágenes se almacenan en un repositorio digital especializado en mantener información durante largos períodos de tiempo, agrupándola por metadatos que faciliten las búsquedas del material en un futuro.

 

Documentación

Colaboraciones


4TIC colabora con decharlas.com para la difusión de la tecnología en Castellón
4TIC apuesta por el conocimiento abierto y se convierte en patrocinador oficial de decharlas.com para la organización de charlas técnicas gratuitas en Castellón.
 
4TIC firma un convenio con la UJI para la comercialización de CryptoApplet
4TIC ha firmado un convenio con la Universitat Jaume I de Castellón para la obtención de una licencia comercial de CryptoApplet, convirtiéndose en la primera empresa en dar soporte comercial y de nuevas funcionalidades sobre este.

La existencia de una licencia comercial es de vital importancia para el uso de CryptoApplet en proyectos que no son de código abierto y que no cumplen con las restricciones impuestas por la licencia GPL con la que se publica CryptoApplet.

 
4State en el "Arxiu Montserrat Tarradellas i Macià"
La Universitat Rovira i Virgili coordina el proyecto de digitalización y transcripción de fondos històricos del "Arxiu Montserrat Tarradellas i Macià" en el Monasterio de Poblet (Tarragona), donde 4State dará soporte a la transcripción y archivo digital del material histórico.
 
Certificación SafeNet
4TIC se ha convertido en partner oficial de SafeNet y ha certificado su producto de firma digital 4Sign para el uso del hardware de custodia de claves que ofrece este empresa: SafeNet Luna HSM
 
VIGIA en la Universitat Rovira i Virgili
La Universitat Rovira i Virgili de Tarragona, ha apostado por VIGIA para la gestión de su instalación SALTO, la cual cuenta actualmente con 1500 cerraduras