
4state es el resultado de la cooperación entre el grupo de investigación en "Percepción y Aprendizaje Computacionales" de la Universitat Jaume I y 4TIC.
En el siguiente vídeo se pueden apreciar las principales características y avances que ofrece 4state sobre los sistemas de transcripción convencionales:
Actualmente se está experimentando un creciente interés por la digitalización de los materiales custodiados por las bibliotecas. Para dotar de una mayor utilidad al resultado de esta digitalización, es importante no limitarse a capturar y organizar imágenes de páginas de documentos; en su lugar, conviene enriquecer las imágenes con información que, por ejemplo, permita efectuar búsquedas por contenido en los documentos digitalizados. Por lo tanto, resulta de la mayor utilidad una herramienta que facilite la transcripción de tales documentos.
Aunque las herramientas de OCR convencionales ofrecen un rendimiento adecuado cuando se trata de documentos impresos modernos, sus elevadas tasas de error en otros contextos los descartan como una opción realista a la hora de enfrentarse a tipografía antigua o documentos manuscritos. Los documentos antiguos, aparte de presentar tipografías extrañas y palabras y sintaxis obsoletas, suelen verse afectados por muchas fuentes de ruido (humedad, manchas, agujeros, etc) que los hacen más difíciles de transcribir.
El sistema propuesto tiene en cuenta las dificultades anteriormente descritas y propone superarlas del siguiente modo:
1.- Visor de las imágenes a tratar y transcribirPor todo ello, el sistema ha sido concebido como una aplicación multimodal, adaptable, extensible y que proporciona un conjunto de herramientas pensadas para la comodidad y productividad del usuario final.
En el funcionamiento del sistema intervienen dos aplicaciones que pueden estar ejecutándose simultáneamente en máquinas distintas:
2.- Tratamiento de la imagenLos módulos desarrollados han sido diseñados con la extensibilidad en mente, lo que se traduce en dos decisiones de diseño:
3.- Transcripción línea a línea de la páginaAsí pues, el sistema ayuda al proceso de transcripción entrenando un motor de OCR, accesible remotamente y utilizado por varios usuarios de forma simultánea. Cada usuario puede tratar imágenes interactivamente (cancelación de ruido, mejora de características, etc) y detectar o editar la disposición del texto antes de transcribir una o más líneas de éste.
En StateTA, las transcripciones de texto se muestran línea por línea, junto con sus respectivos mapas de bits. Cuando la transcripción de una línea contiene errores, el usuario los puede corregir con el teclado o el lápiz electrónico, a través de un interfaz amigable. Finalmente, la transcripción corregida y la imagen de la línea asociada pueden ser enviadas al motor de OCR, de forma que la tarea de corrección del usuario se aproveche para mejorar el futuro comportamiento del motor. En realidad, es un usuario privilegiado o "administrador" del OCR quien, mediante una aplicación específica, supervisa y eventualmente edita los ejemplos proporcionados por los usuarios de StateTA antes de decidir si utilizarlos para la mejora del motor de OCR. Esta aplicación de control del OCR también ofrece una interfaz gráfica, manejada con el lápiz electrónico, para gestionar diferentes parámetros del motor (por ejemplo, los conjuntos de ejemplos de cada carácter concreto).
Las mejoras en el comportamiento del motor de OCR estarán entonces inmediatamente disponibles para todos los usuarios de StateTA, ya que, como se ha explicado anteriormente, el acceso a este motor se realiza mediante un Web Service compartido.
4.- Motor de reconocimiento inteligenteEn definitiva, en su versión actual, el sistema consta de dos componentes:
La interfaz de usuario de ambas aplicaciones ha sido diseñada para ser cómodamente utilizada con un lápiz electrónico. El sistema se ha implementado en C# 3.0 utilizando WPF y se ejecuta en .NET 3.5.
Todas las transcripciones obtenidas como resultado de usar el 4state se firman digitalmente junto a la imagen original, para garantizar que esas transcripciones no se modifican en el tiempo. En el caso que una transcripción se modificara, la firma digital no sería válida y eso nos mostraría el error en la transcripción.
Una vez firmadas, las transcripciones y las imágenes se almacenan en un repositorio digital especializado en mantener información durante largos períodos de tiempo, agrupándola por metadatos que faciliten las búsquedas del material en un futuro.