TRANSKRIBUS: Transcripción asistida de documentos

La intervención de Enrique Vidal (Universidad Politécnica de Valencia) en la pasada Jornada de Humanidades Digitales en la BNE  titulada «Transcripción asistida de manuscritos»  me pareció tan sumamente interesante que he decidido dedicarle una entrada separada en el blog. Y es que para mi gusto esta comunicación destacó sobre el resto no solo porque tematicamente era completamente diferente a lo mostrado, sino también porque el Proyecto READ ofrecía una herramienta informática cuyo objetivo era facilitar la labor de los paleógrafos, no su sustitución, ya que, según Vidal, ningún proyecto de humanidades digitales sobre paleografía es fiables al cien por cien puesto que siempre existirá un margen de error sobre el que debe trabajar obligatoriamente el paleógrafo.

Este proyecto está dirigido por el equipo de tranScriptorium y comenzó siendo un proyecto de inteligencia artificial que ha evolucionado en READ a un proyecto de humanidades digitales con financiación europea y un periodo de realización de tres años, 2016 – 2019. READ es una colaboración internacional entre 14 socios provenientes de los campos de la investigación en informática, archivos y humanidades. El proyecto está financiado por el programa de investigación e innovación Horizon 2020 de la Unión Europea con el acuerdo de subvención nº 674943.

Los documentos históricos manuscritos pueden ser difíciles de entender debido a las complejas variaciones en los estilos de escritura manuscrita, idiomas, conjuntos de caracteres, diseño y legibilidad pero los avances en la investigación están haciendo posible que las computadoras procesen el material manuscrito. Y es que, el desarrollo de tecnología HTR (Handwritten Text Recognition) puede revolucionar el acceso a las colecciones históricas de archivos de todo el mundo.

La investigación se lleva a cabo con reconocimiento de patrones, análisis de imágenes de documentos, visión por ordenador y procesamiento de lenguaje natural de textos históricos desde la Edad Media hasta el siglo XX y en idiomas abarca desde lenguas muertas como latín o griego antiguo hasta el inglés o español actual.

En este tiempo READ proveerá a la comunidad investigadora de una plataforma de transcripción asistida de libre acceso y gratuita, denominada Transkribus. La versión BETA de Transkribus ya está disponible y hasta diciembre de 2016 más de cuatro mil personas ya se la han descargado.Todos los servicios que READ proporciona están basados en algoritmos y herramientas desarrolladas como parte de la investigación básica y de innovación: identificación automática de escritores, herramientas de corrección y edición, reconocimiento de textos manuscritos, servicios de exportación con formatos normalizados, herramientas de e-learning, etc.

El objetivo de Transkribus es convertirse en una herramienta imprescindible para archivos, bibliotecas, investigadores de humanidades y científicos en computación. La principal razón para ejecutar esta plataforma, el reconocimiento de texto manuscrito, depende en gran medida de la formación de datos y, si estos se recopilan de forma centralizada, todos los usuarios se benefician de la labor de cada uno de los demás usuarios sin necesidad de compartir documentos o colecciones directamente. Por tanto, se crea un modelo de negocio que hace que la plataforma siga en activo una vez finalizado el proyecto.

La lista de instituciones que forman este proyecto son:

Finalmente, se anima a las instituciones interesadas a unirse al consorcio del proyecto con un Memorando de Entendimiento (MoU) que les brindará acceso privilegiado a las nuevas tecnologías que está desarrollando el proyecto.

DESCARGA VERSIÓN BETA DE TRANSKRIBUS