❧ OCR4all: software de reconocimiento de tipografía histórica

Los científicos del “Center for Philology and Digitality” de Julius-Maximilians-Universität Würzburg (JMU) en Baviera (Alemania) han creado la herramienta OCR4all, desarrollada bajo la dirección de Christian Reul junto a los informáticos Frank Puppe y Christoph Wick, el experto en Humanidades Digitales Uwe Springmann y numerosos estudiantes y asistentes. Este software de reconocimiento de texto convierte impresiones históricas digitalizadas en textos legibles por ordenador con una tasa de error inferior al 1%. Además, ofrece una interfaz gráfica de usuario que no requiere conocimientos de TI.

Según Christian Reul, el reconocimiento automático de texto (OCR = Reconocimiento Óptico de Caracteres) ha funcionando muy bien para las fuentes tipográficas modernas desde hace tiempo pero no es así con las fuentes tipográficas históricas. El problema es la tipografía, dado que las primeras imprentas europeas no utilizaban fuentes uniformes, es decir los impresores utilizaban tipos tallados de forma artesanal e individualizada, lo que a efectos de reconocimiento automático de texto implica que cada impresor posee una tipografía propia que el software debe aprender a reconocer a partir de una serie de indicaciones previas.

Así en un estudio de caso con seis impresiones históricas de los años 1476 a 1572, la tasa media de errores en el reconocimiento automático de texto se redujo del 3,9% al 1,7%. Pero no solo se ha mejorado la metodología, sino que el informático Christoph Wick, de JMU, también ha perfeccionado decisivamente el componente técnico desarrollando la herramienta Calamari OCR , integrada completamente en OCR4all, lo que promete resultados aún mejores.

OCR4all  y Calamari OCR están disponibles gratuitamente para el público en la plataforma GitHub (con instrucciones y ejemplos).

Fuente: www.phys.org