❧ Proyecto Carabela: una herramienta de inteligencia artificial al servicio de la investigación histórica

El Proyecto Carabela, desarrollado a lo largo de los últimos dos años por investigadores de la Universitat Politècnica de València (UPV) y el Centro de Arqueología Subacuática del Instituto Andaluz del Patrimonio Histórico, con el apoyo de la Fundación BBVA, pone a disposición de los historiadores la Inteligencia Artificial (IA) y Aprendizaje Automático (Machine Learning). Estas técnicas son capaces de identificar y discernir los distintos tipos de letras utilizados en cada una de las épocas en las que están datados los documentos e incluso analizar imágenes cuya calidad es muy baja. Así, «es posible rastrear cualquier documento gráfico con la misma rapidez que un buscador web, identificando palabras concretas, combinaciones de palabras, frases, etc. Todo ello gracias a modelos estadísticos que hemos entrenado a partir de ejemplos y que ahora son los grandes aliados para el estudio de estos fondos de la historia de España. Y los mismos métodos pueden aplicarse también a otros muchos documentos históricos”, destaca Enrique Vidal, investigador del centro Pattern Recognition and Human Language Technologies (PHRLT) de la Universitat Politècnica de València.

La clave está en la capacidad de sus algoritmos para obtener modelos que se “aprenden” automáticamente a partir de ejemplos. Así, primero están los modelos «ópticos», que son los que determinan qué trazos se espera que configuren cada carácter para cada estilo de escritura, y en segundo lugar están los modelos «de lenguaje» que definen «cómo se espera que se combinen los caracteres para formar palabras y las palabras para formar frases». Los modelos ópticos y de lenguaje se aprenden automáticamente mediante técnicas de aprendizaje automático («machine learning») a partir de ejemplos representativos de lo que se quiere modelar. En este caso, el aprendizaje se hizo con 514 documentos del Archivo de Indias, que fueron seleccionados y transcritos por Carlos Alonso y su equipo de especialistas del Centro de Arqueología Subacuática del Instituto Andaluz del Patrimonio Histórico. Para explicar este «entrenamiento» cabe decir que cada dato es un par formado por una imágen y su transcripción.

Finalmente, la tecnología de «Indexación Probabilística» que se ha empleado en el «Proyecto Carabela» es propia del centro PRHLT y «va muy por delante de las técnicas que vienen usando incluso los equipos de investigación mas avanzados del mundo», subraya Vidal.

Fuente: Fundación BBVA