La debilidad del BIG DATA

La UNESCO ha reconocido la importancia del problema de la conservación de los documentos electrónicos y por ello ha redactado la Carta para la preservación del patrimonio digital.  En el artículo 3 de la misma se reconoce el peligro de pérdida a que están sometidos estos materiales y se afirma: «El patrimonio digital del mundo corre el peligro de perderse para la posteridad. Contribuyen a ello, entre otros factores, la rápida obsolescencia de los equipos y programas informáticos que le dan vida, las incertidumbres existentes en torno a los recursos, la responsabilidad y los métodos para su mantenimiento y conservación y la falta de legislación que ampare estos procesos».

La información digital es intrínsecamente más fácil de alterar que las tecnologías tradicionales: pergamino, papel o microfilm por ejemplo. Los soportes de almacenamiento digital tienen menos esperanza de vida y requieren de la existencia de tecnología para acceder a los mismos, que cambian a una velocidad incluso mayor que los propios formatos. Además se deterioran más fácilmente haciendo que se pierdan los contenidos.

A pesar de estos inconvenientes, Big Data es el término de moda. En una época donde el Big Data es el mantra y los terabytes se convierten rápidamente en petabytes, el aumento de las cantidades de datos está causando que la complejidad y el coste de gestión de esos datos se disparen. Al ritmo actual, el mundo estará produciendo más información digital de la que puede almacenar. Lo peor es que se estima que el 60% de lo que se almacena en los centros de datos son, en realidad, copias de datos, es decir copias múltiples de la misma cosa o versiones obsoletas.

En definitiva, el volumen de datos crece día a día, no a causa de nuevos datos, sino por la proliferación descontrolada de copias múltiples según Ash Ashutosh, CEO de Actifio y creador de numerosas normas  estándares en el sector del almacenamiento. Pero ¿de dónde viene la inundación de copias múltiples? Las copias múltiples de datos son generadas en silos separados para diferentes propósitos como las copias de seguridad (recuperación ante desastres, pruebas, desarrollo y análisis) o migraciones. Según un estudio de IDC, principal proveedor mundial de tecnología de la información, telecomunicaciones y tecnología de consumo, hasta 120 copias múltiples de datos pueden circular dentro de una entidad, en virtud del cual el coste de gestionar esta avalancha de datos alcanza la cifra de 44 billones de dólares en todo el mundo. Mientras muchos expertos se centran en cómo lidiar con las montañas de datos que son producidos por estas copias intencionales y no intencionales, mucho menos están abordando la causa raíz de copiar los datos. Como resultado, la gestión de este problema dentro de las empresas ahora está teniendo más recursos que la gestión de los datos de producción reales.

Según Ashutosh, lo que a menudo se olvida es el hecho de que la mayoría de las organizaciones no necesitan grandes aplicaciones de datos especiales promovidas bajo la moda del BIG DATA, puesto que lo útil y necesario, como requisito previo para la utilización eficiente y el análisis de datos, es la virtualización. Esta reduce los costes de almacenamiento en un 80%. Así, un departamento o una persona que necesite trabajar con los datos de la empresa puede acceder y utilizar un completo conjunto de datos virtualizados, lo que genera una organización más eficiente, impulsada hacia la innovación y la mejora de la competitividad de la empresa. Sin embargo, la tecnología que permite la virtualización es sólo la punta del iceberg, ya que cuando una compañía decide abordar la virtualización, gran parte del esfuerzo debe dedicarse a los aspecto culturales y humanos, cosa que no siempre se cumple, lo que a largo plazo conlleva el fracaso del proyecto.

Finalmente, quiero concluir el mes de julio de 2016 dedicado a preservación digital con un póster muy interesante realizado por IDC sobre «Como convertir los datos en activos de negocio a través de la digitalización».