Crear archivos de datos duraderos es una tarea urgente. Ese es el mensaje de la iniciativa eArchiving de la Comisión Europea, que acaba de anunciar la versión 2.0 de su arquitectura y que ha renovado su financiación por otros dos años.
Bajo la tutela de la comisión, la iniciativa definirá procesos (utilizando formatos abiertos y metadatos) que significan que las organizaciones no tendrán que mantener viejos equipos de TI en caso de que los necesiten para leer datos antiguos.
“Hay una serie de problemas cuando se quiere restaurar datos muy antiguos”, afirmó Gregor Završnik, investigador de la Universidad de Ljubljana en Eslovenia, consultor en archivo de datos geoespaciales y miembro de la iniciativa eArchiving. “Por supuesto, hay que poder leer los medios de almacenamiento y leer el formato del archivo, pero hay cosas peores. Cuando finalmente haya extraído datos de una tabla de Excel, no tendrá el contexto.
“Entonces no sabes a qué corresponden los números que has restaurado. ¿Cómo fueron recolectados? ¿Con qué nivel de precisión? ¿Son auténticos? añadió, al hablar con el sitio hermano francés LeMagIT durante un evento reciente del IT Press Tour.
La iniciativa eArchiving se basa en el proyecto E-Ark, que es una comunidad de desarrolladores que ha trabajado desde 2014 para crear herramientas universales y perennes para validar, reformatear y archivar datos. El desafío clave es hacer que los archivos sean interoperables mediante una codificación común, pero también para cumplir con las necesidades regulatorias.
De proyecto de investigación a iniciativa europea
“Al inicio de E-Ark, imaginamos que crearíamos un formato universal para archivar”, dijo Završnik. “Pero a medida que avanzamos, nos dimos cuenta de que estos archivos los conservan en su mayoría quienes crearon los datos originalmente, y que todos piensan que estos datos tendrán valor comercial incluso en el futuro. Entonces, lo que necesitamos es crear un estándar que permita a una empresa restaurar sus propios archivos después de varios años”.
Sin embargo, un desafío clave ha sido que el proyecto E-Ark ha tenido dificultades para reunir a los grandes actores del almacenamiento y la copia de seguridad. Está formado por una decena de equipos, pero estos proceden mayoritariamente del mundo de la investigación.
El desafío a nivel de la Comisión Europea es que para transformar E-Ark en eArchiving, el contenido técnico del proyecto debe convertirse en un estándar aceptado en el mercado. Una primera etapa clave es que el formato de archivo universal imaginado por E-Ark esté estandarizado y corresponda a la nueva revisión de ISO 14721, el modelo de referencia para un sistema de información de archivo abierto.
“Si la Comisión exige que el sector público de la UE adopte nuestro formato de archivo, no puede obligar a las empresas a hacer lo mismo”, afirmó Završnik. “Pero puede decirles que si usan un formato abierto, no quedarán encerrados por toda la eternidad en una tecnología que requiere el uso de herramientas comerciales. Y lo que es más, permitirá el libre intercambio de datos entre nosotros”.
El formato CSIP permite metadatos especializados
El formato de archivo propuesto por la iniciativa es la Especificación Común para Paquetes de Información (CSIP), que tiene su propio portal dedicado para aquellos que quieran convertir datos a un formato de archivo perenne o para empresas de software que quieran implementarlo en productos.
“El formato está libre de cualquier licencia comercial y está documentado y estructurado para poder ser releído, utilizable libremente en cualquier software, permitiendo una identificación numérica única para cada archivo y la definición de dependencias con otros datos”, dijo Završnik.
LeMagIT entendió que se trataba de dependencias de datos relacionadas con paquetes de Linux o software que activa bibliotecas de terceros necesarias para funcionar, como cuando un archivo de registro de tierras necesita trabajar con mapas de otro archivo.
CSIP se implementa a través de una plataforma de gestión conocida como OAIS (Open Archival Information Package). Incluye herramientas para convertir datos de origen utilizando SIP (paquete de información de envío), para preservarlos después de reformatearlos mediante AIP (paquete de información de archivo) y para redistribuirlos solo con los datos necesarios para una profesión o aplicación en particular utilizando DIP (paquete de información de difusión). .
Cada subformato tiene sus propios metadatos particulares. Por ejemplo, DIP tiene metadatos que permiten que el contenido del archivo se utilice en contextos médicos (archivos), comerciales (SQL), arquitectónicos (modelado 3D) o cartográficos (imágenes vectorizadas).
La nueva versión, v 2.0, trae mejoras en el detalle del formato. En particular, esto implica la categorización de metadatos en seis grupos: estrategia, negocio, aplicación, tecnología, implementación y migración. Para cada uno de ellos existen escenarios: estructura pasiva, comportamiento, estructura activa y motivación.