Durante cientos de años, cualquier organización que necesitara almacenar información dependía de una tecnología probada: el papel. Pero desde el advenimiento de la computación y el almacenamiento de datos digitales, cada vez más datos han sido capturados y almacenados electrónicamente en archivos digitales.
Pero ahora las organizaciones necesitan retener los datos archivados por más tiempo, por razones comerciales y reglamentarias, ¿puede la tecnología de almacenamiento mantenerse al día?
Con una gestión cuidadosa, los archivos en papel duran décadas, si no siglos. Ningún sistema informático tiene más de 80 años, pero hay industrias que se enfrentan a la perspectiva de archivar datos durante 100 años o más.
Y, dado que la vida útil operativa de un disco duro estándar es de solo tres a cinco años, los departamentos de TI necesitan saber cómo almacenar datos para las generaciones futuras: el llamado almacenamiento indefinido.
No existe un estándar de la industria para el almacenamiento indefinido, ya que depende mucho del caso de uso. En términos prácticos, “indefinido” no tiene por qué significar “para siempre”. Más bien, significa retener datos sin un período de retención específico.
Sin embargo, en términos prácticos, la mayoría de los directores de información interpretarían esto como más allá de la vida útil de las tecnologías de almacenamiento estándar. En algunas industrias, los datos críticos solo necesitan conservarse durante unos pocos años, pero en otras significará la vida útil esperada de un individuo o la vida útil prevista de una pieza de equipo, con un margen de algunos años además.
El desafío es que pocos medios de almacenamiento electrónico están diseñados para mantener los datos seguros y accesibles durante períodos muy prolongados.
Vida útil esperada de los componentes
Los fabricantes especifican la vida útil esperada de componentes como discos duros o SSD. Un disco duro típico de “consumidor” debería durar de tres a cinco años. Las unidades de nivel empresarial pueden durar un poco más, quizás siete años. Los SSD son teóricamente más duraderos, con una vida útil de diseño de hasta 20 años.
Sin embargo, mucho dependerá de cómo se utilicen los medios de almacenamiento. Los SSD se desgastarán más rápidamente si la aplicación realiza muchas escrituras, por ejemplo.
Y, como explica Tony Lock de Freeform Dynamics, los arreglos de almacenamiento teóricamente pueden seguir funcionando para siempre. Como los datos se almacenan durante más tiempo, se convierte en una cuestión de gestión de hardware, control de fallos e intercambio de componentes a medida que envejecen.
“Hay vidas en el equipo”, dice. “A medida que el kit envejece, debes aceptar que habrá más posibilidades de fallar. ¿Qué importancia tiene esa información para usted y qué tipo de protección de datos agrega?
Los sistemas RAID locales están diseñados para agregar exactamente esa protección. Y los proveedores de la nube “hiperescaladores”, que usan grandes cantidades de hardware de bajo costo, incluso cambiarán pasillos completos o incluso centros de datos completos a medida que el hardware se acerque al final de su vida útil.
Cada vez más, esto permite a los clientes y proveedores de servicios en la nube intercambiar medios a largo plazo tradicionales, pero menos flexibles, como unidades ópticas o cintas magnéticas. La cinta, en particular, necesita una gestión física cuidadosa si se utiliza para el almacenamiento a largo plazo.
¿Por qué necesitamos almacenamiento indefinido?
A medida que las organizaciones buscan extraer más valor de sus datos y los costos de almacenamiento caen, existe una clara tendencia a conservar más datos durante más tiempo. Las empresas pueden querer usar datos para análisis avanzados o para entrenar sistemas de inteligencia artificial.
También existen exigencias reglamentarias para conservar los datos durante más tiempo. Los servicios financieros y de salud son solo dos áreas en las que se puede exigir a las organizaciones que mantengan registros durante la vida del cliente o paciente, y varios años después.
En el Reino Unido, por ejemplo, el registro de un paciente debe conservarse durante 10 años después de la muerte. Las organizaciones que necesitan una vista de 360° del cliente, según las leyes de prevención del fraude, también deberán conservar los datos durante más tiempo.
Incluso los datos del sector educativo, como las transcripciones de títulos, necesitan una retención a largo plazo. La Universidad de Manchester, por ejemplo, tiene registros electrónicos de sus estudiantes desde 2007 y tiene registros en papel desde antes de 1978.
En términos más generales, los fabricantes, distribuidores y minoristas deben conservar la información sobre el origen y la seguridad del producto durante más tiempo, por motivos medioambientales y de seguridad.
Una vida de diseño de 40 a 50 años no es inusual en equipos industriales o de transporte. Los operadores necesitan acceder a los datos de mantenimiento para el servicio o en caso de fallas inesperadas.
Los sistemas de TI que se usaban para mantener los equipos en la década de 1980 son muy diferentes de los que se usan hoy en día, y los que usaremos dentro de 40 años volverán a ser diferentes.
“Si miras atrás en la historia hasta hace 80 años, no teníamos este problema. Era un problema de papel”, dice Patrick Smith, director de tecnología de campo para EMEA en el proveedor Pure Storage.
“Avance rápido otros 80 años, y esperará ver varios cambios de paradigma en ese tiempo”.
Y la necesidad de almacenar datos durante más tiempo se combina con conjuntos de datos en crecimiento, como lo describe Smith, con cada subconjunto de datos, como componente, fabricante, ubicación, materiales, proceso de fabricación y fechas que se suman al aumento exponencial. El desafío es crear formas de almacenar datos que puedan hacer frente a ese crecimiento, así como al típico ciclo de actualización de hardware, sin la necesidad de mover los datos al por mayor cada tres o cinco años.
“Si observa el mundo de la atención médica, el objetivo es almacenar los datos en un formato que no esté vinculado a ningún paquete de software en particular para que podamos recuperarlos en el futuro”, dice Smith.
Es probable que esto signifique un mayor nivel de abstracción entre el hardware y los datos, así como nuevas tecnologías de almacenamiento de datos.
Opciones de almacenamiento indefinido
Las opciones para almacenar datos más allá de la vida útil del diseño de los equipos de TI actuales van desde lo simple (buena administración de hardware y garantizar la redundancia) hasta ciencia de vanguardia.
Entre las opciones más extremas está el uso de datos grabados con láser en vidrio, desarrollado por Microsoft como Project Silica, y almacenamiento basado en ADN. Esto, si se puede escalar, promete un almacenamiento duradero de muy alta capacidad.
Pero a corto plazo, el énfasis está en mejorar la durabilidad de los medios de almacenamiento, como flash, y garantizar que las aplicaciones futuras puedan leer datos de los medios de almacenamiento actuales. Incluso si los equipos de TI pueden copiar, y seguir copiando, datos en medios más nuevos, esto es de poca utilidad si los datos no se pueden leer.
Por esta razón, la industria ha desarrollado formatos comunes, como PDF/A (que data de 2005) y datos de autodeclaración, como el formato de retención de información autónomo o SIRF.
Estos formatos de datos permiten la obsolescencia del software. Los directores de información pueden aprovechar el hecho de que almacenar datos durante más tiempo es cada vez más fácil.
“Si observa los datos dentro de cinco, 10, 15, 40 o 100 años, la plataforma será diferente, el hardware será diferente, el software será diferente”, dice Lock de Freeform. “Eso es incluso si puedes ver físicamente los bits y bytes”.