Sugiera a un director de información que pronto podrían almacenar 10 millones de veces más datos que la capacidad de un solo disco duro y, como mínimo, es probable que se muestren escépticos.
Pero tales avances podrían ser posibles, y en los próximos años. La razón es el almacenamiento de ADN. En lugar de utilizar discos duros, cinta magnética o memoria flash, el almacenamiento de ADN contiene datos utilizando el código de la vida misma.
Con la ciencia actual, un sistema de almacenamiento de ADN puede contener 10 zettabytes de datos en un dispositivo del tamaño de una caja de zapatos, según John Monroe, vicepresidente y analista del investigador de la industria Gartner. “Estos hermosos códigos de cuatro letras podrían ser la forma ideal de almacenar datos digitales”, dice. “Es enorme en términos de capacidad, es más prometedor que cualquier otro formato de almacenamiento de archivos”.
Los investigadores estiman que los datos almacenados en el ADN podrían durar entre 700.000 y un millón de años, mucho más allá de la vida útil de cualquier tecnología de almacenamiento actual. Monroe considera que el almacenamiento de ADN sustituye a la cinta o las unidades ópticas para el almacenamiento en línea o fuera de línea.
El ADN en sí es extremadamente robusto, capaz de soportar el calor y el frío. Y una vez que la información ha sido codificada y sintetizada en ADN, la fase de “escritura”, no necesita energía para mantenerla en ese estado. La secuenciación y decodificación del ADN, la fase de “lectura”, convierte el código de nucleótidos de cuatro letras del ADN en una forma que una computadora puede procesar.
Pero a pesar de esta promesa, la idea aún está lejos de ser una tecnología práctica. La industria de las tecnologías de la información aún no ha creado dispositivos de almacenamiento de ADN funcionales a escala de producción. “La gente todavía está luchando con cómo se ve eso”, admite Monroe.
Él cree que el equipo será del tamaño de un aparato de cocina; otros predicen que podría ser del tamaño de un autobús escolar. Microsoft ya ha desarrollado una máquina de recuperación y codificación de ADN de tamaño más práctico, con la Universidad de Washington. Sin embargo, sigue siendo un prototipo y no es algo que un departamento de TI pueda simplemente colocar en un bastidor de TI de 19U existente.
Romance químico
Sin embargo, la codificación y secuenciación del ADN actual sigue siendo en gran medida un proceso químico. Esa es la razón por la que el prototipo de Microsoft y la Universidad de Washington se parece más a algo que se puede encontrar en un laboratorio de ciencias de una escuela que a un centro de datos. Y el proceso es caro actualmente.
La secuenciación de 1 MB de datos cuesta alrededor de $ 3,500 (£ 2,500). Y aunque los costos están disminuyendo, esto es mucho más que el costo de escribir el mismo volumen de datos en una memoria flash o en un disco. Gartner cree que la tecnología no se generalizará hasta que el costo caiga a alrededor de $ 0.01 por gigabyte.
Las tecnologías alternativas incluyen la síntesis enzimática de ADN (EDS), que está siendo desarrollada por el Instituto Wyss, parte de la Universidad de Harvard. Los investigadores creen que esto reducirá el costo de la síntesis de ADN en muchos órdenes de magnitud. El equipo de Wyss está desarrollando un dispositivo electrónico que puede sintetizar datos en ADN. Creen que esto ampliará el proceso al permitir que el proceso de síntesis sea paralelo.
Sin embargo, los investigadores confían en que se superarán las barreras prácticas y de costo, aunque solo sea porque pocas tecnologías, si es que las hay, ofrecen el potencial de almacenar la gran cantidad de datos que se pueden almacenar en el ADN.
Como era de esperar, los gobiernos y las agencias de inteligencia están detrás de gran parte del interés en el almacenamiento de ADN. En los EE. UU., La Actividad de Proyectos de Investigación Avanzada de Inteligencia (IARPA), parte de la Oficina del Director de Inteligencia Nacional, ejecuta MIST, el programa de Almacenamiento de Información Molecular, que tiene la tarea de escribir un terabyte y leer 10 terabytes de datos en 24 horas. a un costo de $ 1,000.
Otros investigadores, en el Laboratorio Nacional de Los Alamos, están siendo financiados por IARPA para trabajar en sistemas para traducir la información del ADN en código legible por computadora. Su sistema, ADS Codex, maneja la codificación y decodificación de nuevo a binario, independientemente del método utilizado para la síntesis de ADN en sí.
Además, ADS Codex proporciona corrección de errores avanzada. Los errores de escritura son más altos en el almacenamiento de ADN que en el almacenamiento digital convencional, un problema agravado por el hecho de que el ADN tiene estados de cuatro letras, en lugar de ceros y unos binarios. ADS Codex verifica los datos y elimina los errores. El código está disponible en GitHub.
Europa también ha contribuido al campo. El proyecto DNA DS, con sede en la UE, coordinado por investigadores eslovenos, busca almacenar 450 petabytes de datos en una sola molécula. Potencialmente, todo un centro de datos podría caber en un solo vial de líquido. Los investigadores también han examinado otro beneficio del almacenamiento de ADN. Aunque la escritura de datos en el ADN sigue siendo lenta, incluso un vial completo se puede replicar en solo horas, casi sin costos y con poca energía.
Alianza tecnológica
Ahora que los investigadores académicos han demostrado que el almacenamiento de ADN es posible, la atención se centra en los aspectos prácticos.
En 2020, un grupo de pesos pesados de la industria informática, incluidos Microsoft y Western Digital, formaron la Alianza de almacenamiento de datos de ADN junto con las empresas de biotecnología Twist Bioscience e Illumina e investigadores académicos.
El objetivo es crear un ecosistema viable en torno al almacenamiento de ADN, y Microsoft y otros señalan que el campo se está moviendo de la investigación académica y científica hacia aplicaciones prácticas de almacenamiento de datos para TI. La aplicación más atractiva, al menos al principio, son los datos de almacenamiento en frío que se escriben una vez y se leen rara vez.
Otras aplicaciones incluyen medios. El año pasado, Twist codificó, de manera bastante apropiada, un episodio de la serie de Netflix. Biohackers al ADN. Ser capaz de registrar de manera efectiva cantidades ilimitadas de datos, almacenarlos indefinidamente y reproducirlos rápidamente, podría ser adecuado para la industria cinematográfica y otras industrias creativas.
Otras aplicaciones potenciales incluyen el almacenamiento de datos médicos y el archivo legal y de cumplimiento.
Sin embargo, esto plantea algunos otros problemas, que se refieren tanto a los estándares como a la tecnología. “Para datos como WORM – escribir una vez, leer muchas – o WORN – escribir una vez, leer nunca – es importante que los datos sean inmutables”, advierte Monroe de Gartner. “Necesitas saber que lo que escribes, digamos una imagen de un cerebro hoy, será exactamente lo mismo dentro de 10 años”.
Si los investigadores pueden asegurarse de que ese sea el caso, entonces la doble hélice de la vida podría emerger como la mejor manera de almacenar nuestros datos en un futuro lejano.