IDC estima que es probable que más del 80% de la información comercial esté formada por datos no estructurados para 2025.
Y aunque “no estructurado” puede ser un nombre poco apropiado, porque todos los archivos tienen algún tipo de metadatos mediante los cuales se pueden buscar y ordenar, por ejemplo, hay grandes volúmenes de esos datos en manos de las empresas.
En este artículo, analizamos las particularidades de trabajar con datos no estructurados y el almacenamiento (por lo general, un archivo u objeto) que necesita.
En el pasado, las imágenes, las grabaciones de voz, los videos, los registros de chat y los documentos de diversos tipos eran en gran medida solo una responsabilidad de almacenamiento y se consideraban un dolor de cabeza para cualquiera que necesitara administrarlos, organizarlos y mantenerlos seguros.
Pero ahora los datos no estructurados se ven como una fuente valiosa de información empresarial. Con el procesamiento analítico, se puede obtener valor; por ejemplo, es posible ejecutar AI/ML contra conjuntos de imágenes publicitarias y mapear lo que los visitantes del sitio ven para hacer clic en el comportamiento. El análisis de datos de imágenes no estructurados puede crear campos estructurados que pueden impulsar la toma de decisiones editoriales.
En otros lugares, las copias de seguridad, consignadas durante mucho tiempo en archivos en cinta polvorientos y de difícil acceso, ahora se consideran una fuente potencial de datos para el procesamiento analítico. Y con la amenaza del ransomware como prioridad en la agenda, la necesidad de realizar copias de seguridad para recuperarse es más pertinente que nunca.
Estructurado, no estructurado, semiestructurado
Los datos no estructurados, en términos generales, son datos e información que no se ajustan a un modelo de datos predefinido; en otras palabras, información que se crea y vive fuera de una base de datos relacional.
Es muy probable que la información comercial generada por los sistemas esté estructurada, con detalles de productos y clientes, números de pedido, niveles de existencias e información de envío creada por un sistema de ventas y almacenada en su base de datos subyacente como ejemplos típicos.
Se trata más que probablemente de bases de datos SQL, configuradas con un esquema basado en tablas y datos almacenados en filas y columnas que permiten escrituras y consultas de datos muy rápidas, con muy buena integridad transaccional. Las bases de datos SQL están en el corazón de las aplicaciones de mayor rendimiento y de misión crítica en uso.
No estructurado/semiestructurado
Los datos no estructurados a menudo son creados por personas e incluyen correo electrónico, publicaciones en redes sociales, grabaciones de voz, imágenes, videos, notas y documentos como archivos PDF.
Como se mencionó, la mayoría de los datos no estructurados en realidad pueden ser lo que llamaría semiestructurados y, aunque no se encuentran en una base de datos, aunque eso es posible, hay cierta estructura en sus metadatos. Por ejemplo, una imagen de un artículo entregado, superficialmente, no estaría estructurada, aunque los metadatos de los archivos de la cámara la hacen semiestructurada.
Y luego están los archivos de respaldo, en los que todos los datos de una organización se copian, comprimen, cifran y empaquetan en el formato (generalmente propietario) del proveedor de respaldo.
El hecho de que las copias de seguridad agrupen todos los tipos de datos lo convierte en un desafío de datos no estructurados, y uno que posiblemente tenga más relevancia que nunca con el aumento de la amenaza del ransomware.
Necesidades de almacenamiento no estructurado y semiestructurado
Como hemos visto, los datos no estructurados se definen más o menos por el hecho de que no se crean mediante el uso de una base de datos. Puede darse el caso de que se aplique más estructura a los datos no estructurados más adelante en su vida, pero luego se convierte en otra cosa.
Lo que veremos aquí son los requisitos clave para la infraestructura de almacenamiento de datos no estructurados. Estos son:
- Volumen: por lo general, hay muchos datos no estructurados, por lo que la capacidad es un requisito clave.
- Almacenamiento de archivos y/u objetos: el almacenamiento en bloque es para bases de datos y, como hemos visto, no es un requisito para los casos de uso de datos no estructurados. El almacenamiento de objetos y basado en archivos (NAS) satisface la necesidad de.
- Rendimiento: Históricamente, esto no habría estado en la agenda, pero con la necesidad de análisis más cercanos al tiempo real y para una rápida recuperación de un ataque cibernético, ahora es más una consideración.
Nube y datos no estructurados
Con estos requisitos en mente, el almacenamiento en la nube parece encajar bien como un sitio para almacenar datos no estructurados. Sin embargo, hay potencialmente algunas cosas que funcionan en su contra.
El almacenamiento en la nube proporciona objetos (abrumadoramente, en términos de volumen) y almacenamiento de acceso a archivos, por lo que es potencialmente adecuado en ese sentido.
El almacenamiento en la nube también puede proporcionar capacidad, y es muy posible que los datos se puedan almacenar en volumen en la nube de una manera extremadamente rentable. Pero por lo general, los costos se pueden mantener muy bajos solo cuando no se accede a los datos, por lo que ese es el primer inconveniente potencial del almacenamiento en la nube.
Por lo tanto, la nube es muy buena para datos fríos, pero cualquier tipo de E/S comienza a aumentar los costos. Sin embargo, eso puede ser aceptable según el tamaño y los requisitos de acceso de su carga de trabajo. Los conjuntos de datos pequeños, o aquellos que requieren un acceso poco frecuente, serían ideales.
Almacenamiento de archivos y objetos in situ
El NAS en clúster y el almacenamiento de objetos se adaptan bien a volúmenes muy grandes de datos no estructurados. En todo caso, el almacenamiento de objetos se adapta aún mejor a grandes cantidades de datos debido a su capacidad superior de escalar.
El almacenamiento basado en archivos se basa en un sistema de archivos y una estructura jerárquica similar a un árbol. Esto puede generar sobrecargas de rendimiento a medida que se atraviesa el sistema de archivos. El almacenamiento de objetos, por el contrario, se basa en una estructura plana con objetos/archivos que poseen una identificación única que facilita el acceso.
El almacenamiento en el sitio puede disipar las preocupaciones sobre la seguridad de los datos y su disponibilidad, y potencialmente puede resultar menos costoso que poner los datos en la nube.
Cualquier conjunto de protocolos (archivo y objeto) es adecuado para el almacenamiento de datos no estructurados.
Agregue flash para un acceso rápido
Es muy posible crear un almacenamiento de archivos y objetos con un rendimiento adecuado en el sitio utilizando un disco giratorio. Con las capacidades necesarias, HDD suele ser la opción más económica.
Pero los avances en la fabricación de memorias flash han llevado a que el almacenamiento de estado sólido de alta capacidad esté disponible, y los fabricantes de matrices de almacenamiento han comenzado a utilizarlo en hardware con capacidad de almacenamiento de archivos y objetos.
Esto es QLC – celda de cuatro niveles – flash. Esto incluye cuatro niveles de conmutadores binarios a celdas flash para proporcionar una mayor densidad de almacenamiento y, por lo tanto, un costo por GB más bajo que cualquier otro flash comercialmente utilizable actualmente.
Sin embargo, las compensaciones que vienen con QLC son que la vida útil del flash puede verse comprometida, por lo que es más adecuado para datos de gran capacidad a los que se accede con menos frecuencia.
Pero la velocidad de flash es particularmente adecuada para casos de uso no estructurados, como en análisis donde se necesita un procesamiento rápido y, por lo tanto, E/S, y en casos en los que los clientes pueden querer restaurar grandes conjuntos de datos a partir de copias de seguridad en caso de un ataque de ransomware. Por ejemplo.
Los proveedores de hardware de almacenamiento que venden arreglos basados en QLC adecuados para archivos y, en algunos casos, almacenamiento de objetos incluyen:
Dell EMC, con PowerScale, que incluye el NAS de escalamiento horizontal Isilon de EMC (parcialmente) renombrado y con acceso al almacenamiento de objetos S3. Sus opciones equipadas con flash all-flash (también tiene flash híbrido) NVMe QLC vienen en una gama de capacidades que escalan a decenas de PB.
NetApp, que recientemente lanzó una nueva familia de matrices de almacenamiento flash QLC, la serie C, dirigida a casos de uso de mayor capacidad que también necesitan la velocidad de SSD. La serie C comienza con tres opciones: C250, C400 y C800, que escalan a 35 PB, 71 PB y 106 PB respectivamente. El acceso al almacenamiento de objetos es posible pero limitado mediante el protocolo a través del sistema operativo Ontap de NetApp.
Pure Storage con su FlashArray//C proporciona flash totalmente QLC NVMe conectado en dos modelos, //C40 y //C60 con capacidades en el rango PB. Mientras tanto, la familia FlashBlade//S de Pure se comercializa explícitamente como “archivo y objeto rápidos” con NVMe QLC en sus módulos patentados en dos modelos. El S200 enfatiza la capacidad, con reducción de datos, mientras que el S500 apuesta por el rendimiento.