En este podcast, hablamos con Pure Storage sobre los desafíos que presenta el almacenamiento de datos por el enorme crecimiento de los datos no estructurados y la necesidad de obtener información útil a partir de ellos.
Hablamos con Amy Fowler, vicepresidenta de estrategia y marketing de productos de FlashBlade en Pure Storage, y el evangelista técnico de FlashBlade, Justin Emerson, sobre la naturaleza de los datos no estructurados, su inmenso crecimiento en términos de volumen de datos y su diversidad entre los tipos de datos, así como los requisitos. en términos de almacenamiento para enfrentar ese desafío.
Antonio Adshead: ¿Cuáles son los principales desafíos que enfrentan las empresas con datos no estructurados en términos de gestión, uso y análisis?
Amy Fowler: En primer lugar, hoy en día todo el mundo tiene datos no estructurados, así que creo que es un buen punto de partida. Creo que la métrica más reciente que vi es que el 80 % de los datos empresariales no estarán estructurados para 2025, por lo que sin duda representa algo importante con lo que lidiar.
Y aunque hemos estado hablando sobre el crecimiento de los datos desde que tengo memoria, y he estado en el almacenamiento más de la mitad de mi vida, ya no se trata solo de cuántos terabytes o petabytes, sino también de las fuentes potenciales de datos que están contribuyendo al crecimiento, por supuesto.
Solía ser que los datos críticos estaban principalmente en bases de datos transaccionales que alimentaban datos a un almacén de datos, y eso era bastante sencillo. Pero en estos días, si usted es un minorista, una organización de servicios financieros o una organización de atención médica, probablemente obtenga datos valiosos en forma de fuentes súper diversas; de imágenes a tweets a IoT [internet of things] y registrar datos.
Y todo el mundo le dice que su activo más valioso son sus datos. Entonces, sabe que idealmente no quiere tirar nada, pero al mismo tiempo no quiere almacenar todo para siempre, tanto en términos de eficiencia como por razones regulatorias.
Entonces, lo primero es que la gestión de datos no estructurados se convierte en un gran desafío: ¿Qué tengo? ¿Qué quiero conservar? Y, lo que es más importante, ¿qué ideas puedo extraer de él?
Y un elemento importante de esto son los metadatos, los datos sobre los datos, para que pueda obtener ayuda para tomar esas decisiones.
La segunda gran cosa es que las empresas también saben que pueden hacer más con los datos, ya sea trazando conexiones, sacando conclusiones de fuentes de datos dispares para optimizar las ganancias o para la detección de amenazas o, en el caso de los datos de imágenes de atención médica, para acelerar el diagnóstico o el paciente. cuidado.
Para hacer esto de manera efectiva, para conectar los puntos entre fuentes dispares para obtener esos conocimientos, realmente necesita poder triangular los datos. No puede estar en docenas de silos físicos.
Lo tercero que conectaría con la disminución de la capacidad de atención humana, que es de entre ocho y 15 segundos, según el estudio que tengas para leer en Google. Pero los usuarios de sus datos ahora esperan poder obtener información de ellos muy rápido.
Por lo tanto, saber lo que tiene desde una perspectiva de administración de datos y guardarlo todo en un solo lugar no es suficiente. Debe tenerlo viviendo en una infraestructura que ofrezca un nivel de rendimiento para que realmente pueda analizarlo rápidamente. Y eso es mucho y muy diferente a lo que las organizaciones enfrentaban incluso hace cinco o seis años.
Anuncio: ¿Qué desafíos técnicos de almacenamiento presentan los datos no estructurados y qué tecnologías de almacenamiento se requieren para superarlos?
Justin Emerson: Creo que todos los problemas principales vienen de alguna forma con respecto a la escala.
Entonces, ya sea escala en términos de la cantidad de archivos u objetos, lo que puede generar complejidad en la forma en que diseña las aplicaciones, los protocolos que necesita, el rendimiento que necesita y, cada vez más, en términos de cómo aborda los requisitos de consumo de energía de estas cosas en escala.
Amy habló sobre cómo solía analizar los datos que ocurrieron antes, en un almacén de datos. Ahora está tratando de analizar datos en tiempo real. La próxima ola es ¿cómo analizas las cosas o predices las cosas en el futuro?
Para hacer eso, la cantidad de datos que necesita aumenta enormemente. La cantidad de rendimiento que necesita para analizar esos datos aumenta cada vez más, y luego todas esas cosas crean presión sobre los entornos o las limitaciones de su centro de datos.
Entonces, en los casos más grandes, termina dimensionando una infraestructura completa para el tamaño de un centro de datos o el tamaño de una huella de energía. Y eso está impulsando las decisiones de muchos clientes en el extremo más grande de la escala.
La forma de lidiar con estas cosas es que debe comenzar a pensar en la escalabilidad desde el principio y en todos los niveles de la pila.
Si no está creando aplicaciones escalables, razón por la cual tanta gente, tantos tipos diferentes de aplicaciones están siendo refactorizadas o reconstruidas para una infraestructura escalable similar a la nube o una infraestructura consumible, debe poder construir esas aplicaciones para consumir una cantidad escalable de datos, datos que abarcan potencialmente múltiples espacios de nombres, múltiples centros de datos, muchos tipos diferentes de datos y, por último, construir sobre plataformas, plataformas fundamentales que le brindan ese nivel de escala.
Porque todos los problemas tienden a surgir del hecho de que la cantidad de datos está creciendo, la cantidad de poder de cómputo requerido para procesar esos datos está creciendo, y ese crecimiento impulsa todos estos problemas de escala.
Y cómo encuentra esos problemas de escala en varios niveles diferentes de escala es bastante interesante.