La clasificación de datos es un requisito previo esencial para la protección, la seguridad y el cumplimiento de los datos. Las empresas necesitan saber dónde están sus datos y los tipos de datos que tienen.
Las organizaciones también necesitan clasificar los datos para garantizar que tengan el nivel adecuado de protección y si se almacenan en el tipo de almacenamiento más adecuado en términos de costo y tiempo de acceso.
Comprobaciones de clasificación de datos para información de identificación personal (PII). También puede clasificar propiedad intelectual o información financiera y estratégica sensible. Además, la clasificación de datos proporcionará información básica, como el formato de datos, cuándo se accedió por última vez, controles de acceso, etc. Finalmente, la clasificación de datos a menudo formará parte del trabajo de análisis a gran escala, como en los lagos de datos.
“La idea de un esquema de clasificación es poder calificar la sensibilidad o la importancia de los datos para una organización”, dice David Adams, consultor de seguridad de GRC en Prism Infosec. “La aplicación de una clasificación de datos significativa permite que una organización pueda comprender sus datos confidenciales y aplicar los controles apropiados”.
Clasificación y gestión de datos
Cada vez más, las organizaciones han invertido en herramientas dedicadas para clasificar conjuntos de datos a medida que se ingieren, así como para escanear datos almacenados en busca de información confidencial y crear catálogos de datos y glosarios comerciales. Estos, a su vez, ayudan con la seguridad, la gestión de datos y la calidad de los datos. Este enfoque basado en herramientas está reemplazando los scripts personalizados en los que las empresas a menudo han confiado para el descubrimiento de datos.
Los proveedores también han recurrido a sistemas basados en lenguaje natural para facilitar la gestión de datos a los no especialistas, y a la automatización a través del aprendizaje automático y la inteligencia artificial (IA). Esto es en respuesta a los crecientes volúmenes de datos que las organizaciones necesitan procesar y al crecimiento de los datos no estructurados.
Pero también es una respuesta a las presiones de cumplimiento. Los sistemas automatizados son menos propensos a errores humanos y pueden ser invaluables para rastrear conjuntos de datos clasificados incorrectamente o protegidos inadecuadamente.
Gartner señala que la clasificación manual de datos es engorrosa y propensa a inconsistencias. Y el crecimiento de los volúmenes de datos, junto con un mayor uso de datos no estructurados, hace que sea casi imposible realizar la tarea manualmente.
Pero la clasificación de datos es fundamental para la estrategia, el gobierno y el cumplimiento de TI, y también para la tolerancia al riesgo de una empresa. Si una organización carece de un registro preciso de sus datos, no tendrá una visión precisa de su riesgo. Esto puede dejar desprotegidas las fuentes de datos críticas o, como advierte Gartner, puede resultar en una “clasificación excesiva” de los datos y una carga innecesaria para la organización.
¿Herramientas o plataformas?
Las herramientas de clasificación de datos vienen como productos independientes, generalmente de catalogación de datos, o como parte de conjuntos de herramientas de gestión de datos o calidad de datos más amplios. Además, pueden formar parte de una aplicación de inteligencia empresarial (BI) o de software empresarial.
Algunos proveedores, incluidos Microsoft y SAP, brindan clasificación de datos como un servicio. Además, existe una tendencia hacia las ofertas “sin servidor” de otros proveedores que eliminan la necesidad de que los usuarios configuren la infraestructura de TI. Esto es especialmente útil para cargas de trabajo basadas en la nube, pero no se limita a ellas.
La mayoría de los proveedores reclaman al menos algunas capacidades de aprendizaje automático (ML) o IA para automatizar el proceso de clasificación de datos. Algunos también proporcionan clasificación de datos como parte de un conjunto de herramientas de calidad de datos más amplio.
Resumen de herramientas
Los proveedores de herramientas de clasificación de datos incluyen proveedores de análisis empresarial, empresas de bases de datos e infraestructura, proveedores de software de aplicaciones, proveedores de la nube y especialistas en nichos. También hay varias opciones de código abierto.
Como era de esperar, IBM, Microsoft, Oracle y SAP tienen presencia en el mercado.
IBM
Watson Knowledge Catalog de IBM funciona con InfoSphere Information Governance Catalog del proveedor para el descubrimiento y la gestión de datos. Tiene más de 30 conectores a otras aplicaciones, usa un glosario de negocios común y fue diseñado para usar IA y ML.
microsoft
El catálogo de datos Purview de Microsoft también utiliza un catálogo de datos empresariales y es parte del servicio de control de datos, cumplimiento y gestión de riesgos de Purview que Microsoft ofrece a través de su plataforma en la nube Azure.
SAVIA
SAP ofrece la clasificación de documentos como un servicio a través de sus operaciones en la nube o como parte de sus servicios comerciales de IA. También tiene un servicio de recomendación de atributos de datos impulsado por IA para clasificar automáticamente los datos maestros.
Oráculo
Oracle ofrece su catálogo de datos de infraestructura en la nube para proporcionar un servicio en la nube de gestión de metadatos para crear un inventario de activos y un glosario empresarial. Incluye tecnología de inteligencia artificial y capacidades de descubrimiento.
Informática
El proveedor de gestión de datos Informatica ofrece su herramienta Enterprise Data Catalog. Esta es una herramienta basada en ML que puede escanear datos y clasificarlos en almacenamiento local y en la nube. También funciona con herramientas de BI y catálogos de metadatos de terceros.
Qlik
La empresa de análisis y BI Qlik ha desarrollado sus herramientas de clasificación de datos en los últimos años, incluso a través de la adquisición de Podium, que agregó herramientas de preparación, calidad y gestión de datos. La parte de catalogación de datos de la plataforma de integración de datos de Qlik tiene como objetivo trabajar en estrecha colaboración con sus herramientas de BI y análisis, pero también puede intercambiar datos con otras aplicaciones y catálogos.
Cuadro
Tableau adopta un enfoque similar, colocando su herramienta Catalog en su paquete de administración de datos. Este es un complemento a su plataforma de análisis. La herramienta ingiere información de los conjuntos de datos de Tableau en su catálogo y ofrece interfaces de programación de aplicaciones (API) que pueden traer datos de otras aplicaciones.
El Catálogo de datos en la nube de Google, a pesar de su nombre, es un servicio de descubrimiento de datos administrado que funciona en almacenes de datos locales y en la nube. Se integra con las herramientas de prevención de pérdida de datos y administración de acceso e identidad de Google, y es “sin servidor”, por lo que los usuarios no tienen que configurar la infraestructura.
Servicios web de Amazon
AWS proporciona su catálogo de datos a través de Glue, un servicio ETL (extracción, transformación y carga) administrado. Glue Data Catalog funciona en una variedad de servicios de AWS, incluido AWS Lake Formation, así como con almacenes de datos Apache Hive de código abierto.
atacama
Ataccama One es la plataforma de gobierno y gestión de datos del proveedor, y figura en el Cuadrante Mágico de Gartner para soluciones de calidad de datos. Su módulo de catálogo de datos automatiza el descubrimiento de datos y la detección de cambios y funciona con bases de datos, lagos de datos y sistemas de archivos. El énfasis del proveedor está en la mejora de la calidad de los datos.
Collibra
Collibra también está calificado por Gartner en su Magic Quadrant, y es una plataforma en la nube de inteligencia de datos basada en un catálogo de datos basado en ML. El catálogo de datos tiene una integración preconstruida con aplicaciones comerciales, BI y almacenes de datos. Afirma que los usuarios pueden buscar almacenes de datos utilizando la herramienta, sin necesidad de aprender SQL.
DataHub y Apache Atlas
DataHub se originó en LinkedIn como una herramienta de búsqueda y descubrimiento de metadatos, y pasó a ser de código abierto en 2020. Pero quizás la herramienta de código abierto más compatible es Apache Atlas, que ofrece catalogación de datos, gestión de metadatos y gobierno de datos.