Clasificación de datos: qué, por qué y quién los proporciona

Cuando se trata de gestionar datos, necesitamos saber dónde están, pero también debemos saber qué son.

Con el aumento de los controles regulatorios, las empresas ahora prestan más atención a la soberanía de los datos, especialmente cuando se trata de datos en la nube, pero saber exactamente qué información tienen es igualmente importante.

Este concepto –clasificación de datos– no es nuevo. Pero con el crecimiento de los datos no estructurados en particular, es esencial tener una imagen clara de todos los activos de datos. Y cada vez más, las empresas recurren ahora a herramientas de inteligencia artificial (IA) para ayudar con esto.

¿Qué es la clasificación de datos y por qué la necesitamos?

Las organizaciones han organizado durante mucho tiempo los datos por función o “clasificador descriptivo”, como por ejemplo si se trata de un archivo de recursos humanos o registros de ventas. Luego clasifican por sensibilidad, también conocido como requisito de control. Luego está la información basada en el contexto, como cuándo y dónde se crearon los datos, y atributos técnicos como el tipo o tamaño del archivo.

El almacenamiento en la nube de menor costo permite a las organizaciones almacenar más datos durante más tiempo, lo que les permite utilizarlos para inteligencia empresarial, lo que hoy en día significa cada vez más entrenar modelos de IA.

Pero esos datos deben estar bien organizados para que no sean difíciles de encontrar y utilizar. Proteger esos datos también es vital. La gobernanza y la administración de datos dependen de una clasificación eficaz de los datos. El almacenamiento de datos también es menos eficiente a menos que la empresa tenga un plan sólido de clasificación de datos.

La clasificación manual de datos, si bien es posible, es ineficiente, poco confiable y difícil de escalar. Aunque las organizaciones pueden crear políticas que requieran que los usuarios clasifiquen los datos agregando etiquetas, rótulos o palabras clave, esto en realidad solo funciona para las clasificaciones más amplias (como la confidencialidad) y para los archivos recién creados.

A medida que las organizaciones incorporan más datos de fuentes externas, como aplicaciones web, clientes e Internet de las cosas, es realmente necesario automatizar la clasificación eficaz de los datos. La clasificación de datos es una parte clave de la gestión del ciclo de vida de los datos y es esencial para la seguridad de los datos.

Herramientas de clasificación de datos

Como señalan los analistas de Gartner, la clasificación manual de datos puede provocar una clasificación errónea debido a un error humano. Además, las etiquetas y rótulos son “unidimensionales” y “no proporcionan contexto suficiente para aumentar los controles regulatorios de datos”. No logran capturar el contexto y suelen ser estáticos. Los datos también pueden utilizarse para diferentes fines durante su ciclo de vida.

La automatización resuelve parte de esto agregando contexto, además de observar el contenido de los datos, su ubicación y los documentos adyacentes. Según Gartner, las herramientas de clasificación estándar funcionan bien con tipos de datos estándar y en organizaciones que ya tienen datos bien formateados. La tarea se vuelve más difícil a medida que las organizaciones utilizan más datos no estructurados.

Cada vez más, los proveedores utilizan el aprendizaje automático para examinar conjuntos de datos y documentos y descubrir elementos que puedan identificar, registrar y rastrear. Pero, como señala Gartner, su desempeño puede ser limitado cuando se trata de manejar datos de propiedad.

No obstante, el mercado ofrece una gama de herramientas de clasificación de datos, desde aplicaciones independientes hasta aquellas integradas en bases de datos o aplicaciones empresariales, especialmente inteligencia empresarial. A veces se los describe como catálogos de datos empresariales.

Otro enfoque es agrupar la clasificación y catalogación como parte de aplicaciones más amplias de cumplimiento y gobernanza de datos empresariales. Como era de esperar, los proveedores ahora buscan integrar la IA en sus herramientas para mejorar la precisión y reducir la necesidad de etiquetado manual.

Entrada de IA, salidas de datos

La clasificación de datos es una aplicación natural de la inteligencia artificial. Los proveedores han utilizado el aprendizaje automático en herramientas de catalogación de datos durante algún tiempo. No es un caso de uso que dependa de la IA generativa (GenAI) o de grandes modelos de lenguaje (LLM), aunque algunas herramientas ahora los utilizan.

Algunos proveedores de herramientas utilizan aprendizaje automático y redes neuronales, árboles de decisión y regresión logística. Estos entrenan modelos de IA para encontrar patrones en los datos, especialmente en los datos no estructurados. Luego, los modelos se pueden utilizar para aplicar etiquetado automático a los datos.

Luego, los clientes pueden probar y perfeccionar los modelos antes de implementarlos. Esto es importante porque los conjuntos de datos de los clientes difieren y una herramienta lista para usar podría no comprender los detalles de los datos de ese cliente o la relación entre los diferentes datos dentro de la organización. Se puede utilizar un modelo de IA eficaz para enriquecer los metadatos asociados con un archivo o documento.

Luego, los metadatos se pueden utilizar para crear un catálogo de datos empresariales y, a su vez, controles más efectivos. Otra ventaja de los sistemas automatizados y basados ​​en IA es que son dinámicos. Si la empresa reclasifica datos (debido a cambios regulatorios, por ejemplo), la herramienta de clasificación de datos debería poder actualizar el catálogo sobre la marcha.

Los metadatos y el catálogo se pueden utilizar luego para la retención de datos y en herramientas de seguridad y prevención de pérdida de datos, así como para cumplir con las reglas de residencia de los datos. Esto es difícil de hacer con datos no estructurados, pero una gestión sólida de los datos es vital para el desarrollo de la inteligencia empresarial y la IA.

Proveedores clave de clasificación de datos

Microsoft proporciona clasificadores de datos basados ​​en IA a través de su producto Purview. Estos, dice, están previamente capacitados en datos comerciales, conocimiento del dominio de Microsoft y datos sintéticos. Purview es un servicio más amplio de gestión de riesgos, cumplimiento y gobernanza de datos que se ejecuta en Azure.

IBM ofrece su Catálogo de conocimientos para la clasificación y gestión de datos mediante IA y ML. Se ejecuta como una aplicación SaaS o en Cloud Pak for Data de IBM. IBM utiliza LLM para el enriquecimiento de metadatos.

La herramienta de clasificación de documentos de SAP se retiró en 2023 y se reemplazó por su servicio generativo de extracción de información de documentos basado en inteligencia artificial.

Oracle Cloud Infrastructure proporciona “recolección de metadatos” de fuentes basadas en la nube y OCI Data Catalog para redes privadas y locales.

Las opciones de clasificación de datos de Google Cloud incluyen Data Catalog, que crea inventarios de activos de datos a partir de fuentes de Google Cloud, incluido BigQuery y sus ofertas de inteligencia artificial, desde almacenamiento en la nube y desde fuentes de datos personalizadas a través de una API.

AWS tiene el catálogo de datos Glue, que incluye el descubrimiento de datos automatizado.

También existe una amplia gama de plataformas especializadas de análisis y datos que brindan clasificación y gestión de datos, ya sea directamente o como parte de plataformas comerciales y de inteligencia de datos. Estos incluyen Alatian, Ataccama, Atlan, Collibra, Databricks (a través de su Unity Catalog), Qlik, Tableau, así como el incondicional de los datos Informatica y el proveedor de seguridad de datos Varonis.

Exit mobile version