MS_Purview_M365E5-SecOps_e02v01_Art02-MS_CSU_Security_MCSA
MS_Purview_M365E5-SecOps_e02v01_Art02-MS_CSU_Security_MCSA
Este bloque describe el Data Map de Microsoft Purview como núcleo técnico de la gobernanza de datos moderna. Explica cómo escanea fuentes multicloud y sistemas on‑premises para construir un inventario de metadatos. Presenta funciones de clasificación automática, linaje, catálogo unificado y políticas de acceso centralizadas. Incluye capacidades analíticas, como Data Estate Insights, y de colaboración segura, como Data Sharing. El objetivo es mostrar cómo este mapa sostiene seguridad, cumplimiento y uso responsable del patrimonio de datos. También introduce su modelo de escalado por unidades de capacidad y su papel como base para otras soluciones Purview.
El Data Map realiza escaneos multicloud y multiconector sobre Azure, otras nubes y entornos locales. Usa conectores nativos y un runtime autohospedado para llegar a bases de datos, lagos de datos, almacenamiento de objetos y plataformas analíticas. Cada escaneo puede ser completo o incremental y se programa para minimizar impacto en producción. El resultado es un inventario técnico estructurado. El modelo de unidades de capacidad escala coste y rendimiento según el tamaño del patrimonio.
Durante el escaneo, el Data Map aplica clasificadores automáticos sobre el contenido y genera metadatos de sensibilidad. Microsoft ofrece cientos de clasificadores listos para datos personales, financieros y de salud en distintas jurisdicciones. Así surge un inventario también semántico, no solo técnico. Estas etiquetas alimentan Information Protection y las políticas de prevención de pérdida de datos. Gracias a las sensitivity labels unificadas, documentos de Microsoft 365 y datos catalogados comparten la misma taxonomía de clasificación.
El Data Map construye de forma automática el linaje de datos para procesos en Azure Data Factory, Synapse, Databricks y Fabric. Registra orígenes, transformaciones, destinos y dependencias entre activos. Esto permite responder preguntas de auditoría: dónde residen los datos personales, qué sistemas los procesan, quién los consume. También acelera el análisis de impacto ante incidentes o brechas. El linaje se convierte en insumo clave para registros exigidos por el Reglamento GDPR y para eDiscovery Premium.
Sobre el Data Map se apoya el catálogo unificado, que ofrece descubrimiento semántico para perfiles técnicos y de negocio. Convierte nombres físicos complejos en términos de negocio comprensibles y permite anotaciones de expertos y colecciones por dominio. Así se democratiza el acceso al inventario sin exponer los sistemas de producción. Por otro lado, Data Estate Insights resume cobertura de escaneo, tipos de información sensible y tendencias. Es la base para reportes de postura de gobernanza.
Data Policy permite gobernar el acceso a fuentes de Azure desde Purview. En lugar de administrar permisos servicio por servicio, se definen políticas basadas en roles, colecciones y clasificaciones claras. La plataforma aplica y sincroniza estos controles, reduciendo riesgos de sobreexposición y configuraciones residuales. Además, Data Sharing habilita compartir datos con unidades o socios sin duplicar almacenamiento. Todo el modelo convierte al Data Map en prerequisito para capacidades como Data Loss Prevention y Compliance Manager.
Bloque 2/11: El Purview Data Map, corazón técnico de la gobernanza
Nivel 2: Conceptos clave
| Concepto | Explicación / Data |
|---|---|
| Escaneo multicloud y multiconector | El Data Map conecta con fuentes de datos heterogéneas mediante conectores nativos. En Azure incluye Azure SQL Database, Azure SQL Managed Instance, Azure Data Lake Storage Gen1 y Gen2, Azure Blob Storage, Azure Synapse Analytics, Azure Cosmos DB, Azure Database for PostgreSQL/MySQL y Azure Files. Fuera de Azure incluye Amazon S3, Google Cloud Storage, SQL Server on-premises, SAP ECC y SAP S/4HANA, Oracle Database, Teradata, Power BI, y otros a través del runtime de integración autohospedado (Self-hosted Integration Runtime). Cada escaneo puede ser completo o incremental, y programarse en ventanas de tiempo definidas para minimizar impacto en producción. El resultado es un conjunto estructurado de metadatos técnicos: nombre del activo, ubicación, tipo de dato, esquema (para datos estructurados), propietario técnico inferido y última fecha de modificación. Este inventario es la base sobre la cual operan las demás capacidades de Purview. |
| Clasificación automática durante el escaneo | De forma simultánea a la captura de metadatos técnicos, el Data Map aplica clasificadores predefinidos sobre el contenido de los activos escaneados. Microsoft provee más de 200 clasificadores del sistema que cubren tipos de datos sensibles en múltiples jurisdicciones: números de tarjeta de crédito, números de seguridad social (USA), DNI/CUIT/CUIL (Argentina), números de pasaporte, datos de salud, coordenadas geográficas, credenciales de autenticación, entre otros. El resultado es un inventario también semántico: cada activo queda etiquetado con los tipos de información sensible detectados en su contenido, generando una vista de sensibilidad inferida sin intervención manual. Estos metadatos de sensibilidad son consumibles por las políticas de Information Protection y DLP, unificando el pilar de Data Governance (Azure-native) con el de Data Security (M365-native). |
| Linaje del dato (Data Lineage) | El Data Map construye automáticamente el grafo de linaje para activos procesados a través de Azure Data Factory, Azure Synapse Analytics, Azure Databricks y Microsoft Fabric. El linaje registra el origen del dato (fuentes que lo generaron), las transformaciones aplicadas (pipelines y operaciones), los destinos donde se escribe (tablas o sistemas consumidores) y las dependencias entre activos (reportes o modelos que dependen de qué tablas). Para seguridad y cumplimiento, el linaje permite responder preguntas típicas de auditoría de privacidad (dónde están los datos personales de ciertos colectivos, qué sistemas los procesan, quién los consume) y análisis de impacto de brecha (qué datos fueron accedidos, cómo llegaron allí, qué sistemas downstream están afectados). La documentación del linaje es un insumo directo para los registros de actividades de tratamiento requeridos por el GDPR (Art. 30) y normas equivalentes. |
| Unified Catalog: descubrimiento semántico | Sobre el Data Map opera el Unified Catalog, una capa de descubrimiento que transforma el inventario técnico en un recurso navegable para usuarios de negocio y técnicos. El catálogo ofrece búsqueda semántica sobre metadatos técnicos y de negocio, un glosario de términos de negocio configurable (por ejemplo, mapear el término técnico “tbl_cust_pii_ar” al término de negocio “Datos personales de clientes - Argentina”), anotaciones de expertos de dominio sobre calidad y uso apropiado de cada activo, y colecciones organizadas por dominio de negocio o unidad organizacional. El catálogo democratiza el acceso al inventario: un Data Privacy Officer puede encontrar todos los activos que contienen datos personales de ciudadanos argentinos sin conocer la arquitectura técnica subyacente ni tener acceso directo a los sistemas de producción. |
| Data Policy: gobernanza de acceso centralizada | Data Policy permite definir y aplicar políticas de acceso sobre fuentes de datos en Azure (Azure SQL, Azure Storage, Azure Data Lake) directamente desde el portal de Purview, sin gestionar permisos servicio por servicio. En el modelo tradicional, un administrador debía entrar a cada base de datos o cuenta de almacenamiento para otorgar o revocar permisos. Con Data Policy se define una política centralizada en Purview (por ejemplo, “el rol Data Reader tiene acceso a todos los activos clasificados como Datos Operacionales en la colección Finanzas”) y la plataforma propaga y aplica ese control en los servicios subyacentes de forma automática. Esto reduce de manera significativa el riesgo de configuraciones de permisos inconsistentes o residuales, una de las causas más frecuentes de sobreexposición de datos en entornos cloud. |
Nivel 3: Notas de soporte
El modelo de escala del Data Map se basa en Capacity Units (CU). Cada CU proporciona capacidad de operación para el mapa y añade almacenamiento de metadatos. El modelo de pago por uso implica que el costo escala con el tamaño del patrimonio de datos gestionado, no con el número de usuarios. En organizaciones grandes, con datos distribuidos en múltiples regiones y cuentas de nube, el diseño de la arquitectura del Data Map (número de cuentas Purview, organización en colecciones, estrategia de escaneo incremental frente a completo) impacta directamente en el costo operacional y en la calidad y latencia del inventario.
Data Estate Insights es el componente analítico que opera sobre el Data Map y ofrece una vista ejecutiva del estado del patrimonio de datos: porcentaje de activos clasificados frente a sin clasificar, distribución de tipos de información sensible por fuente, tendencias de crecimiento del patrimonio y brechas de cobertura de escaneo. Es el insumo principal para los informes de postura de gobernanza de datos que un CISO o CDO presenta a la junta directiva o a reguladores.
Data Sharing es una capacidad del Data Map que permite compartir activos de datos con socios externos o con otras unidades de negocio internas sin duplicar el almacenamiento físico. El receptor accede a los datos en el origen (por ejemplo, Azure Data Lake) con permisos controlados y auditados, mientras que la organización propietaria mantiene el control completo para revocar el acceso en cualquier momento. Esto es clave en ecosistemas de datos colaborativos (consorcios, joint ventures, intercambio entre filiales) donde privacidad y soberanía del dato son requisitos críticos.
La integración entre el Data Map y los componentes M365-native de Purview se articula mediante sensitivity labels. Las etiquetas definidas en el portal de Purview (purview.microsoft.com) se aplican tanto a documentos en M365 como a activos catalogados en el Data Map, creando una taxonomía de sensibilidad unificada que atraviesa ambos entornos. Esta taxonomía común es el puente técnico central que persiguió la unificación de Purview iniciada en 2022.
Conexiones externas
El Data Map es el prerrequisito técnico que habilita la clasificación automática descrita en el Bloque 3/11 (Information Protection). Los metadatos de sensibilidad generados durante el escaneo son consumidos por las políticas DLP del Bloque 4/11. Las evaluaciones normativas de Compliance Manager (Bloque 8/11) utilizan los insights del Data Map para evaluar el estado de clasificación y protección del patrimonio de datos. El linaje del dato generado por el Data Map es el insumo forense clave para las investigaciones de eDiscovery Premium del Bloque 7/11.