Resumen rápido: El aprendizaje automático en el almacenamiento de datos transforma la forma en que las organizaciones almacenan, procesan y analizan los datos empresariales, automatizando la optimización de consultas, el análisis predictivo y la gestión de la calidad de los datos. Los almacenes de datos modernos integran algoritmos de aprendizaje automático directamente en su arquitectura, lo que permite obtener información en tiempo real y una gobernanza de datos inteligente. Esta convergencia crea sistemas autooptimizables que reducen la carga de trabajo manual y mejoran la capacidad de toma de decisiones en todas las unidades de negocio.
La convergencia del aprendizaje automático y el almacenamiento de datos representa uno de los cambios más significativos en la gestión de datos empresariales de la última década. Los almacenes de datos tradicionales destacaban por almacenar datos empresariales estructurados, pero requerían un esfuerzo manual considerable para su optimización y la extracción de información valiosa.
Ahora, los algoritmos de aprendizaje automático integrados en las arquitecturas de almacenamiento de datos optimizan automáticamente el rendimiento, detectan anomalías y generan predicciones. No se trata solo de añadir funciones de IA a los sistemas existentes, sino de una reinvención fundamental del funcionamiento de las plataformas de datos.
Las organizaciones que implementan estos enfoques obtienen beneficios tangibles. Según investigaciones sobre conjuntos de datos oncológicos multimodales, las rutinas ETL se ejecutan cada 12 horas para consultar los repositorios de origen, lo que garantiza la actualización continua de los datos sin intervención manual. El cambio de repositorios estáticos a sistemas inteligentes y autogestionados transforma la economía y las capacidades del análisis empresarial.
La convergencia del aprendizaje automático y los almacenes de datos
Tradicionalmente, los almacenes de datos servían como repositorios centralizados para la inteligencia empresarial estructurada. Organizaban los datos de los sistemas transaccionales en modelos dimensionales optimizados para la elaboración de informes y el análisis.
El aprendizaje automático transforma por completo esta dinámica. En lugar de que los almacenes simplemente almacenen datos para que herramientas externas de aprendizaje automático los procesen, ahora los algoritmos residen dentro del propio almacén. Este cambio arquitectónico elimina los cuellos de botella en el movimiento de datos y permite operaciones inteligentes en tiempo real.
Pero aquí está la clave: esta convergencia no es solo una mejora técnica. Altera radicalmente lo que los equipos de datos pueden lograr. Tareas que antes requerían que equipos especializados en ciencia de datos escribieran scripts personalizados en Python ahora se realizan automáticamente mediante funciones nativas del almacén de datos.
Por qué los enfoques tradicionales no dieron resultado
Los sistemas de almacenamiento de datos heredados presentaban tres limitaciones fundamentales. En primer lugar, no podían adaptarse a los patrones de consulta cambiantes sin ajustes manuales. Los administradores de bases de datos dedicaban horas a analizar los planes de ejecución y ajustar los índices.
En segundo lugar, la gestión de la calidad de los datos se basaba en controles rígidos y rígidos. Estos detectaban problemas conocidos, pero pasaban por alto problemas nuevos. Los equipos solo descubrían las anomalías en los datos después de que los informes llegaban a los ejecutivos.
En tercer lugar, las capacidades predictivas requerían exportar datos a plataformas separadas. Esto generaba latencia, riesgos de seguridad y problemas con el control de versiones. La promesa de obtener información en tiempo real seguía siendo, en gran medida, una aspiración.

Cree herramientas de datos más inteligentes con IA superior
IA superior Desarrolla aplicaciones basadas en IA y productos de software a medida utilizando modelos y algoritmos de aprendizaje automático. Su trabajo abarca análisis predictivos, soluciones de inteligencia empresarial (BI), análisis de macrodatos (big data), procesamiento del lenguaje natural (PLN) y herramientas de análisis de datos.
En el ámbito del almacenamiento de datos, esto puede dar soporte a comprobaciones de calidad de los datos, clasificación, previsión, informes automatizados o herramientas analíticas basadas en los datos almacenados.
¿Necesita un mejor uso de los datos del almacén de datos?
AI Superior puede ayudar con:
- Creación de herramientas de aprendizaje automático personalizadas
- Creación de soluciones de BI y análisis
- Analizar grandes conjuntos de datos empresariales
- Integración de la IA en los sistemas de datos existentes
👉 Contacta con IA Superior para hablar sobre su proyecto.
Aplicaciones básicas de aprendizaje automático en almacenes de datos modernos
El aprendizaje automático optimiza el almacenamiento de datos en cuatro áreas principales: optimización de consultas, gestión de la calidad de los datos, análisis predictivo y gobernanza automatizada. Cada aplicación aborda problemas específicos que los procesos manuales no podían resolver de manera eficiente.

Optimización inteligente de consultas
Los optimizadores de consultas basados en aprendizaje automático analizan los patrones de ejecución de miles de consultas. Aprenden qué índices mejoran el rendimiento para cargas de trabajo específicas y pueden predecir planes de ejecución óptimos antes de que se ejecuten las consultas.
Esto es importante porque los optimizadores tradicionales basados en costos se basan en estadísticas estáticas. No pueden prever cómo cambian las distribuciones de datos a lo largo del día ni adaptarse a los patrones estacionales del negocio. Los modelos de aprendizaje automático capturan esta dinámica temporal.
Las investigaciones sobre el almacenamiento columnar para cargas de trabajo de aprendizaje automático muestran que los conjuntos de datos típicos contienen 20 000 columnas, pero los trabajos de entrenamiento solo acceden a aproximadamente 10¹ TP3T de ellas. Las investigaciones sobre sistemas columnares demuestran que eliminar las reescrituras completas de archivos reduce los costos de almacenamiento en 50¹ TP3T utilizando páginas de 8 KB.
Gestión automatizada de la calidad de los datos
Los problemas de calidad de los datos cuestan a las empresas millones de dólares al año. La validación tradicional basada en reglas detecta problemas conocidos: valores nulos, errores de formato, violaciones de la integridad referencial. Pero, ¿qué ocurre con las anomalías inesperadas que las reglas no pueden prever?
El aprendizaje automático monitoriza las distribuciones estadísticas de los campos de datos a lo largo del tiempo. Cuando los valores se desvían de los patrones aprendidos, los algoritmos los marcan para su revisión. Esto permite detectar problemas como picos repentinos en los porcentajes de valores nulos o apariciones inesperadas de categorías.
Los monitores de estadísticas de campo rastrean métricas como el porcentaje de valores nulos, vacíos y cero en las características clave. Cuando los sistemas de origen cambian inesperadamente o se interrumpen las canalizaciones de datos ascendentes, estos monitores detectan los problemas antes de que se propaguen a los informes empresariales.
Las comprobaciones de vigencia de los datos complementan la detección de anomalías al verificar que los datos lleguen dentro de los plazos previstos. Cuando existen acuerdos de nivel de servicio (SLA) explícitos con los proveedores de datos, estas comprobaciones automatizadas garantizan el cumplimiento sin necesidad de supervisión manual.
Arquitectura de almacén de datos preparada para el aprendizaje automático
La creación de almacenes de datos que soporten cargas de trabajo de aprendizaje automático requiere consideraciones arquitectónicas específicas. Los formatos de almacenamiento, la separación de la computación y la gestión de características difieren de los diseños tradicionales centrados en la inteligencia empresarial.
Optimización de la capa de almacenamiento
Los formatos de almacenamiento columnar predominan en las arquitecturas preparadas para el aprendizaje automático. A diferencia del almacenamiento basado en filas, optimizado para actualizaciones transaccionales, los diseños columnares minimizan las operaciones de entrada/salida cuando los algoritmos necesitan características específicas en millones de registros.
La optimización de la eliminación a nivel de página se vuelve crucial a gran escala. Las investigaciones sobre sistemas columnares demuestran que eliminar la reescritura completa de archivos reduce los costos de almacenamiento en 50%. El uso de páginas de 8 KB permite la eliminación selectiva de registros obsoletos sin reescribir archivos columnares completos.
La investigación menciona la gestión de 3,78 PB de datos de origen, aunque no es posible verificar los desgloses específicos por fuente a partir de los materiales proporcionados. La eficiente organización en columnas permite consultar este conjunto de datos para el entrenamiento de aprendizaje automático sin incurrir en costes de infraestructura prohibitivos.
Separación de computación y almacenamiento
Los almacenes de datos en la nube modernos desacoplan el procesamiento del almacenamiento. Esta arquitectura permite escalar la capacidad de procesamiento independientemente del volumen de datos, algo esencial al entrenar modelos grandes o realizar predicciones por lotes.
Los clústeres de computación independientes gestionan distintos tipos de cargas de trabajo. Los paneles de BI se actualizan en recursos dedicados, mientras que las tareas de entrenamiento de aprendizaje automático se ejecutan en clústeres acelerados por GPU. Esto evita la contención de recursos y permite la optimización específica para cada carga de trabajo.
Los costos de almacenamiento representan la mayor parte del gasto total para muchas organizaciones. Las arquitecturas en la nube que cobran por separado por computación y almacenamiento ajustan los costos a los patrones de uso reales en lugar de basarse en el aprovisionamiento en momentos de máxima demanda.
Análisis predictivo en almacenes
La capacidad de generar predicciones directamente dentro de los almacenes de datos elimina las fricciones del flujo de trabajo de aprendizaje automático tradicional. Los datos no salen del almacén, lo que reduce los riesgos de seguridad y la latencia, a la vez que simplifica la gobernanza.
La predicción del valor de vida del cliente ilustra esta capacidad. Los datos históricos de transacciones ya se encuentran en el almacén de datos. Las funciones de aprendizaje automático entrenan modelos con estos datos y generan predicciones como vistas materializadas, que se pueden consultar como cualquier otra tabla.
Un ejemplo práctico consiste en segmentar a clientes específicos. Los algoritmos pueden perfilar las características que definen a los clientes ideales y, a continuación, responder a preguntas como "¿Cómo podemos anunciarnos a mujeres con ingresos anuales entre 100.000 y 200.000 a las que les gusta esquiar?" sin exportar datos a plataformas externas.

Puntuación en tiempo real y predicciones por lotes
El aprendizaje automático nativo del almacén de datos admite flujos de trabajo de predicción tanto en tiempo real como por lotes. La puntuación en tiempo real evalúa los modelos para registros individuales a medida que se ejecutan las consultas, lo que resulta útil para casos de uso de personalización o detección de fraude.
Las predicciones por lotes procesan millones de registros de manera eficiente utilizando los recursos informáticos del almacén de datos. Las organizaciones programan estas tareas durante las horas de menor actividad, generando tablas de predicción que las aplicaciones posteriores utilizan.
La elección entre los distintos enfoques depende de los requisitos de latencia y de la necesidad de actualización de los datos. La puntuación en tiempo real añade milisegundos a la ejecución de las consultas, pero siempre utiliza datos actualizados. Las predicciones por lotes introducen desactualización, pero gestionan grandes volúmenes de datos de forma económica.
Monitoreo de la calidad de los datos para sistemas de aprendizaje automático
Los modelos de aprendizaje automático dependen fundamentalmente de la calidad de los datos de entrada. Pequeños cambios en la distribución de los datos de origen pueden degradar drásticamente la precisión del modelo, un fenómeno conocido como deriva de datos.
Para construir sistemas de aprendizaje automático fiables, es necesario monitorizar tres capas distintas: las fuentes y los datos de entrada, las características diseñadas y las predicciones del modelo. Cada capa requiere enfoques de monitorización diferentes.
| Capa de monitorización | Qué rastrear | Método de detección |
|---|---|---|
| Datos de origen | Actualización, exhaustividad, cambios de esquema | Controles de frescura, monitores de tasa nula |
| Características | Cambios en la distribución, violaciones de rango, correlaciones | Detección estadística de anomalías |
| Predicciones | Distribución de la salida, puntuaciones de confianza, deriva | Métricas de rendimiento del modelo |
Monitoreo de datos de origen y de entrada
Los monitores de anomalías de frescura registran automáticamente cuándo llegan los datos desde los sistemas de origen. Las herramientas de observabilidad de datos extraen metadatos como las marcas de tiempo de última modificación del esquema de información para detectar retrasos sin necesidad de comprobaciones manuales.
Esto se vuelve esencial cuando los sistemas de origen cambian de comportamiento inesperadamente. Un proveedor podría modificar el formato de respuesta de su API o una migración de base de datos podría afectar la sincronización de las tareas de extracción. La monitorización automatizada detecta estos problemas de inmediato.
Monitoreo a nivel de características
Las características diseñadas requieren una supervisión específica, ya que las transformaciones pueden amplificar los problemas de los datos de origen. Un aumento de 5% en los valores nulos en el origen podría provocar que 30% de las características derivadas se vuelvan inválidas.
Los monitores de estado de campo registran problemas comunes: aumentos inesperados en porcentajes nulos, valores vacíos o valores cero. Estas métricas establecen valores de referencia durante el entrenamiento y, posteriormente, generan alertas cuando los datos de producción se desvían.
Los métodos estadísticos, como el muestreo bootstrap, ayudan a establecer intervalos de confianza para las distribuciones de características. Los ejemplos de código en la investigación demuestran las técnicas de muestreo bootstrap para calcular intervalos de confianza en las puntuaciones de las pruebas, lo que proporciona umbrales robustos para la detección de anomalías.
Seguimiento de la calidad de las predicciones
Las predicciones del modelo requieren una validación continua. Las distribuciones de resultados deben mantenerse estables a menos que las condiciones del negocio cambien realmente. Los cambios repentinos suelen indicar problemas con los datos de origen, más que cambios legítimos en los patrones.
El seguimiento del nivel de confianza ayuda a identificar cuándo los modelos se vuelven inciertos. Un aumento repentino en las predicciones de baja confianza sugiere que el modelo encuentra datos que no había visto antes, lo que podría indicar una desviación o problemas de calidad.
Lagos de datos frente a almacenes de datos para aprendizaje automático
La distinción entre lagos de datos y almacenes de datos es importante para la planificación de cargas de trabajo de aprendizaje automático. Cada arquitectura ofrece diferentes ventajas y desventajas en cuanto a estructura, coste y rendimiento.
Los almacenes de datos destacan por proporcionar datos limpios y estructurados con esquemas definidos. Durante la ingesta, garantizan tipos de datos, restricciones y lógica de negocio. Esta estructura beneficia a los sistemas de aprendizaje automático que requieren entradas fiables y consistentes.
Los lagos de datos aceptan cualquier tipo de dato sin imponer un esquema: registros sin procesar, imágenes, texto no estructurado, eventos en tiempo real. Esta flexibilidad permite realizar trabajos de aprendizaje automático exploratorio y aprendizaje multimodal, pero requiere un mayor esfuerzo de preparación de datos.

Consideraciones de costos
Ambas arquitecturas manejan grandes volúmenes de datos, pero con perfiles de costos diferentes. Los almacenes de datos suelen cobrar tarifas elevadas por la gestión de recursos informáticos y el almacenamiento optimizado. Los lagos de datos ofrecen almacenamiento más económico, pero requieren infraestructura de procesamiento adicional.
Las investigaciones sobre conjuntos de datos multimodales demuestran una compresión eficiente cuando se estructuran adecuadamente para más de 41 000 casos. Los 3,78 PB de la GDC representan una escala completamente diferente, lo que demuestra cómo las necesidades de almacenamiento varían drásticamente según el caso de uso.
La complejidad eleva los costos más allá de la infraestructura básica. Ambos enfoques requieren recursos de TI para la gestión, y los lagos de datos suelen exigir un mayor esfuerzo en materia de gobernanza y garantía de calidad.
Enfoques híbridos
Muchas organizaciones adoptan arquitecturas híbridas. Los datos sin procesar se almacenan en lagos de datos para su exploración y experimentación. Los conjuntos de datos refinados y validados migran a almacenes de datos para su uso en pipelines de aprendizaje automático en producción y análisis de negocio.
Este modelo equilibra la flexibilidad con la fiabilidad. Los científicos de datos acceden a los lagos de datos para la investigación mediante herramientas como Spark o scripts personalizados de Python. Las aplicaciones de producción consultan los almacenes de datos mediante interfaces SQL estándar con acuerdos de nivel de servicio (SLA) garantizados.
Mejores prácticas de implementación
La implementación exitosa del aprendizaje automático en el almacenamiento de datos requiere prestar atención a varios factores críticos que van más allá de la simple selección de la tecnología.
Comience con casos de uso claros que aporten valor al negocio. La optimización automática de consultas ofrece beneficios inmediatos sin necesidad de conocimientos especializados en ciencia de datos. La segmentación de clientes y la predicción de abandono ofrecen un retorno de la inversión cuantificable que justifica futuras inversiones.
Implemente un sistema de monitoreo de calidad de datos antes de desplegar modelos de aprendizaje automático en producción. El costo de detectar problemas a tiempo es insignificante comparado con las decisiones tomadas a partir de predicciones erróneas. El monitoreo automatizado detecta problemas que las revisiones manuales pasan por alto.
Invierta en almacenes de características que gestionen las características de aprendizaje automático como recursos reutilizables. Cuando varios modelos necesitan los mismos campos calculados, las definiciones de características centralizadas evitan inconsistencias y reducen los cálculos duplicados.
Consideraciones organizativas
La tecnología por sí sola no garantiza el éxito. Los equipos de datos necesitan capacitación en herramientas y flujos de trabajo de aprendizaje automático nativos del almacén de datos. Los analistas acostumbrados a exportar datos para modelado basado en Python deben aprender alternativas dentro del propio almacén de datos.
La colaboración interfuncional se vuelve esencial. Los ingenieros de datos crean flujos de trabajo, los analistas definen las características y los responsables de negocio validan las predicciones. Una clara responsabilidad y canales de comunicación evitan deficiencias.
Las políticas de gobernanza deben evolucionar a la par de las capacidades técnicas. ¿Quién aprueba los nuevos modelos de aprendizaje automático? ¿Qué validación se requiere antes de su implementación en producción? ¿Cómo se auditan las predicciones? Responder a estas preguntas desde el principio evita problemas posteriores.
Direcciones futuras y tendencias emergentes
La convergencia entre el aprendizaje automático y el almacenamiento de datos sigue acelerándose. Diversas tendencias darán forma a la próxima generación de plataformas de datos inteligentes.
- El aprendizaje automático automatizado (AutoML) en los almacenes democratizará el desarrollo del aprendizaje automático. Los analistas de negocio crearán modelos sofisticados utilizando lenguajes declarativos similares a SQL en lugar de escribir código Python. La barrera entre la analítica y el aprendizaje automático se difuminará.
- El cálculo de características en tiempo real se expandirá. Los sistemas actuales procesan las características principalmente por lotes según cronogramas. Las arquitecturas de transmisión permitirán el cálculo de características con latencia de milisegundos, lo que dará soporte a casos de uso como la detección de fraude y la fijación dinámica de precios.
- Los enfoques de aprendizaje federado permitirán entrenar modelos en almacenes de datos distribuidos sin centralizar la información confidencial. Las restricciones regulatorias y los requisitos de soberanía de datos hacen que esta capacidad sea cada vez más importante.
Ahora, la integración de grandes modelos de lenguaje con datos estructurados de almacenes de datos abre nuevas posibilidades. Las interfaces de lenguaje natural permitirán a los usuarios no técnicos consultar datos y generar predicciones mediante interfaces conversacionales.
Preguntas frecuentes
¿Cuál es el principal beneficio de utilizar el aprendizaje automático en los almacenes de datos?
La principal ventaja reside en la eliminación de la complejidad de la integración y el movimiento de datos. Al ejecutarse los algoritmos de aprendizaje automático directamente en los almacenes de datos, no es necesario exportarlos a plataformas independientes. Esto reduce la latencia, simplifica la gobernanza y permite realizar predicciones en tiempo real sobre los datos actuales. Además, las organizaciones obtienen una optimización automática del rendimiento de las consultas y una monitorización de la calidad de los datos sin intervención manual.
¿Los almacenes de datos sustituyen a las plataformas de aprendizaje automático especializadas?
No del todo. Los almacenes de datos ahora gestionan muchas cargas de trabajo de aprendizaje automático que antes requerían plataformas especializadas, en particular la puntuación en producción y las predicciones por lotes. Sin embargo, la investigación experimental, el aprendizaje profundo con arquitecturas complejas y ciertos algoritmos especializados aún se benefician de entornos de aprendizaje automático dedicados. La mayoría de las organizaciones adoptan enfoques híbridos, utilizando almacenes de datos para el aprendizaje automático en producción y plataformas especializadas para la investigación.
¿Cómo mejora el aprendizaje automático la calidad de los datos?
Los algoritmos de aprendizaje automático (ML) supervisan las distribuciones estadísticas de los datos a lo largo del tiempo y detectan anomalías que los sistemas basados en reglas no perciben. Aprenden patrones normales para métricas como porcentajes de valores nulos, rangos de valores y correlaciones de campos. Cuando los datos de producción se desvían de estos valores de referencia, las alertas automatizadas notifican a los equipos antes de que los problemas de calidad afecten a los informes comerciales o a las predicciones de ML. Esto permite detectar problemas como cambios de esquema, fallos en la cadena de procesamiento y desviaciones inesperadas de datos.
¿Qué formatos de almacenamiento funcionan mejor para el aprendizaje automático en almacenes de datos?
Los formatos de almacenamiento columnar como Parquet y ORC predominan en las arquitecturas preparadas para el aprendizaje automático (ML) porque minimizan las operaciones de entrada/salida (E/S) al acceder a características específicas en millones de registros. Las investigaciones demuestran que los conjuntos de datos típicos contienen 20 000 columnas, pero el entrenamiento de ML solo accede a 10¹²⁰T (10¹²⁰T) de ellas. Los diseños columnares leen solo las columnas necesarias en lugar de filas completas. La organización a nivel de página con páginas de 8 KB permite actualizaciones y eliminaciones eficientes sin reescribir archivos completos, lo que reduce los costos de almacenamiento en 50¹²⁰T (50¹²⁰T).
¿Cómo supervisan las organizaciones el rendimiento de los modelos de aprendizaje automático en los almacenes de datos?
La monitorización del aprendizaje automático en producción realiza un seguimiento de tres niveles: calidad de los datos de origen, distribución de características y resultados de predicción. La monitorización de la fuente verifica la actualidad y la integridad de los datos. La monitorización de características detecta cambios en la distribución y violaciones de rango mediante métodos estadísticos como el muestreo bootstrap. La monitorización de predicciones valida que las distribuciones de salida y los índices de confianza se mantengan estables. Cuando las métricas se desvían más allá de los intervalos de confianza establecidos durante el entrenamiento, se activan alertas que desencadenan una investigación antes de que los modelos se degraden significativamente.
¿Pueden los lagos de datos y los almacenes de datos trabajar juntos para el aprendizaje automático?
Por supuesto, y las arquitecturas híbridas son cada vez más comunes. Los lagos de datos almacenan datos brutos y no estructurados para su exploración y para experimentos de aprendizaje automático multimodal. Los conjuntos de datos refinados y validados migran a almacenes de datos para los flujos de producción que requieren garantías de fiabilidad y rendimiento. Este patrón equilibra la flexibilidad con la gobernanza: los científicos de datos exploran en los lagos, mientras que las aplicaciones de producción consultan los almacenes de datos con acuerdos de nivel de servicio (SLA) y controles de acceso definidos.
¿Qué habilidades necesitan los equipos para implementar el aprendizaje automático en los almacenes de datos?
Los equipos necesitan dominar SQL, ya que la mayoría de las herramientas de aprendizaje automático nativas de los almacenes de datos utilizan interfaces basadas en SQL en lugar de Python. Si bien comprender los conceptos básicos de aprendizaje automático es útil, no se requiere una profunda experiencia en ciencia de datos para muchos casos de uso, como la detección de anomalías y la previsión. Las habilidades de ingeniería de datos para la creación de pipelines, el conocimiento de los principios de calidad de datos y la familiaridad con las funciones de aprendizaje automático de la plataforma específica del almacén de datos completan las competencias básicas. La colaboración interfuncional entre ingenieros de datos, analistas y partes interesadas del negocio es tan importante como las habilidades técnicas.
Conclusión
El aprendizaje automático transforma radicalmente el almacenamiento de datos, pasando de ser sistemas de almacenamiento pasivos a plataformas inteligentes y autooptimizables. Las organizaciones que implementan estas capacidades experimentan una reducción de la carga de trabajo manual, una mejor calidad de los datos y una obtención de información más rápida para el análisis empresarial.
El cambio arquitectónico hacia el aprendizaje automático nativo del almacén de datos elimina las fricciones tradicionales relacionadas con el movimiento, la gobernanza y la latencia de los datos. Las predicciones se realizan donde ya residen los datos, utilizando interfaces SQL familiares en lugar de requerir una infraestructura especializada de ciencia de datos.
El éxito requiere más que simplemente habilitar las funciones de aprendizaje automático. Los equipos necesitan sistemas de monitorización que detecten a tiempo los problemas de calidad de los datos, procesos de gobernanza que garanticen una implementación responsable de los modelos y estructuras organizativas que fomenten la colaboración entre los ingenieros de datos y las partes interesadas del negocio.