Résumé rapide : L'apprentissage automatique appliqué à l'entreposage de données transforme la manière dont les organisations stockent, traitent et analysent leurs données d'entreprise en automatisant l'optimisation des requêtes, l'analyse prédictive et la gestion de la qualité des données. Les entrepôts de données modernes intègrent désormais des algorithmes d'apprentissage automatique directement dans leur architecture, permettant ainsi d'obtenir des informations en temps réel et une gouvernance intelligente des données. Cette convergence crée des systèmes auto-optimisés qui réduisent les tâches manuelles tout en améliorant la prise de décision au sein des différentes unités opérationnelles.
L'intersection entre l'apprentissage automatique et l'entreposage de données représente l'une des évolutions les plus importantes de la gestion des données d'entreprise au cours de la dernière décennie. Les entrepôts de données traditionnels excellaient dans le stockage de données métier structurées, mais exigeaient un effort manuel considérable pour l'optimisation et l'extraction d'informations.
Désormais, les algorithmes d'apprentissage automatique intégrés aux architectures d'entrepôt de données optimisent automatiquement les performances, détectent les anomalies et génèrent des prédictions. Il ne s'agit pas simplement d'ajouter des fonctionnalités d'IA aux systèmes existants, mais de repenser fondamentalement le fonctionnement des plateformes de données.
Les organisations qui mettent en œuvre ces approches constatent des avantages concrets. Selon une étude portant sur des ensembles de données multimodales en oncologie, les processus ETL s'exécutent toutes les 12 heures pour interroger les référentiels sources, garantissant ainsi la mise à jour continue des données sans intervention manuelle. Le passage de référentiels statiques à des systèmes intelligents et autonomes transforme l'économie et les capacités de l'analyse de données en entreprise.
La convergence du ML et des entrepôts de données
Les entrepôts de données servaient traditionnellement de référentiels centralisés pour les informations décisionnelles structurées. Ils organisaient les données provenant des systèmes transactionnels en modèles dimensionnels optimisés pour la production de rapports et l'analyse.
L'apprentissage automatique bouleverse cette dynamique. Au lieu de se contenter de stocker des données destinées à être traitées par des outils d'apprentissage automatique externes, les algorithmes résident désormais au sein même de l'entrepôt de données. Ce changement architectural élimine les goulots d'étranglement liés aux transferts de données et permet des opérations intelligentes en temps réel.
Mais voilà : cette convergence ne se limite pas à une simple mise à niveau technique. Elle transforme en profondeur les capacités des équipes de données. Les tâches qui nécessitaient auparavant des équipes de data scientists spécialisées, rédigeant des scripts Python personnalisés, s’exécutent désormais automatiquement grâce aux fonctions natives de l’entrepôt de données.
Pourquoi les approches traditionnelles ont échoué
Les systèmes d'entrepôt de données traditionnels souffraient de trois limitations majeures. Premièrement, ils ne pouvaient s'adapter à l'évolution des requêtes sans paramétrage manuel. Les administrateurs de bases de données passaient des heures à analyser les plans d'exécution et à ajuster les index.
Deuxièmement, la gestion de la qualité des données reposait sur des contrôles rigides et basés sur des règles. Ces contrôles permettaient de détecter les problèmes connus, mais pas les problèmes nouveaux. Les équipes ne découvraient les anomalies de données qu'après la transmission des rapports à la direction.
Troisièmement, les fonctionnalités prédictives nécessitaient l'exportation des données vers des plateformes distinctes. Cela engendrait de la latence, des risques de sécurité et des difficultés de gestion des versions. La promesse d'informations en temps réel restait donc largement un vœu pieux.

Créez des outils de données plus intelligents grâce à l'IA supérieure
IA supérieure Cette entreprise développe des applications basées sur l'IA et des logiciels sur mesure utilisant des modèles et des algorithmes d'apprentissage automatique. Son expertise couvre l'analyse prédictive, les solutions de BI, l'analyse de données massives, le traitement automatique du langage naturel (TALN) et les outils d'analyse de données.
Pour l'entreposage de données, cela peut prendre en charge les contrôles de qualité des données, la classification, la prévision, la production de rapports automatisés ou les outils d'analyse construits à partir des données de l'entrepôt.
Besoin d'une meilleure utilisation des données de votre entrepôt de données ?
AI Superior peut vous aider avec :
- création d'outils d'apprentissage automatique personnalisés
- création de solutions de BI et d'analyse
- analyse de grands ensembles de données d'entreprises
- intégrer l'IA aux systèmes de données existants
👉 Contactez l'IA supérieure pour discuter de votre projet.
Applications fondamentales du ML dans les entrepôts de données modernes
L'apprentissage automatique améliore l'entreposage de données dans quatre domaines principaux : l'optimisation des requêtes, la gestion de la qualité des données, l'analyse prédictive et la gouvernance automatisée. Chaque application répond à des problématiques spécifiques que les processus manuels ne pouvaient résoudre efficacement.

Optimisation intelligente des requêtes
Les optimiseurs de requêtes basés sur l'apprentissage automatique analysent les modèles d'exécution de milliers de requêtes. Ils déterminent quels index améliorent les performances pour des charges de travail spécifiques et peuvent prédire les plans d'exécution optimaux avant même l'exécution des requêtes.
C’est important car les optimiseurs traditionnels basés sur les coûts s’appuient sur des statistiques statiques. Ils ne peuvent pas anticiper l’évolution de la distribution des données au cours de la journée ni s’adapter aux variations saisonnières de l’activité. Les modèles d’apprentissage automatique, quant à eux, capturent ces dynamiques temporelles.
Les recherches sur le stockage en colonnes pour les charges de travail d'apprentissage automatique montrent que les jeux de données classiques contiennent 20 000 colonnes, mais que les tâches d'entraînement n'en utilisent qu'environ 101 TP3 T. Les recherches sur les systèmes en colonnes montrent que l'élimination des réécritures complètes de fichiers permet de réduire les coûts de stockage de 501 TP3 T grâce à l'utilisation de pages de 8 Ko.
Gestion automatisée de la qualité des données
Les problèmes de qualité des données coûtent chaque année des millions aux entreprises. La validation traditionnelle basée sur des règles détecte les problèmes connus : valeurs nulles, erreurs de format, violations de l’intégrité référentielle. Mais qu’en est-il des anomalies inattendues que les règles ne peuvent pas anticiper ?
L'apprentissage automatique analyse la distribution statistique des champs de données au fil du temps. Lorsque des valeurs s'écartent des modèles appris, les algorithmes les signalent pour vérification. Cela permet de détecter des problèmes tels que des pics soudains de pourcentage de valeurs nulles ou l'apparition inattendue de catégories.
Les outils de surveillance des statistiques de terrain suivent des indicateurs tels que le pourcentage de valeurs nulles, de valeurs vides et de valeurs nulles pour les fonctionnalités clés. En cas de modification inattendue des systèmes sources ou de rupture des flux de données en amont, ces outils détectent les problèmes avant qu'ils n'affectent les rapports d'activité.
Les contrôles de fraîcheur des sources complètent la détection des anomalies en vérifiant que les données arrivent dans les délais prévus. Lorsque des SLA explicites existent avec les fournisseurs de données, ces contrôles automatisés garantissent la conformité sans intervention manuelle.
Architecture d'entrepôt de données compatible avec l'apprentissage automatique
La conception d'entrepôts de données prenant en charge les charges de travail d'apprentissage automatique exige des considérations architecturales spécifiques. Les formats de stockage, la séparation des calculs et la gestion des fonctionnalités diffèrent tous des conceptions traditionnelles axées sur la BI.
Optimisation de la couche de stockage
Les formats de stockage en colonnes dominent les architectures compatibles avec l'apprentissage automatique. Contrairement au stockage par lignes optimisé pour les mises à jour transactionnelles, les structures en colonnes minimisent les E/S lorsque les algorithmes nécessitent des fonctionnalités spécifiques sur des millions d'enregistrements.
L'optimisation de la suppression au niveau des pages devient cruciale à grande échelle. Les recherches sur les systèmes colonnaires montrent que l'élimination des réécritures complètes de fichiers réduit les coûts de stockage de 501 TP3 T. L'utilisation de pages de 8 Ko permet la suppression ciblée des enregistrements obsolètes sans réécrire l'intégralité des fichiers de colonnes.
L'étude mentionne la gestion de 3,78 Po de données sources, mais les détails concernant la répartition par source ne peuvent être vérifiés à partir des documents fournis. L'organisation efficace en colonnes de ce jeu de données permet de l'interroger pour l'entraînement de modèles d'apprentissage automatique sans engendrer de coûts d'infrastructure prohibitifs.
Séparation du calcul et du stockage
Les entrepôts de données cloud modernes dissocient le calcul du stockage. Cette architecture permet d'adapter la puissance de traitement indépendamment du volume de données, ce qui est essentiel pour l'entraînement de grands modèles ou l'exécution de prédictions par lots.
Des clusters de calcul distincts gèrent différents types de charges de travail. Les tableaux de bord décisionnels s'actualisent sur des ressources dédiées, tandis que les tâches d'entraînement de machine learning s'exécutent sur des clusters accélérés par GPU. Ceci évite la contention des ressources et permet une optimisation spécifique à chaque charge de travail.
Pour de nombreuses organisations, les coûts de stockage représentent la part prépondérante des dépenses totales. Les architectures cloud qui facturent séparément le calcul et le stockage permettent d'aligner les coûts sur les modèles d'utilisation réels plutôt que sur les pics de consommation.
Analyse prédictive au sein des entrepôts
La possibilité de générer des prédictions directement dans les entrepôts de données élimine les frictions inhérentes aux flux de travail traditionnels du machine learning. Les données restent dans l'entrepôt, ce qui réduit les risques de sécurité et la latence tout en simplifiant la gouvernance.
La prédiction de la valeur vie client illustre cette capacité. Les données transactionnelles historiques sont déjà stockées dans l'entrepôt de données. Les fonctions d'apprentissage automatique entraînent des modèles sur ces données et génèrent des prédictions sous forme de vues matérialisées, interrogeables comme n'importe quelle autre table.
Un exemple concret consiste à cibler des segments de clientèle spécifiques. Les algorithmes peuvent établir le profil des caractéristiques définissant les clients idéaux, puis répondre à des questions telles que : “ Comment cibler les femmes dont le revenu annuel se situe entre 100 000 et 200 000 € et qui aiment skier ? ” sans exporter les données vers des plateformes externes.

Score en temps réel et prédictions par lots
L'apprentissage automatique natif des entrepôts de données prend en charge les flux de travail de prédiction en temps réel et par lots. La notation en temps réel évalue les modèles pour chaque enregistrement lors de l'exécution des requêtes, ce qui est utile pour la personnalisation ou la détection des fraudes.
Le traitement par lots des prédictions permet de traiter efficacement des millions d'enregistrements grâce aux ressources de calcul de l'entrepôt de données. Les entreprises planifient ces tâches pendant les heures creuses, créant ainsi des tables de prédiction que les applications en aval utilisent.
Le choix entre les différentes approches dépend des exigences de latence et de fraîcheur des données. Le scoring en temps réel ajoute quelques millisecondes à l'exécution des requêtes, mais utilise toujours les données les plus récentes. Les prédictions par lots introduisent une certaine obsolescence, mais permettent de gérer efficacement les volumes importants de données.
Surveillance de la qualité des données pour les systèmes d'apprentissage automatique
Les modèles d'apprentissage automatique dépendent fortement de la qualité des données d'entrée. De petites variations dans la distribution des données sources peuvent dégrader considérablement la précision du modèle — un phénomène appelé dérive des données.
La construction de systèmes d'apprentissage automatique fiables nécessite la surveillance de trois couches distinctes : les sources et les données d'entrée, les caractéristiques conçues et les prédictions du modèle lui-même. Chaque couche requiert des approches de surveillance différentes.
| Couche de surveillance | Que suivre | Méthode de détection |
|---|---|---|
| Données sources | Fraîcheur, exhaustivité, modifications de schéma | Contrôles de fraîcheur, moniteurs de taux nuls |
| Caractéristiques | Décalages de distribution, violations de plage, corrélations | Détection d'anomalies statistiques |
| Prédictions | Distribution des résultats, scores de confiance, dérive | Indicateurs de performance du modèle |
Surveillance des données sources et d'entrée
Les systèmes de surveillance des anomalies de fraîcheur suivent automatiquement l'arrivée des données provenant des systèmes en amont. Les outils d'observabilité des données extraient des métadonnées telles que les horodatages de dernière modification (information_schema) pour détecter les retards sans intervention manuelle.
Cela devient essentiel lorsque le comportement des systèmes sources change de manière inattendue. Un fournisseur peut modifier le format de réponse de son API ou une migration de base de données peut affecter le calendrier des extractions. La surveillance automatisée détecte immédiatement ces problèmes.
Surveillance au niveau des fonctionnalités
Les fonctionnalités issues de transformations nécessitent une surveillance particulière, car ces transformations peuvent amplifier les problèmes des données sources. Une augmentation de 5% des valeurs nulles à la source pourrait invalider 30% des fonctionnalités dérivées.
Les outils de surveillance de l'état des données sur le terrain permettent de détecter les problèmes courants : augmentations inattendues des pourcentages de valeurs nulles, valeurs vides ou valeurs nulles. Ces indicateurs établissent des valeurs de référence pendant la phase d'entraînement, puis génèrent une alerte en cas de divergence des données de production.
Les méthodes statistiques telles que l'échantillonnage bootstrap permettent d'établir des intervalles de confiance pour les distributions de caractéristiques. Des exemples de code issus de la recherche illustrent les techniques d'échantillonnage bootstrap pour le calcul d'intervalles de confiance sur les scores de tests, fournissant ainsi des seuils de détection d'anomalies robustes.
Suivi de la qualité des prédictions
Les prédictions du modèle nécessitent une validation continue. Les distributions des résultats doivent rester stables, sauf en cas de véritable changement de la conjoncture. Des variations soudaines indiquent souvent des problèmes au niveau des données en amont plutôt que des changements de tendances légitimes.
Le suivi des scores de confiance permet de repérer les moments où les modèles deviennent incertains. Une augmentation soudaine des prédictions à faible confiance suggère que le modèle est confronté à des données inédites, pouvant indiquer une dérive ou des problèmes de qualité.
Lacs de données vs entrepôts de données pour le ML
La distinction entre lacs de données et entrepôts de données est importante pour la planification des charges de travail en apprentissage automatique. Chaque architecture présente des compromis différents en termes de structure, de coût et de performance.
Les entrepôts de données excellent dans la fourniture de données propres et structurées, dotées de schémas définis. Ils imposent des types de données, des contraintes et une logique métier lors de l'ingestion. Cette structure est particulièrement avantageuse pour les pipelines d'apprentissage automatique qui nécessitent des entrées fiables et cohérentes.
Les lacs de données acceptent tout type de données sans contrainte de schéma : journaux bruts, images, texte non structuré, événements en flux continu. Cette flexibilité favorise l’exploration en apprentissage automatique et l’apprentissage multimodal, mais exige un effort de préparation des données plus important.

Considérations relatives aux coûts
Les deux architectures permettent de gérer des volumes massifs de données, mais avec des profils de coûts différents. Les entrepôts de données facturent généralement des tarifs élevés pour la puissance de calcul gérée et le stockage optimisé. Les lacs de données offrent un stockage moins coûteux, mais nécessitent une infrastructure de traitement supplémentaire.
Les recherches sur les ensembles de données multimodaux montrent une compression efficace lorsqu'ils sont correctement structurés, pour plus de 41 000 cas. Les 3,78 Po du GDC représentent une échelle totalement différente, illustrant à quel point les besoins de stockage varient considérablement selon les cas d'utilisation.
La complexité engendre des coûts qui dépassent le simple cadre de l'infrastructure brute. Les deux approches nécessitent des ressources informatiques pour la gestion, les lacs de données exigeant souvent davantage d'efforts en matière de gouvernance et d'assurance qualité.
Approches hybrides
De nombreuses organisations adoptent des architectures hybrides. Les données brutes sont stockées dans des lacs de données pour l'exploration et l'expérimentation. Les ensembles de données affinés et validés sont ensuite transférés vers des entrepôts de données pour les pipelines de machine learning en production et l'analyse décisionnelle.
Ce modèle allie flexibilité et fiabilité. Les data scientists accèdent aux lacs de données pour la recherche à l'aide d'outils comme Spark ou de scripts Python personnalisés. Les applications de production interrogent les entrepôts de données via des interfaces SQL standard avec des SLA garantis.
Meilleures pratiques de mise en œuvre
La réussite de la mise en œuvre du ML dans l'entreposage de données exige de prendre en compte plusieurs facteurs critiques au-delà du simple choix de la technologie.
Commencez par des cas d'usage clairs qui apportent une réelle valeur ajoutée à l'entreprise. L'optimisation automatique des requêtes offre des avantages immédiats sans nécessiter d'expertise en science des données. La segmentation client et la prédiction du taux de désabonnement offrent un retour sur investissement mesurable qui justifie des investissements supplémentaires.
Mettez en place un système de surveillance de la qualité des données avant le déploiement de vos modèles d'apprentissage automatique en production. Le coût de la détection précoce des problèmes est bien moindre que celui des décisions prises sur la base de prédictions erronées. La surveillance automatisée permet de repérer les problèmes qui échappent aux analyses manuelles.
Investissez dans des plateformes de gestion de fonctionnalités qui traitent les fonctionnalités d'apprentissage automatique comme des ressources réutilisables. Lorsque plusieurs modèles ont besoin des mêmes champs calculés, des définitions de fonctionnalités centralisées évitent les incohérences et réduisent les calculs redondants.
Considérations organisationnelles
La technologie seule ne garantit pas le succès. Les équipes de données ont besoin d'une formation sur les outils et les flux de travail d'apprentissage automatique natifs des entrepôts de données. Les analystes habitués à exporter des données pour la modélisation en Python doivent apprendre les alternatives au sein même de l'entrepôt.
La collaboration interfonctionnelle devient essentielle. Les ingénieurs de données conçoivent les pipelines, les analystes définissent les fonctionnalités et les parties prenantes métiers valident les prédictions. Des responsabilités clairement définies et des canaux de communication efficaces permettent d'éviter les lacunes.
Les politiques de gouvernance doivent évoluer au même rythme que les capacités techniques. Qui approuve les nouveaux modèles d'apprentissage automatique ? Quelles validations sont requises avant leur mise en production ? Comment les prédictions sont-elles auditées ? Répondre à ces questions en amont permet d'éviter les problèmes ultérieurs.
Orientations futures et tendances émergentes
La convergence entre l'apprentissage automatique et l'entreposage de données s'accélère. Plusieurs tendances façonneront la prochaine génération de plateformes de données intelligentes.
- L'apprentissage automatique automatisé (AutoML) au sein des entrepôts de données va démocratiser le développement du ML. Les analystes métier pourront créer des modèles sophistiqués à l'aide de langages déclaratifs de type SQL plutôt que d'écrire du code Python. La frontière entre l'analyse de données et le ML s'estompera.
- Le calcul de caractéristiques en temps réel va se développer. Les systèmes actuels traitent principalement les caractéristiques par lots selon des planifications. Les architectures de flux permettront un calcul de caractéristiques avec une latence de l'ordre de la milliseconde, prenant en charge des cas d'utilisation tels que la détection de fraude et la tarification dynamique.
- Les approches d'apprentissage fédéré permettront d'entraîner des modèles sur des entrepôts de données distribués sans centraliser les données sensibles. Les contraintes réglementaires et les exigences en matière de souveraineté des données rendent cette capacité de plus en plus importante.
L'intégration de grands modèles de langage aux données structurées des entrepôts de données ouvre de nouvelles perspectives. Les interfaces en langage naturel permettront aux utilisateurs non techniques d'interroger les données et de générer des prédictions via des interfaces conversationnelles.
Questions fréquemment posées
Quel est le principal avantage de l'utilisation de l'apprentissage automatique dans les entrepôts de données ?
Le principal avantage réside dans la simplification de l'intégration et du déplacement des données. Grâce à l'exécution directe des algorithmes d'apprentissage automatique au sein des entrepôts de données, il n'est plus nécessaire d'exporter les données vers des plateformes distinctes. Ceci réduit la latence, simplifie la gouvernance et permet des prédictions en temps réel sur les données actuelles. Les organisations bénéficient également d'une optimisation automatique des performances des requêtes et d'un contrôle de la qualité des données sans intervention manuelle.
Les entrepôts de données remplacent-ils les plateformes d'apprentissage automatique dédiées ?
Pas entièrement. Les entrepôts de données gèrent désormais de nombreuses charges de travail d'apprentissage automatique qui nécessitaient auparavant des plateformes spécialisées, notamment le scoring en production et les prédictions par lots. Cependant, la recherche expérimentale, l'apprentissage profond avec des architectures complexes et certains algorithmes spécialisés bénéficient toujours d'environnements d'apprentissage automatique dédiés. La plupart des organisations adoptent des approches hybrides, utilisant des entrepôts de données pour l'apprentissage automatique en production et des plateformes spécialisées pour la recherche.
Comment l'apprentissage automatique améliore-t-il la qualité des données ?
Les algorithmes d'apprentissage automatique analysent les distributions statistiques des données au fil du temps et détectent les anomalies que les systèmes basés sur des règles ne repèrent pas. Ils apprennent les tendances normales pour des indicateurs tels que les pourcentages de valeurs nulles, les plages de valeurs et les corrélations entre champs. Lorsque les données de production s'écartent de ces valeurs de référence, des alertes automatisées avertissent les équipes avant que des problèmes de qualité n'affectent les rapports d'activité ou les prédictions d'apprentissage automatique. Cela permet de détecter des problèmes tels que les modifications de schéma, les défaillances du pipeline en amont et les dérives de données inattendues.
Quels formats de stockage sont les plus adaptés au ML dans les entrepôts de données ?
Les formats de stockage en colonnes comme Parquet et ORC dominent les architectures dédiées au machine learning car ils minimisent les E/S lors de l'accès à des caractéristiques spécifiques parmi des millions d'enregistrements. Les recherches montrent que les jeux de données classiques contiennent 20 000 colonnes, mais que l'entraînement des modèles de machine learning n'en utilise que 101 000 300 bits. Les structures en colonnes lisent uniquement les colonnes nécessaires, et non des lignes entières. L'organisation par pages de 8 Ko permet des mises à jour et des suppressions efficaces sans réécriture complète des fichiers, réduisant ainsi les coûts de stockage de 501 000 300 bits.
Comment les organisations surveillent-elles les performances des modèles d'apprentissage automatique dans les entrepôts de données ?
La surveillance de l'apprentissage automatique en production suit trois niveaux : la qualité des données sources, la distribution des caractéristiques et les résultats des prédictions. La surveillance des sources vérifie leur fraîcheur et leur exhaustivité. La surveillance des caractéristiques détecte les écarts de distribution et les dépassements de plage à l'aide de méthodes statistiques comme l'échantillonnage bootstrap. La surveillance des prédictions valide la distribution des résultats et la stabilité des scores de confiance. Lorsque les métriques s'écartent des intervalles de confiance établis lors de l'entraînement, des alertes déclenchent une investigation avant que les modèles ne se dégradent de manière significative.
Les lacs de données et les entrepôts de données peuvent-ils fonctionner ensemble pour le ML ?
Absolument, et les architectures hybrides sont de plus en plus courantes. Les lacs de données stockent les données brutes et non structurées pour l'exploration et les expériences d'apprentissage automatique multimodales. Les ensembles de données affinés et validés sont transférés vers des entrepôts de données pour les pipelines de production exigeant des garanties de fiabilité et de performance. Ce modèle concilie flexibilité et gouvernance : les data scientists explorent les données dans les lacs tandis que les applications de production interrogent les entrepôts de données avec des SLA et des contrôles d'accès définis.
Quelles compétences les équipes doivent-elles posséder pour mettre en œuvre le ML dans les entrepôts de données ?
Les équipes doivent d'abord maîtriser SQL, car la plupart des solutions d'apprentissage automatique natives des entrepôts de données utilisent des interfaces SQL plutôt que Python. La compréhension des concepts de base de l'apprentissage automatique est utile, mais une expertise approfondie en science des données n'est pas nécessaire pour de nombreux cas d'utilisation, comme la détection d'anomalies et la prévision. Les compétences en ingénierie des données pour la création de pipelines, la connaissance des principes de qualité des données et la familiarité avec les fonctions d'apprentissage automatique de la plateforme d'entrepôt de données spécifique complètent les compétences essentielles. La collaboration interfonctionnelle entre les ingénieurs de données, les analystes et les parties prenantes métier est tout aussi importante que les compétences techniques.
Conclusion
L'apprentissage automatique transforme radicalement l'entreposage de données, passant de systèmes de stockage passifs à des plateformes intelligentes et auto-optimisées. Les organisations qui mettent en œuvre ces technologies constatent une réduction des tâches manuelles, une amélioration de la qualité des données et un accès plus rapide aux informations exploitables pour l'analyse de leurs activités.
L'évolution architecturale vers un apprentissage automatique natif des entrepôts de données élimine les frictions traditionnelles liées au déplacement, à la gouvernance et à la latence des données. Les prédictions s'effectuent là où les données sont déjà stockées, à l'aide d'interfaces SQL familières, sans nécessiter d'infrastructure spécialisée en science des données.
Pour réussir, il ne suffit pas d'activer les fonctionnalités d'apprentissage automatique. Les équipes ont besoin de systèmes de surveillance capables de détecter rapidement les problèmes de qualité des données, de processus de gouvernance garantissant un déploiement responsable des modèles et de structures organisationnelles favorisant la collaboration entre les ingénieurs de données et les parties prenantes métiers.