Concevoir les données autrement : les apports du data by design

Le Data by Design est une démarche qui vise à concevoir les données non comme des sous-produits techniques, mais comme des objets structurés, intentionnels et gouvernables dès leur création. En rupture avec les approches réactives, il propose d’intégrer dans les cycles de conception les éléments nécessaires à la qualité, la traçabilité, la sécurité et la réutilisabilité des données. Cet article expose de manière progressive et structurée les apports du Data by Design, les conditions de sa mise en œuvre (cadre de gouvernance, rôles, outils), et les étapes concrètes pour le déployer dans les projets. Il illustre la démarche par un cas d’application dans le secteur financier, où la conception anticipée des données a permis de fiabiliser les souscriptions, réduire les erreurs et améliorer la collaboration entre métiers et IT. En articulant le Data by Design avec d'autres démarches by design (Privacy, Security, AI, Analytics), l’article montre qu’il peut en constituer le socle transversal. Il ouvre ainsi la voie à une gouvernance des données plus anticipatrice, plus fiable et mieux alignée avec les objectifs de transformation des organisations.

GOUVERNANCE DES DONNÉES

Charles Ngando Black

8/13/202516 min temps de lecture

an abstract image of a bunch of cubes
an abstract image of a bunch of cubes

1. Introduction

L'intégration des exigences clés dès la conception des systèmes est devenue un principe essentiel dans de nombreux domaines. Cette approche, initialement apparue dans l'écoconception, s'est étendue à la protection de la vie privée (Privacy by Design), à la sécurité des systèmes (Security by Design), et même à l'intelligence artificielle (AI by Design). L'idée est simple : anticiper les contraintes pour les transformer en leviers d'action, plutôt que de les traiter après le déploiement des systèmes.

Dans le domaine des données, cette approche est encore peu répandue. Souvent, les données sont produites dans l'urgence, comme un résultat secondaire des processus métiers ou techniques. Leur qualité, leur traçabilité et leur sens ne sont que rarement pensés en amont, ce qui nuit à leur fiabilité et complique leur valorisation.

Le Data by Design vise à corriger ce déséquilibre. Il consiste à placer la donnée au cœur de la conception des systèmes, en tenant compte de ses usages, de sa sensibilité, de sa durée de vie et de ses contraintes dès sa création. Pour être efficace, cette démarche doit s'appuyer sur des rôles clairement définis, des pratiques partagées et des outils adaptés. Elle nécessite un cadre de gouvernance pour en assurer l'application systématique. Sans ce cadre, un haut niveau de maturité collective peut permettre sa mise en œuvre, mais cette condition est exigeante et rarement réunie.

Cet article vise à clarifier les apports du Data by Design et les conditions concrètes de sa mise en place. Il détaille les étapes, l'organisation nécessaire, les outils à utiliser, et les liens à établir avec d'autres approches by design. L'objectif est de faire de la donnée non plus un sous-produit, mais un point d'ancrage structurant pour des systèmes plus fiables, durables et gouvernés de facon cohérente.

2. Pourquoi penser la donnée dès la conception

Dans de nombreux projets, la donnée n'est pas prise en compte dès le début. Elle est souvent considérée comme un élément secondaire, produit au fur et à mesure pour répondre à des besoins immédiats. Sa qualité, sa signification et sa traçabilité ne sont que rarement anticipées. Ce n'est que lorsque des problèmes surviennent – comme des incohérences, des mauvaises interprétations, des erreurs d'analyse ou des défauts de conformité – que des mesures correctives sont prises. Mais ces réactions tardives sont souvent coûteuses et difficiles à intégrer.

L'absence d'une approche structurée dès la conception a des conséquences réelles. Sur le plan opérationnel, elle complique les processus de vérification, multiplie les ajustements manuels et fragilise la coordination entre les équipes. Sur le plan économique, elle entraîne des coûts de correction, de réintégration ou de retraitement, sans compter les pertes liées à des décisions basées sur des données erronées. Sur le plan organisationnel, elle freine la réutilisation des données, complique leur gouvernance et nuit à la confiance entre producteurs, consommateurs et régulateurs.

Penser la donnée dès la conception permet de sortir de cette logique de réparation. Il s'agit d'anticiper les usages, la durée de vie, la sensibilité, les contraintes de qualité ou de conformité dès leur création. Cette anticipation favorise une structuration rigoureuse, une documentation intégrée, une interopérabilité plus fluide et une meilleure maîtrise du cycle de vie.

Le Data by Design ne vise pas seulement à mieux documenter. Il propose de concevoir les données comme des éléments structurants du système, porteurs de sens et de valeur dès l'origine. Cette démarche réduit les risques, fiabilise les usages et installe des bases solides pour une gouvernance efficace et durable.

3. Ce que recouvre le Data by Design

Le Data by Design est une approche qui consiste à intégrer, dès la conception d'un système ou d'un processus, les éléments nécessaires pour comprendre, assurer la qualité, tracer et exploiter les données à l'avenir. Il ne s'agit pas seulement de prévoir l'existence de données, mais de définir les conditions de leur bon usage avant même qu'elles n'existent.

Cette approche repose sur plusieurs dimensions fondamentales :

- L’intention de conception : Chaque donnée est conçue en fonction de ses usages futurs. Cela implique de définir à l'avance sa finalité (décisionnelle, réglementaire, opérationnelle, etc.), ses utilisateurs (internes, externes), ses conditions de validité (fréquence, durée de vie, fraîcheur), ainsi que ses exigences de qualité et de sécurité.

- L’intégration de la connaissance des données dans les artefacts de conception : Le Data by Design implique que les spécifications fonctionnelles, les modèles de données, les schémas d’interface ou les règles métiers contiennent des définitions précises des données (sémantiques et techniques), des métadonnées explicites (origine, sens, sensibilité, conditions d’usage), et des tests automatisables liés à la qualité, la conformité ou la cohérence.

- La structuration des responsabilités associées aux données dès leur création : Cette démarche suppose que les rôles liés à la donnée (producteurs, validateurs, consommateurs, responsables de conformité) soient identifiés et impliqués dès la phase de conception. Elle anticipe la mise en œuvre d’un data contract : un accord explicite sur ce qui est produit, livré, attendu.

- L’alignement avec les standards de gouvernance : Le Data by Design s’inscrit dans une logique d’alignement avec les standards de modélisation, de documentation, de traçabilité et de qualité définis à l’échelle de l’organisation.

En cela, il se distingue des pratiques de documentation a posteriori, des démarches de catalogage qui visent à inventorier les données sans agir sur leur conception, et des pratiques de nettoyage ou de remédiation qui traitent les problèmes une fois les systèmes en production.

En résumé, le Data by Design est une conception augmentée de la donnée : la donnée est pensée comme un élément intentionnel, conçu pour être compréhensible, gouvernable et exploitable dès sa création. Cela conduit à des gains en fiabilité, en réutilisabilité, en conformité, et surtout, à une capacité à gérer la donnée comme un actif, et non comme un résidu.

4. Les conditions pour le mettre en œuvre

Le Data by Design ne repose pas uniquement sur une volonté individuelle ou une bonne pratique isolée. Il nécessite des conditions collectives et structurelles pour être mis en œuvre de manière efficace et durable. Ces conditions ne sont pas seulement techniques ; elles concernent aussi l'organisation, les responsabilités et la gouvernance.

Un cadre de gouvernance clair : Le premier levier est l'existence d'un cadre de gouvernance qui intègre le Data by Design dans les processus standard de conception. Ce cadre peut être appliqué de plusieurs manières : obligation formelle dans les projets (gouvernance administrative), exigence de fiabilisation dans les usages (gouvernance fonctionnelle), ou principe d’alignement avec les objectifs métiers (gouvernance stratégique). Dans tous les cas, il donne à la démarche sa légitimité en l'inscrivant dans un ensemble de règles, de rôles et de pratiques partagées.

Des responsabilités bien définies : La mise en œuvre du Data by Design suppose une orchestration claire des rôles liés à la donnée : ceux qui la conçoivent, ceux qui en garantissent la qualité, ceux qui en assurent la conformité, et ceux qui l’utilisent. Cette structuration peut s'appuyer sur des fonctions existantes (architectes, responsables data, référents métiers) ou sur des rôles nouveaux, comme les Data Product Owners ou les Data Designers. L'important est que ces responsabilités soient formalisées dès la phase amont des projets.

Des outils adaptés : La démarche nécessite également des outils pour intégrer la connaissance des données dans les cycles de conception. Il peut s'agir de modèles de données enrichis, de dictionnaires métiers, de référentiels de métadonnées, de règles de qualité automatisées, ou encore de pipelines d’intégration incluant des tests sur les données. Ces outils doivent permettre de formaliser, vérifier et capitaliser la connaissance dès sa production.

Une maturité compensatoire en l'absence de gouvernance : Lorsque la gouvernance n'est pas encore en place, la mise en œuvre du Data by Design peut reposer sur un haut niveau de maturité collective. Il faut alors que les équipes partagent une culture de la donnée suffisamment avancée pour anticiper, structurer et documenter les choix de manière autonome. Cette configuration reste rare et difficile à maintenir dans la durée sans appui institutionnel.

En pratique, plusieurs facteurs peuvent freiner la mise en œuvre du Data by Design : une culture de la donnée encore faible, des priorités court-termistes sur les délais projets, ou une séparation trop nette entre les équipes conception, IT et métiers. Ces obstacles ne doivent pas être ignorés. Les premières expérimentations doivent tenir compte de ces réalités pour adapter les leviers d’accompagnement, structurer les rôles de manière progressive, et éviter que la démarche ne soit perçue comme une contrainte supplémentaire.

En résumé, le Data by Design n'est pas une méthode légère ou spontanée. Il repose sur une organisation consciente et équipée, capable d'intégrer la donnée dans les phases de conception comme un objet stratégique. Sans gouvernance, cette intégration repose sur des conditions exigeantes. Avec gouvernance, elle devient un levier naturel d'amélioration continue.

5. Étapes concrètes pour le déployer

Le Data by Design ne se décrète pas, il se construit progressivement. Sa mise en œuvre repose sur une série d’étapes concrètes, destinées à ancrer la démarche dans les pratiques de conception sans en alourdir le fonctionnement. Ces étapes peuvent s’adapter aux contextes, mais leur enchaînement donne une structure cohérente et reproductible.

Identifier les cas d’usage et les données critiques : La première étape consiste à cibler les situations où une conception orientée données est réellement nécessaire. Il peut s’agir d’usages à fort enjeu (réutilisation, sensibilité, conformité, valeur métier), de périmètres complexes (multiplicité des producteurs ou consommateurs), ou d’initiatives structurantes (nouveaux systèmes, produits de données, automatisation). Cette analyse permet d’anticiper les besoins organisationnels, notamment les domaines où un référent data ou une gouvernance locale seront requis.

Définir les éléments de connaissance à produire dès la conception : Pour chaque donnée identifiée, il s’agit de formaliser les éléments nécessaires à son bon usage : définitions sémantiques, règles de qualité, contraintes de sécurité ou de conformité, conditions d’usage, durée de vie, dépendances techniques ou fonctionnelles. Cette étape suppose d’identifier dès le départ qui produit ces éléments, qui les valide, et qui les maintiendra : les contours d’une organisation opérationnelle commencent à se dessiner.

Intégrer la démarche dans les cycles projet : C’est à ce stade que l’organisation prend forme. Le Data by Design doit être inscrit dans les étapes habituelles des projets, qu’ils soient menés en cycle en V ou en mode agile. Cela implique la désignation explicite des rôles responsables des données dans les projets (Data Designer, Data Steward, Référent métier, Architecte…), l’intégration d’activités spécifiques dans les plans projet (revues de conception orientées données, points de validation sur les règles de qualité, documentation intégrée dans les backlogs), et l’adaptation des instances de pilotage pour intégrer ces dimensions dès la phase amont.

Outiller les processus de validation et de documentation : Les outils utilisés doivent refléter l’organisation en place. Ils doivent permettre aux acteurs identifiés de formaliser, vérifier et capitaliser les éléments de connaissance. Cela inclut des modèles de données enrichis, des référentiels de métadonnées, des outils de documentation collaborative, ou encore des pipelines automatisant les contrôles. L’efficacité de ces outils repose sur une structuration claire : administration des outils, gestion des droits, workflow de validation.

Accompagner les équipes : La montée en compétence des acteurs est un facteur déterminant. L’organisation mise en place doit inclure des mécanismes d’accompagnement : formation des contributeurs, appui méthodologique, retours d’expérience réutilisables. Il s’agit de construire une culture commune, sans créer de rupture brutale avec les pratiques existantes.

Suivre l’adoption et ajuster : Enfin, un suivi structuré permet de mesurer l’adoption effective de la démarche, d’identifier les écarts et d’ajuster l’organisation au fil du temps. Ce suivi peut s’appuyer sur des indicateurs tels que : le taux de complétude des éléments de connaissance produits en phase de conception, la proportion de projets intégrant un référent data ou des points de validation orientés données, le taux de réutilisation de modèles documentés ou de contrats de données, ou encore la couverture des tests de qualité automatisés. Ces mesures permettent de suivre l’ancrage progressif de la démarche, d’en démontrer l’impact, et de guider les ajustements nécessaires.

Exemple d’application

Dans une compagnie d’assurances, les équipes opérationnelles faisaient face à des erreurs récurrentes sur les statuts contractuels lors de la souscription d’un produit. Ces erreurs, dues à une mauvaise interprétation des règles métiers dans les systèmes sources, entraînaient des contrats erronés, des rejets lors des contrôles de conformité, et une hausse des réclamations clients. Les impacts étaient concrets : surcharge des équipes de support, retards de facturation, perte de temps pour les métiers, et insatisfaction des assurés.

Un projet pilote a été lancé sur ce périmètre critique pour tester une approche Data by Design. En intégrant dès la conception des modèles de données enrichis, des règles de gestion co-validées avec les métiers, et des tests automatisés sur les données contractuelles, l’équipe projet a permis de réduire de moitié les incidents en production et de sécuriser le cycle de traitement. Les équipes opérationnelles ont constaté une diminution significative des erreurs, une réduction des demandes de correction, et une plus grande confiance dans les données produites.

Fort de ces résultats, l’entreprise a décidé d’étendre progressivement la démarche à d’autres périmètres à fort enjeu métier. Ce retour d’expérience a permis d’enclencher une dynamique plus large autour du Data by Design, en l’intégrant dans les processus standard de conception et en le reliant aux dispositifs existants de gouvernance et de qualité des données.

6. Articuler le Data by Design avec les autres démarches by design

Le Data by Design s’inscrit dans un mouvement plus large qui vise à intégrer, dès la conception, des exigences longtemps traitées en aval. Ce mouvement s’est développé dans plusieurs domaines, chacun avec ses priorités, ses justifications et son niveau de formalisation. L’articulation avec ces autres démarches by design permet à la fois de clarifier la place du Data by Design et de renforcer sa légitimité en tant que levier transversal.

Privacy by Design : Apparu dès les années 1990 et consacré par le RGPD, le Privacy by Design impose de prendre en compte la protection des données personnelles dès la conception des traitements. Il repose sur des principes clairs : minimisation, limitation des finalités, sécurité, transparence. Il est aujourd’hui formalisé et encadré, avec une portée juridique forte. Le Data by Design en est complémentaire : il permet, en amont, de qualifier les données personnelles, d’anticiper leur traçabilité, et d’intégrer les contraintes de protection dans les modèles eux-mêmes.

Security by Design : Le Security by Design vise à intégrer les exigences de sécurité dès la conception des systèmes et des applications. Il s’agit d’identifier les vulnérabilités potentielles, de limiter les droits d’accès, de contrôler les flux et de prévenir les usages malveillants. Le Data by Design croise cette démarche sur les aspects liés aux droits d’accès aux données, à la classification, à la journalisation des traitements, ou encore à la sécurisation des chaînes de traitement.

AI by Design : Plus récente, la démarche AI by Design cherche à encadrer les systèmes d’intelligence artificielle dès leur conception. Elle repose sur des principes d’explicabilité, de maîtrise des biais, de transparence et d’éthique. Le Data by Design y joue un rôle clé : une IA n’est explicable que si les données qui l’alimentent sont bien documentées, traçables et représentatives. La qualité de la donnée est donc un prérequis de la confiance dans les modèles.

Analytics by Design : Enfin, l'Analytics by Design désigne une approche dans laquelle les besoins d’analyse sont pris en compte dès la conception des systèmes. Cela suppose d’anticiper les jeux de données nécessaires, de structurer les modèles pour permettre les croisements pertinents, et de garantir une cohérence des dimensions d’analyse dans le temps. Le Data by Design en fournit la base : sans données bien pensées et bien structurées, l’analyse devient incertaine et peu fiable.

Comparaison des approches

Le Privacy by Design a pour objectif principal de protéger les données personnelles. Il relève du domaine juridique et de la conformité, avec un niveau de formalisation élevé, notamment grâce au RGPD. Dans une démarche Data by Design, il contribue à identifier et structurer les données à protéger.

Le Security by Design vise à prévenir les failles de sécurité. Il concerne principalement les aspects techniques et d’infrastructure, avec également un niveau de formalisation élevé. Le Data by Design s’y articule en intégrant les exigences d’accès, de journalisation et de classification dès la conception.

L’AI by Design cherche à garantir l’éthique et l’explicabilité des systèmes d’intelligence artificielle. Relevant du domaine de l’IA et de l’innovation, il est encore en cours de formalisation. Il repose sur des données explicables, traçables et représentatives, ce qui le rend fortement dépendant du Data by Design pour assurer ces prérequis.

L’Analytics by Design a pour finalité d’anticiper les besoins d’analyse. Il se rattache au domaine décisionnel et du pilotage, avec un niveau de formalisation faible à modéré. Cette approche requiert que les données soient modélisées pour l’analyse dès l’origine, condition rendue possible par le Data by Design.

Enfin, le Data by Design vise à concevoir des données gouvernables. Il s’agit d’une démarche transversale, encore en émergence, mais qui fournit la base de structuration nécessaire à toutes les autres approches by design.

Plutôt que de se juxtaposer, ces démarches peuvent s’articuler de manière cohérente. Le Data by Design peut ainsi être vu comme une démarche socle, qui structure la donnée de manière à rendre possibles, robustes et efficaces les autres approches by design. En ce sens, il renforce la capacité des organisations à anticiper, maîtriser et faire évoluer leurs systèmes de manière durable.

7. Une gouvernance plus anticipatrice, plus fiable et mieux alignée

L’intégration du Data by Design transforme en profondeur la manière dont les organisations conçoivent, gèrent et exploitent leurs données. En plaçant la donnée au cœur des processus de conception, cette démarche ouvre la voie à une gouvernance plus structurée, capable de prévenir les dérives plutôt que de les corriger.

En anticipant les usages, les contraintes et les responsabilités associés à chaque donnée, le Data by Design permet de produire des actifs numériques mieux définis, mieux documentés et plus facilement gouvernables. Il réduit les écarts entre les intentions du projet, les besoins métiers et les exigences réglementaires. Il favorise également l’alignement entre les différents acteurs – techniques, métiers, conformité – en instaurant un langage commun et des repères partagés.

Du point de vue opérationnel, la démarche permet de diminuer les coûts liés aux corrections a posteriori, de sécuriser les flux de données critiques, et d’accélérer les délais de mise en production en réduisant les zones d’incertitude. Du point de vue stratégique, elle renforce la capacité des organisations à industrialiser leurs produits de données, à soutenir des approches comme les data products ou les data contracts, et à démontrer leur conformité dans la durée.

Enfin, le Data by Design contribue à faire évoluer la gouvernance des données d’un modèle essentiellement réactif vers une approche proactive et structurante. Il ne se contente pas d’encadrer ce qui existe : il guide ce qui est conçu. En ce sens, il ne s’oppose pas aux autres dimensions de la gouvernance – qualité, sécurité, conformité, architecture –, mais leur donne un socle plus solide. Il devient un levier transversal d’alignement, de fiabilité et de cohérence, au service d’une gouvernance des données plus mature, plus intégrée et plus durable.

Il convient toutefois de souligner qu’une organisation peut afficher une démarche Data by Design sans réellement en appliquer les principes structurants. Dans ces cas, la mise en œuvre se réduit à un vernis documentaire ou procédural : formulaires à remplir, métadonnées ajoutées a posteriori, validations symboliques sans implication des bons acteurs. Ce type d’implémentation “cosmétique” présente deux dangers majeurs : d’une part, il crée un faux sentiment de maîtrise qui retarde la détection des problèmes réels ; d’autre part, il peut décourager les équipes en leur imposant une charge administrative perçue comme inutile. Le Data by Design ne se résume pas à des livrables, il repose sur une intention claire, une structuration des responsabilités et une intégration effective dans les cycles de conception. Sans cela, il devient une contrainte formelle plutôt qu’un levier stratégique.

8. Conclusion

Le Data by Design ne se résume pas à une bonne pratique ou à un outil de plus dans la boîte à outils de la gouvernance. Il marque un changement de posture : penser la donnée non pas après coup, mais dès l’origine, avec l’intention de la rendre compréhensible, fiable, réutilisable et gouvernable. Cette démarche exigeante suppose une organisation outillée, des responsabilités bien définies et un cadre de gouvernance clair, sans quoi elle reste difficile à soutenir dans la durée.

Mais lorsque ces conditions sont réunies, le Data by Design devient un levier structurant. Il réduit les coûts liés aux correctifs, améliore la qualité des systèmes livrés, facilite les synergies entre équipes et renforce la capacité des organisations à répondre à leurs obligations comme à leurs ambitions. Il s’articule naturellement avec d’autres approches by design et participe à la transformation d’une gouvernance souvent réactive vers un modèle plus anticipateur, plus cohérent, et plus durable.

Faire de la donnée un objet de conception à part entière, c’est faire le choix d’une gouvernance qui ne subit pas, mais qui construit.

Bibliographie

Cavoukian, A. (2009). Privacy by design: The 7 foundational principles. Information and Privacy Commissioner of Ontario. https://www.ipc.on.ca/wp-content/uploads/resources/7foundationalprinciples.pdf

Khatri, V., & Brown, C. V. (2010). Designing data governance. Communications of the ACM, 53(1), 148-152. https://doi.org/10.1145/1629175.1629210

Ngando Black, C. (2025). Connaissance des données: L'art d'opérationnaliser la gouvernance des données. Amazon Kindle.

Ngando Black, C. (2025). Data by Design : votre organisation passe-t-elle à côté d'une opportunité ? Management & Data Science. https://management-datascience.org/articles/47392/

Pipino, L. L., Lee, Y. W., & Wang, R. Y. (2002). Data quality assessment. Communications of the ACM, 45(4), 211-218. https://doi.org/10.1145/505248.506010

Saltzer, J. H., & Schroeder, M. D. (1975). The protection of information in computer systems. Proceedings of the IEEE, 63(9), 1278-1308. https://doi.org/10.1109/PROC.1975.9939

Shankaranarayanan, G., & Even, A. (2006). The metadata enigma. Communications of the ACM, 49(2), 88-94. https://doi.org/10.1145/1113034.1113035

Spiekermann, S. (2012). The challenges of privacy by design. Communications of the ACM, 55(7), 38-40. https://doi.org/10.1145/2209249.2209263