Garbage In, Garbage Out : données et IA

« Garbage in, garbage out » — peu de principes issus des débuts de l'informatique sont aussi pertinents aujourd'hui. L'idée est simple : la qualité de toute analyse, de tout reporting et de toute décision d'entreprise dépend directement de la qualité des données qui les alimentent. À l'ère des tableaux de bord pilotés par l'IA, des modèles prédictifs et des processus de décision automatisés, ce principe vieux de plusieurs décennies n'est plus un simple dicton nostalgique : c'est un risque opérationnel aigu.

Ce que signifie réellement Garbage In, Garbage Out

Le concept est d'une simplicité redoutable : si l'on alimente un modèle avec des données erronées, on obtient des résultats erronés. Le terme « garbage » désigne des données inexactes, incomplètes, incohérentes ou autrement défaillantes. La Data Management Association (DAMA) recense pas moins de 65 dimensions différentes de la qualité des données — un indice de la complexité réelle du problème.

Six dimensions essentielles de la qualité des données

Exactitude — Les données correspondent-elles à la réalité ? Peut-on le vérifier en les comparant à une source fiable ?
Exhaustivité — Toutes les informations requises sont-elles présentes ? Une adresse sans code postal, par exemple, est considérée comme incomplète.
Cohérence — Les données sont-elles identiques partout où elles sont stockées ? Si une région est enregistrée comme « Bavière » dans le CRM, « BY » dans l'ERP et « Bav. » dans le SIRH, les données sont incohérentes malgré leur exactitude de fond.
Actualité — Les données sont-elles disponibles au moment où elles sont nécessaires ?
Validité — Les données respectent-elles les règles métier définies, par exemple un format de code postal imposé ?
Unicité — Chaque enregistrement n'existe-t-il qu'une seule fois, ou des doublons du même client coexistent-ils avec des informations différentes ?

D'où viennent réellement les mauvaises données

Les silos de données sont souvent désignés comme la cause principale d'une mauvaise qualité des données — ils en sont pourtant davantage le symptôme que la racine véritable. Pendant des décennies, les processus métier ont été optimisés et automatisés de façon isolée, chaque nouveau système métier apportant son propre jeu de données. Les ERP ont certes permis de regrouper logiquement des données similaires au sein d'une même base, sans toutefois imposer de standards de qualité et de sémantique cohérents sur l'ensemble des processus métier. Avec l'essor d'applications spécialisées comme les CRM, de nouveaux îlots isolés de données prétendument fiables sont apparus.

Sources typiques de données défaillantes

Fusions et acquisitions, lors desquelles des données externes sont importées sans se conformer aux standards internes de l'entreprise
Erreurs de saisie manuelle
Règles de validation contradictoires ou différentes au sein d'un même système ou entre plusieurs systèmes
Absence d'intégration entre systèmes au sein de processus métier complexes
Absence de structures de gouvernance des données ou de politiques partagées au sein de l'entreprise

Pourquoi l'IA n'élimine pas le problème, mais l'amplifie

Un système classique fonctionne selon un principe un-pour-un : un point de donnée erroné produit un résultat erroné. Un modèle d'IA, en revanche, ne se contente pas d'utiliser les données — il apprend à partir d'elles. Il analyse d'immenses volumes de données pour identifier des schémas, des corrélations et des liens qui échapperaient à un être humain.

Lorsque ces données sont polluées — truffées de doublons, de champs manquants, d'informations obsolètes et d'incohérences —, l'IA ne produit pas seulement quelques mauvaises réponses. Elle tire les mauvaises leçons et construit toute sa « compréhension » du marché sur une base défaillante. Le résultat peut se comparer à un étudiant brillant qui apprendrait dans un manuel truffé d'erreurs : il intériorisera les informations erronées avec une totale assurance et les appliquera sans faille, mais de façon incorrecte, à chaque nouveau problème — pendant qu'un tableau de bord poli et convaincant présentera précisément ces conclusions erronées.

Une confiance en baisse malgré une dépendance croissante

Une enquête de Salesforce illustre clairement l'ampleur du problème : 76 % des dirigeants estiment qu'une approche pilotée par les données est devenue plus importante que jamais avec l'IA — mais seulement 36 % d'entre eux font réellement confiance à l'exactitude des données de leur entreprise, soit une baisse de 27 points de pourcentage en une seule année. Cette combinaison entre dépendance croissante et confiance déclinante crée une illusion dangereuse de précision : des résultats automatisés qui paraissent soignés et intelligents, mais reposent sur des fondations fragiles.

Quatre schémas de défaillance concrets dans le go-to-market

De mauvaises données ne causent pas que de simples désagréments — elles sabotent activement les piliers centraux des stratégies modernes de marketing et de vente.

Le profil client fantôme

Si un CRM regorge de doublons, d'effectifs d'entreprise manquants ou de classifications sectorielles incohérentes, l'IA détecte des schémas dans le bruit plutôt que dans le signal réel. Elle pourrait en déduire à tort que les petites entreprises constituent l'audience la plus précieuse, simplement parce que des milliers d'enregistrements PME en double existent. Le résultat est un profil client idéal fantôme, qui déforme la cible réelle de l'entreprise.

Le scoring de leads peu fiable

Si les données d'engagement ou les coordonnées de contact font défaut, une IA ne peut pas distinguer de façon fiable un lead réellement prometteur d'un contact qui paraît attractif uniquement à cause d'artefacts de données. Les équipes commerciales finissent par perdre un temps précieux sur des leads sans issue, tandis que des prospects à fort potentiel restent sans suivi.

La personnalisation embarrassante

Si un contact est encore répertorié comme « Responsable marketing » dans le système alors qu'il a été promu à la direction générale depuis longtemps, une séquence automatisée enverra un message inadapté et obsolète. De telles erreurs ne se contentent pas de rendre les actions inefficaces — elles nuisent activement à la crédibilité de la marque.

La prévision de revenus trompeuse

Si les données de pipeline sont marquées par des définitions d'étapes incohérentes, des enregistrements en double et des dates de clôture purement indicatives, un modèle d'IA bâtit sa prévision sur un terrain instable. Le résultat : des prévisions tantôt follement optimistes, tantôt pessimistes, qui conduisent à de mauvaises décisions en matière de recrutement, d'allocation des ressources et de budget.

La gouvernance des données comme première ligne de défense

Le véritable problème n'est pas l'IA elle-même, mais ce qu'on lui fournit en entrée. C'est précisément là qu'intervient une discipline souvent sous-estimée : la gouvernance des données. Une structure de gouvernance solide comprend généralement :

Un glossaire métier partagé, avec des définitions de termes sans ambiguïté
Une traçabilité complète de l'origine des indicateurs et jeux de données clés (data lineage)
Une transparence sur la provenance des données, leur usage et leurs responsables
Des règles et une logique documentées derrière les indicateurs et calculs centraux

S'y ajoute désormais la gouvernance de l'IA, qui gagne en importance : documentation détaillée des modèles, évaluations systématiques des risques liés aux applications d'IA, et mesures de transparence rendant les décisions de l'IA compréhensibles pour l'ensemble des parties prenantes.

Le master data management comme solution structurelle

Le master data management (MDM) offre une approche systématique pour démanteler les silos de données et instaurer une confiance durable dans les données de l'entreprise. Le MDM agit simultanément sur plusieurs niveaux :

Qualité des données — nettoyage des données conformément aux dimensions de qualité essentielles
Gouvernance des données — application des politiques définissant ce qui constitue des données propres
Enrichissement des données — complément des données nettoyées par des informations supplémentaires précieuses
Intégration des données — résolution des silos via une source de données centrale et fiable
Gestion des données (data stewardship) — une responsabilité claire pour la correction des données défaillantes
Automatisation des workflows — processus automatisés de revue et de validation des données signalées comme défaillantes

Cinq étapes concrètes vers des données propres

Étape 1 : réaliser un audit complet des données

Ce qui n'est pas visible ne peut pas être corrigé. La première étape consiste à évaluer l'état actuel de vos données — par exemple en mesurant les taux de remplissage des champs critiques, le nombre d'enregistrements en double et la cohérence du formatage, afin d'identifier les zones les plus problématiques.

Étape 2 : standardiser et normaliser les données

Une source unique de vérité et un dictionnaire de données clair sont essentiels. Un champ est-il renseigné comme « France », « FR » ou « Frce » ? De telles incohérences peuvent être évitées grâce à des menus déroulants et des règles de validation appliquées directement au moment de la saisie.

Étape 3 : nettoyer et enrichir les données existantes

Des outils de déduplication permettent de fusionner les contacts et comptes en double. Des services d'enrichissement de données externes peuvent compléter automatiquement les informations manquantes, vérifier les coordonnées de contact et mettre à jour les intitulés de poste ainsi que les données d'entreprise obsolètes.

Étape 4 : établir des structures de gouvernance claires

La qualité des données est un travail d'équipe. Une politique de gouvernance simple devrait préciser qui est responsable de la qualité des données, quelles règles s'appliquent à la saisie, et comment les erreurs sont corrigées — souvent portée par un petit comité réunissant les ventes, le marketing et l'IT.

Étape 5 : automatiser, surveiller et entretenir

La maintenance des données n'est pas un projet ponctuel. Les données perdent plus de 20 % de leur actualité chaque année, à mesure que les personnes changent d'emploi et que les entreprises évoluent. Des outils automatisés assurant en continu le nettoyage, la déduplication et l'enrichissement, associés à un tableau de bord de qualité des données pour un suivi permanent, permettent de détecter les problèmes avant qu'ils ne deviennent systémiques.

Garbage In, Garbage Out : pourquoi une mauvaise qualité des données sabote toute analyse IA