« La qualité, c’est de la quantité assimilée ». À l’heure où les projets Big Data se multiplient, l’expression de l'écrivain Léon-Paul Fargue prend tout son sens.
Fin 2012, Amazon faisait breveter son système d’« expédition anticipée », dispositif permettant au leader du e-commerce d’expédier un article vers une zone géographique donnée, avant même que le client ne l’ait commandé (n’ait envie de le commander ?), et de compléter l’adresse de livraison finale lors du transit, une fois la commande passée.
Pour y parvenir, Amazon analysera les données clients à sa disposition : pages du site les plus visitées, temps passé sur ces pages, wish lists, historiques d’achat…
Cette information, largement relayée, n’est que l’arbre qui cache la forêt en matière d’analyse prédictive : seulement 10% des entreprises disposent en effet de logiciels de statistique prédictive1. Pourquoi si peu d’intérêt pour ce sujet de la part des entreprises alors qu’en parallèle, ces dernières sont de plus en plus nombreuses à investir dans des projets Big Data (73% d’intention d’investissement dans les vingt-quatre mois en 2014 contre 64% l’année précédente2) ?
Un problème majeur : la qualité
Si les freins sont nombreux (maturité des techniques, budget, compétences…), le suspect principal semble être la donnée elle-même. Une étude récente met en évidence que la qualité est la première barrière à dissuader les décisionnaires d’intégrer davantage la donnée dans leurs prises de décision3.
Qui utiliserait son GPS si celui-ci était soupçonné de ne pas afficher des cartes ou des noms de rues corrects ?
Lorsque l’on évoque un projet Big Data, volume de données et variétés sont rapidement mentionnés, mais la qualité de ces données vient moins spontanément dans la conversation. Pourtant, l’inquiétude est bien réelle dans les esprits puisque 92% des entreprises ont le sentiment que leurs bases de données clients comportent des erreurs4 : champs incomplets, mauvais formats, erreurs dans les adresses emails ou physiques, doublons… Tous ces cas sont légion dans les bases.
Cette préoccupation n’est pas sans fondement, une analyse montre que 40% des leads B2B s’accompagnent de données de mauvaise qualité5.
Des problèmes de process et d’organisation à l’origine de la dégradation de la qualité
Pour 61% des entreprises, les problèmes de qualité s’expliquent par des erreurs humaines6. Cette présomption semble logique : saisie manuelle, absence de standardisation liée à la diversité des canaux, extraction des données… autant d’événements susceptibles de dégrader la qualité de la donnée.
Mais d’autres causes peuvent être également évoquées pour justifier les défauts de qualité : directions fonctionnant en silo, compétences absentes en interne, faiblesse technologique, manque de leadership sur la problématique…
Établir une gouvernance de donnée
Pour pallier ce problème, des actions peuvent être entreprises :
- qualification de la donnée afin d’en évaluer la précision
- nommage parlant et standardisé des tables
- identification de l’origine des contacts
- suivi de la donnée durant tout son cycle de vie (notamment les données supprimées)
- mise en place d’outils de correction automatique pour le client (normalisation des adresses postales par exemple)
- etc.
Au-delà des actions citées, un audit de la qualité des données devrait être la première action d’un projet Big data, dont le propos est justement de générer de la valeur à partir des données traitées.
Enfin, d’un point de vue managérial, cette problématique doit relever d’une stratégie d’entreprise et passe par la mise en place d’une gouvernance de la donnée afin d'en suivre et d'en maintenir la qualité.
Signe que la qualité des données est un enjeu, 17% des grandes entreprises américaines ont déjà nommé un Chief Data Officer au sein de leur organisation7.
Sources :
(1) Ernst and Young - http://www.ey.com/Publication/vwLUAssets/EY-etude-big-data-2014/$FILE/EY-etude-big-data-2014.pd
(2) http://www.gartner.com/newsroom/id/2848718
(3) http://www.pwc.com/gx/en/issues/data-and-analytics/big-decisions-survey/2014-survey.
(4) (6) Experian – Livre blanc – Mars 2015
(5) Integrate – Data Quality index – avril 2015
(7) https://www.gartner.com/doc/2648615/cio-advisory-chief-data-officer