Quand la Data Science classe les magasins drive selon la tendance de leur chiffre d'affaires

Secteur :

Retail

Publié le :

November

2020

Auteur :

SuccessStories

Data

Et si la data science pouvait aider à optimiser l'implantation des magasins drive ?

Challenge

Le Drive, consistant à commander ses courses en ligne avant de venir les récupérer sur place, est un mode d’achat en plein essor. La période de confinement a évidemment renforcé cette tendance, avec une augmentation de 29.4 % du chiffre d’affaires (CA) du drive lors de la première semaine du confinement, par rapport à la même semaine l’année précédente, la vente de produits frais en drive ayant même progressé de 150 % ! [1,2].

‍

Le choix de la localisation des prochains magasins drive à implanter est une des problématiques pour les acteurs de la grande distribution. Pour cela, la prédiction de l’évolution du CA peut-être un argument clé pour décider du passage en Drive d’un magasin.

Dans cette optique, un leader de la grande distribution en France nous a fourni les chiffres d’affaires quotidiens sur plus de deux ans de leurs magasins drive, afin d’établir, au sein de notre équipe de Data Scientist, un modèle prédisant la tendance du CA de futurs magasins.

Nous détaillons ici l’une des étapes cruciales pour l’élaboration du modèle : à partir des données fournies, comment classifier les magasins selon l’évolution de leur chiffre d’affaires. Nous distinguons ici trois comportements : les magasins dont le chiffre d’affaires est en hausse, ceux pour lesquels le CA stagne ou baisse, et enfin les magasins au CA à saisonnalité singulière (par exemple, magasins sur les côtes, dans les stations de ski …).

Ce travail a fait l’objet d’une publication scientifique, disponible ici (lien en anglais) [3]. Une rapide synthèse est présentée dans la suite.

Après avoir normalisé le chiffre d’affaires – mis sa moyenne à 0 et sa variance à 1, afin de pouvoir comparer les tendances haussières ou baissière et non pas le CA absolu des magasins – on peut commencer par la visualisation de l’évolution du chiffre d’affaires dans le temps.

Intervention

Néanmoins, comme on le voit sur la figure ci-dessus, le bruit est trop important pour déterminer si le chiffre d’affaires est réellement en augmentation (il l’est, dans ce cas précis). Et pour cause, la série temporelle du CA est difficile à analyser : il faudrait comparer les jours de la semaines, évaluer la granularité mois en fonction du nombre de jours, mais aussi du nombre de mercredis ou de dimanches, et tenir compte de la saisonnalité (vacances, fêtes), ou d’évènements extérieurs (grèves, confinement).

La solution mise en place a nécessité d’effectuer (1) un débruitage et (2) un traitement automatisé que l’on va décrire.

‍

Transformation de séries temporelles en séries d’ondelettes

Nous sommes devant un problème bien connu en data science : l’analyse de séries temporelles, en particulier le débruitage de celles-ci. Plusieurs outils mathématiques existent, le plus populaire étant la transformée de Fourier, permettant une analyse fine des signaux. Néanmoins, elle présente l’inconvénient de ne pas pouvoir identifier précisément les périodes de temps impliquées, son explicabilité est donc limitée.

Un compromis entre précision sur le temps et analyse à différentes fréquences peut être trouvé en utilisant la transformée en ondelettes (wavelets en anglais) [4]. Sans entrer dans les détails mathématiques (le lecteur averti peut ainsi se référer aux références [5,6]), la transformée en ondelettes consiste à calculer le recouvrement entre une onde localisée dans le temps (d’où le nom d’ondelette) et la série temporelle. Selon que l’ondelette est dilatée ou contractée, différents ordres de grandeurs temporels sont alors captés.

Nous obtenons à la suite de la transformée en ondelettes une série de coefficients d’ondelettes, contenant le « poids » des chiffres d’affaires sur des périodes de temps données. L’avantage est qu’en sélectionnant uniquement les coefficients d’ondelettes de basses fréquences – captant ainsi la tendance à long terme - nous pouvons recomposer le signal original, cette fois-ci débruité (sur le même magasin qu’au-dessus) :

CA des magasins drive débruité – ondelettes

Il est désormais plus clair que le chiffre d’affaire a une tendance haussière. Il reste désormais à automatiser la catégorisation des magasins.

‍

Segmentation des magasins par coefficients d’ondelettes

La transformation en ondelettes est ensuite effectuée pour chaque série temporelle correspondant aux chiffres d’affaires quotidiens de chaque magasin. Puis, nous retenons les coefficients d’ondelettes correspondants aux basses fréquences.

A chaque magasin correspond donc un ensemble de coefficients d’ondelettes qui sont introduits comme variables d’entrée d’un algorithme de clustering « k-moyennes » (k-means en anglais) [7]. L’objectif de cet algorithme est de créer k clusters (dans notre cas, 3) de telle manière que : les points au sein du même cluster ont un maximum de similitudes, et un minimum de similitudes avec les points des autres clusters.

Voici, après recomposition des signaux à partir des coefficients d’ondelettes, les trois clusters obtenus :

Il est important d’indiquer que le clustering des magasins ne les étiquette pas : leur interprétation est néanmoins facile dans ce cas, les trois clusters correspondent aux magasins ayant un CA en hausse, stagnant ou à saisonnalité singulière.

Sur la base du clustering effectué, nous avons donc étiqueté les magasins selon la tendance de leur CA (hausse, stagne et spécial), tel que nous l’avons fait dans la figure ci-dessus.

Résultats

Prédire le CA d'un magasin

Conclusion

Dans cet article nous avons montré comment la combinaison de deux outils mathématiques, la transformation en ondelettes et le clustering par k-moyennes, permettait de classifier les magasins drive selon la tendance de leur CA.

Nous ne détaillons pas ici tous les avantages que peut fournir l’étude des coefficients d’ondelettes, comme la possibilité d’extraire les périodes de l’année cruciales dans la séparation des clusters. Ils sont référencés dans notre article scientifique [3].

En complément de cette étude, deux pistes peuvent être explorées :

Prédiction de la tendance du CA pour un futur magasin. Aux étiquettes obtenues par clustering (CA en hausse, stagnant ou spécial), nous pouvons ajouter d’autres données caractérisant le magasin (données géographiques, démographiques, zones de chalandise). À partir de cet ensemble de données, nous pouvons entraîner un algorithme d’apprentissage supervisé ayant l’étiquette (hausse, stagnant, spécial) comme valeur cible. Nous pourrons ainsi prédire, pour des zones géographiques données, quel sera le comportement du CA si un magasin passe en Drive.
En parallèle de la clusterisation, nous avons étudié l’influence de la tendance des chiffres d’affaires des rayons, sur la tendance globale du chiffre d’affaires. Pour cela, nous avons utilisé une méthode de clustering multi-varié, qui fait l’objet d’une autre publication scientifique qui sera présentée prochainement.

‍

[1] https://www.nielsen.com/fr/fr/insights/article/2020/covid-19-coup-daccelerateur-pour-le-drive/

Quand la Data Science classe les magasins drive selon la tendance de leur chiffre d'affaires

Transformation de séries temporelles en séries d’ondelettes

Segmentation des magasins par coefficients d’ondelettes

Conclusion

Comment pouvons-nous vous aider ?