Lorsqu’il y a beaucoup de données à traiter, on peut économiser des ressources et du temps de travail en se basant sur un nombre significatifs de données et extrapoler les résultats : c’est l’échantillonnage. Pratique, rapide et satisfaisant, l’échantillonnage pose néanmoins question lorsque l’échantillon se base sur vraiment trop peu de données.

échantillonnage et statistiques en webmarketing

L’échantillonnage est utilisé dès que le volume de données devient important.

Comprendre l’échantillonnage pour les statistiques Google et Facebook

La régie publicitaire de Facebook et Google Analytics sont deux outils très utilisés en webmarketing et les deux utilisent l’échantillonnage (ou sampling). Dans leur pages d’aide dédiées (ici et ) les deux GAFA expliquent qu’ils utilisent l’échantillonnage pour des raisons économique (plus rapide, moins gourmand en ressources) mais aussi pour des raisons de fiabilité (population représentative).

L’idée c’est de regarder une masse de données et de faire des statistiques dessus. Les statisticiens savent qu’au delà d’un certain volume, travailler l’ensemble des données est contre-productif et que l’on obtient les mêmes informations de valeur en se basant sur une portion représentative : l’échantillon. Le calcul de cet échantillon repose sur des lois mathématiques (loi de probabilité, intervalle de fluctuation et inférence statistique).

À noter qu’il n’y a pas que dans le numérique qu’on utilise les échantillons. Le recensement de la population française se base aussi sur la technique des échantillons. Après analyse de l’échantillon, les données sont extrapolées à la France entière.

flux d'utilisateurs Google Analytics échantillonné

Exemple de rapport basé sur des données échantillonnées

Chez Facebook Ads, les échantillons sont utilisés sur les indicateurs notés « uniques ». Par exemple « Clics sur un lien unique ». Les chiffres non uniques correspondent aux vraies valeurs (c’est le cas des clics, des impressions, des conversions…). Effet de bord : les indicateurs uniques dans les ensembles de publicité peuvent ne pas correspondre avec ceux de leur campagne mère.

Chez Google Analytics, les échantillons ne s’appliquent pas aux rapports par défaut. Il faut creuser dans GA et personnaliser ses recherches pour tomber sur des rapports basés sur des requêtes ponctuelles. Ces requêtes ponctuelles nécessitent de la ressources chez Google et les données sont donc échantillonnées. Le seuil d’échantillonnage est placé à 500000 sessions. Au-dessus, les données sont échantillonnées.

Problèmes possibles avec les échantillons

Ils sont de 3 types :

  • Biais ou erreur (si le postulat de départ est faux ou bien si le mode de calcul comporte une erreur, l’échantillon ne peut pas être représentatif) ;
  • Problème de taille (échantillon de taille suffisante) et problème de généralisation (à partir de quelle taille d’échantillon peut-on généraliser ?) ;
  • Juste représentation de l’échantillon (comment savoir si cet échantillon est vraiment représentatif ?).

Pour dépasser les seuils d’échantillonnage, Google Analytics a une solution : passer à Google Analytics 360 (payant) afin de remonter les quotas et accéder sans échantillonnage à plus de données.

Que faire en cas d’échantillonnage sur Google Analytics ?

Pour prendre des décisions éclairés et se baser sur des données non échantillonnées ou peu échantillonnées, plusieurs possibilités existent :

  • Réduire les intervalles de durée afin de passer sous le quota d’échantillonnage ;
  • Minimiser les appels aux rapports sur mesure et utiliser les rapports standard en jouant avec les dimensions secondaires ;
  • Utiliser les filtres et les segments sur les rapports standards ;
  • L’échantillonnage étant lié à la propriété, bien utiliser une propriété par site web ;
  • Utiliser l’API de Google Analytics et concevoir des requêtes à enchaîner afin de récolter toutes les données souhaitées (faisable mais long et source d’erreurs) ;
  • Acheter Google Analytics 360 ou un autre outil de webanalytics.