A quoi peut donc servir l’usage d’une plateforme open source statistique comme R avec google Analytics ? L’idée ici est d’aller un peu plus loin dans l’usage de la data au-delà du simple usage de la consommation de rapports que nous produit google Analytics Je n’irai pas dans une démonstration poussée, c’est loin d’être mon cœur de métier, mais donnerait quelques éléments pour démarrer un premier test pour se familiariser avec l’accès à l’api de google Analytics et sa connexion avec la plateforme Rstudio. Certains calculs statistiques dans google Analytics sont impossible à faire. Aussi google Analytics n’est pas une plateforme conçue pour cela. Je vais donc reprendre un cas « type » que l’on retrouve souvent en langue anglaise sur internet et notamment sur cette page : https://developers.google.com/analytics/solutions/r-google-analytics
Contexte et objectifs de la manipulation de données Google Analytics avec Rstudio
Dans google Analytics il est facile de constater les conversions qui viennent d’être accomplies. Mais quid de l’avenir ? Une analyse cumulative peut nous aider à y voir plus clair.
A partir de là, je souhaite connaître l’effet d’une campagne sur une période à venir sur les ventes. L’idée est d’utiliser le langage statistique R sur le jeu de données google Analytics afin de définir sur le long terme, la portance en chiffre d’affaires, pour en entrevoir une tendance. L’usage de segments à travers de séquences, pour en extraire des cohortes peut s’avérer aussi judicieux pour mettre en avant tel ou tel type de prospects/clients potentiels.
Le cas ici est un mini-cas, car le jeu de données ne porte que sur une fin de mois, mais l’intérêt est de comprendre le principe, et cela marchera d’autant mieux si bien sûr les données sont plus étalées sur la période choisie.
Eléments techniques nécessaires pour cette opération d’extraction de données depuis google Analytics
Accès aux données en dehors de Google Analytics grâce à l’API Googla Analytics via google cloud console
- Vérifiez bien sûr que vous avez accès à un compte Google Analytics en mode administration et qui contient des données qui peuvent être utilisées pour analyse. Il faudra récupérer l’id de la vue dans le script R de la requête par la suite.
- Création d’un projet sur la Console Google et codes OAuth. : https://console.cloud.google.com/
- #Code pour se connecter depuis la console Rstudio
# Authorize the Google Analytics account # This need not be executed in every session once the token object is created # and saved client.id <- "votreclient.apps.googleusercontent.com" client.secret <- "votreclésecrete" token <- Auth(client.id,client.secret)
Utilisation du studio « R » et de la bibliothèque RGoogleAnalytics pour extraire les données via les accès APIs
- Installer Rstudio : https://rstudio.com/products/rstudio/download/
- Installer les outils de R Rtools et devtools , procedure ici : http://jtleek.com/modules/01_DataScientistToolbox/02_10_rtools/#2
- Installation du package source Rgoogleanalytics : importer dans rstudio l’archive https://cran.r-project.org/web/packages/RGoogleAnalytics/index.html
- Suivez l’exemple de code sur Github pour vous assurer que vous pouvez accéder aux données Google Analytics dans R
- Pour plus de ressources d’installation, visitez le guide d’installation RGoogleAnalytics.
Explication du langage « R » pour dialoguer avec les données google Analytics
-
La requête :
Pour effectuer cette analyse, la requête de l’échantillon RGoogleAnalytics peut être modifiée. La requête ci-dessous tire les transactions et les revenus pour tous les utilisateurs qui ont visité le site pour la première fois de la campagne A entre t-elle date et t-elle date, et qui ont fait un achat à un moment donné entre tel date et tel date.
- Cette requête peut être testée en amont avec le tool “query builder” de Google, cela donne :
query.list <- Init(start.date = “2020-01-01”,
end.date = “2020-01-31”,
dimensions = “ga:date”,
metrics = “ga:transactions,ga:transactionRevenue”,
segment =”users::sequence::^ga:userType==New%20Visitor;dateOfSession<>2020-01-01_2020-01-31″,
sort = “ga:date”,
table.id = “ga:179400060”)
img query explorer
img rsudio affichage requete
-
Comprendre le segment
segment =”users::sequence::^ga:userType==New%20Visitor;dateOfSession<>2020-01-01_2020-01-31″,
- Le segment se compose de quelques conditions de séquence :
- Le segment sélectionne les utilisateurs: afin d’inclure non seulement les sessions qui correspondent aux conditions, mais toutes les sessions entre les utilisateurs qui correspondent aux conditions.
- La séquence : : le préfixe permet la sélection d’un ensemble d’utilisateurs qui ont rempli un ensemble d’étapes spécifié. Dans ce cas, la première étape consiste à visiter d’une campagne donnée dans un ensemble donné de temps, et la deuxième étape est de faire un achat.
- Le préfixe en face de ga:userType -New%20Visitor;dateOfSession- [plage-de-date] garantit que la date de session, campagne, et les conditions de type utilisateur sont vraies pour le premier coup de la première session dans la plage de date donnée.
- -perSession::ga:transactions-0 spécifie la deuxième étape de faire un achat à un moment donné.
Consultez le Guide des développeurs de segments pour plus de détails sur les segments possibles
On peut faire aussi la même manipulation depuis google Analytics avec la fonctionnalité de segmentation
-
Travailler avec les résultats d’une campagne
Le résultat de cette requête est les transactions et les revenus par jour pour le groupe spécifié d’utilisateurs. Les transactions quotidiennes, ou supplémentaires, et les revenus par jour peuvent être transformés en nombres cumulatifs en R en utilisant la fonction cumsum. Ces données peuvent ensuite être graphiques à l’aide de la fonction de ggplot2.
Les transactions cumulées des transactions indiquent le nombre total de transactions qui ont eu lieu. Par conséquent, les points du graphe montrent les transactions cumulatives et permet de voir la valeur à long terme de chaque campagne
-
Travailler avec les résultats de 2 campagnes en parallèle
La valeur ajoutée vient ensuite de la comparaison entre 2 campagnes, voire plus, pour en déterminer celles qui donnent le plus de résultats en valeur cumulée de chiffre d’affaires.
Pour conclure, ce petit atelier permet d’ouvrir de nouveaux horizons, de faire des projections, et de sortir de l’application google Analytics. Bien d’autres usages sont possibles comme la prévision des ventes, de la visualisation de données…